网页新闻内容手动采集

优采云发布时间: 2020-08-25 23:37

　　网页新闻内容手动采集

　　电脑编程方法与维护网页新闻内容自动采集吴文辉 (国防信息学院，武汉 430010) 摘关键词：网页；自动采集要：研究了网站网页新闻内容自动采集的实现方式，给出了编程实现的算法。 W eb N ew C on ten t A u to E x tr action W U W en - hu i (PL A Academy of National Defense Information ， Wuhan 430010 ， China) A bstr act ： T he paper studi es the methods of auto coll ecti ng web New con tent in websites，gi ving the pr og rammi ng algo— ri thm s． K ey wor ds ： W eb page ； auto extract 1 序言学院有多个网站，各网站采用的数据库、架构多种多样，页面风格也各不同。在门户网站上要实现信息自动聚合功能，正式各网站的新闻手动采集放到门户网站特定栏目．通过网页新闻内容手动采集系统可以实现自动化操作。

　　 2采集方法如果数据库都公开．可以在数据库级别整合，以实现更好的聚合，不用考虑页面剖析。各数据库的结构不统一，且数据库结构不公开，甚至没有访问权限，实际很难通过这些方式实现自动化采集．仅适宜少量已知系统的聚合。因此不考虑这些方法。更通用的做法是．通过网页内容采集程序，分析网站各页面源文件，获取其页面内容的开始、结束标记，然后通过正则表达式等字符串剖析方式获取内容。这种方式具有通用性。不必考虑目标网站的数据库、架构等细节。如果要达到对新网站自动化处理。需要进一步考虑页面内容自动获取方法。参考文献 [1] 中基于网站拓扑的网页内容精化算法，可以实现网站内容自动化处理。 3系统实现自动采集处理思路为：首先对要采集的网页源文件的结构进行剖析，比较 2个同级相像网页中具有不同内容的标记，忽视其他所有具有相同内容的标记，如友情链接等；然后依次采集每个页面中具有不同内容的标记中的内容。剖析网页内容的方式可以采用字符串比较或 DOM树分析法。字符串比较法：分段逐渐读取 2 个同级相像网页的内容，剖析比较字符串内容是否不同，如不同，则记录不同内容所在的标记 DOM树分析法：对2 个同级相像网页的 DOM树进行对比分析，忽略相像子树 s 的内容，记录不同内容的子树集 A ，这里的子树对应网页源文件中的一个标记。

　　采用 DOM 树分析法时，因为现有系统的网页，有些缺位结束标记或标记错误，不符合 xml 规则，往往造成处理异常；假如网页内容较多时，导致性能大幅增长。个网站中 2 个同级相像网页中如有缺位结束标记或标记错误等，则错误也相同；采取分段逐渐读取网页内容比较，在网页内容较多时也能保持良好的性能。因此采用字符串比较法剖析...

0

2020-08-25

网页文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻内容手动采集

0 个评论

发起人

AI时代内容工厂

网页新闻内容手动采集

0 个评论

发起人

相关问题