网页新闻内容手动采集
优采云 发布时间: 2020-08-25 23:37网页新闻内容手动采集
电脑编程方法与维护 网页新闻内容 自动采集 吴文辉 (国防信息学院,武汉 430010) 摘关键词 :网页 ;自动采集 要 :研究了网站网页新闻内容 自动采集的实现方式,给出了编程实现的算法。 W eb N ew C on ten t A u to E x tr action W U W en - hu i (PL A Academy of National Defense Information , Wuhan 430010 , China) A bstr act : T he paper studi es the methods of auto coll ecti ng web New con tent in websites,gi ving the pr og rammi ng algo— ri thm s. K ey wor ds : W eb page ; auto extract 1 序言 学院有多个网站 ,各网站采用的数据库、架构多种多样, 页面风格也各不同。在门户网站上要实现信息 自动聚合功能, 正式各网站的新 闻手动采集放到门户网站特定栏 目.通过网 页新闻内容手动采集系统可以实现自动化操作。
2采集方法 如果数据库都公开.可以在数据库级别整合 ,以实现更 好的聚合,不用考虑页面剖析。各数据库的结构不统一 ,且 数据库结构不公开,甚至没有访问权限,实际很难通过这些 方式实现 自动化采集.仅适宜少量已知系统的聚合。因此不 考虑这些方法。 更通用的做法是.通过网页内容采集程序,分析网站各 页面源文件 ,获取其页面内容的开始 、结束标记 ,然后通过 正则表达式等字符串剖析方式获取内容。这种方式具有通用 性 。不必考虑 目标网站的数据库 、架构等细节。如果要达到 对新网站自动化处理。需要进一步考虑页面内容 自动获取方 法。参考文献 [1] 中基于网站拓扑的网页内容精化算法 ,可 以实现网站内容 自动化处理。 3系统实现 自动采集处理思路为 :首先对要采集的网页源文件的结 构进行剖析 ,比较 2个同级相像网页中具有不同内容的标记, 忽视其他所有具有相同内容的标记 ,如友情链接等 ;然后依 次采集每个页面中具有不同内容的标记中的内容。 剖析网页内容的方式可以采用字符串比较或 DOM树分 析法。 字符串比较法:分段逐渐读取 2 个同级相像网页的内容 , 剖析比较字符串内容是否不同,如不同,则记录不同内容所 在的标记 DOM树分析法 :对2 个同级相像网页的 DOM树进行对比 分析,忽略相像子树 s 的内容,记录不同内容的子树集 A ,这 里的子树对应网页源文件中的一个标记。
采用 DOM 树分析法时,因为现有系统的网页,有些缺位 结束标记或标记错误 ,不符合 xml 规则,往往造成处理异常; 假如网页内容较多时,导致性能大幅增长。 个网站中 2 个同级相像网页中如有缺位结束标记或标 记错误等,则错误也相同;采取分段逐渐读取网页内容比较 , 在网页内容较多时也能保持良好的性能。因此采用字符串比 较法剖析...