基于网站拓扑的网页内容自动化处理思路(一)

优采云 发布时间: 2021-05-01 03:13

  基于网站拓扑的网页内容自动化处理思路(一)

  1简介该学院有多个网站,每个网站使用各种数据库,体系结构和页面样式。自动信息聚合功能应该在门户网站网站上实现,也就是说,每个网站的新闻都会自动采集放置在门户网站网站的特定列中,并且网络新闻的自动运行内容采集系统可以实现。 2 采集方法如果数据库都是公共数据库,则无论页面分析如何,都可以在数据库级别对其进行集成以实现更好的聚合。每个数据库的结构都不统一,数据库结构也不是公共的,甚至没有访问权限。实际上很难以这种方式实现自动化采集,这仅适用于少数已知系统的聚合。因此,不考虑这种方法。一种更通用的方法是使用Web内容采集程序分析网站中每个页面的源文件,以获取页面内容的开始和结束标签,然后通过诸如常规的字符串分析方法获取内容。表达式。此方法用途广泛,不需要考虑目标网站数据库的详细信息,体系结构和其他详细信息。如果要实现新网站的自动处理,则需要进一步考虑页面内容的自动获取方法。参考文献[1]中基于网站拓扑的Web内容细化算法可以实现网站内容的自动处理。 3系统实现了自动采集处理的思想:首先将网页源文件的结构分析为采集,在同一级别的2个相似网页中比较具有不同内容的标签,并忽略所有其他标签。相同的内容,例如友谊链接等;然后采集标签中的内容依次在每个页面中具有不同的内容。分析网页内容的方法可以是字符串比较或DOM树分析方法。

  字符串比较方法:逐步读取同一级别的两个相似网页的内容,分析比较字符串的内容是否不同,如果不同,则记录不同内容所在的标签。 DOM树分析方法:比较和分析两个相似网页在同一级别上的DOM树,忽略相似子树S的内容,记录不同内容的子树集A。此处的子树与网页的源文件中的标记相对应。使用DOM树分析方法时,由于存在系统网页,某些不符合xml规则的结束标记或标记错误会导致处理异常;如果网页内容过多,性能将急剧下降。如果网站中处于同一级别的两个相似网页中缺少结束标记或标记错误,则错误也相同;即使有更多的Web内容,通过分段阅读Web内容的逐步比较也可以保持良好的性能。因此,使用字符串比较方法来分析具有不同内容的标签。字符串比较算法:输入2个要比较的字符串,并输出不同的内容标签和位置集。处理过程:(1)依次从每个字符串中取出一个字符;(2)如果是“”的位置;([ 3)在当前标记的内容中,取出每个字符以进行比较; 1)如果字符不同,则记录当前标记的名称和位置,然后转到步骤4。2)如果字符相同,继续比较下一个字符(4)跳至结束标签的末尾;(5)如果比较了字符串,则结束,否则跳至步骤2。Web内容自动采集算法:输入采集列表中,采集时间,期间,关键词输出网页新闻内容处理过程:(1)创建一个WebClient对象,使用DownloadString方法获取前两个网页源文件;(2)使用字符串比较算法,以获取采集在网页中的位置;(3)判断时间是否为采集,如果是,则跳至步骤4,否则rwise,它将暂停操作1分钟; (4)对于每个页面采集新闻内容;(5)删除不符合关键词要求的内容,或根据需要保留该内容。(6)写入采集导入数据库以实现聚合功能。

  4系统实现该技术系统是使用C#和SQLServer2008实现的。网页提取技术使用WebClient:WebClientoWClient = newWebClient(); stringstrContent = oWClient.DownloadString(strUrl);数据库结构如表1,表2所示。5结束语该系统考虑了页面结构的特点,实现了内容的自动化采集,并且易于操作。 采集新的网站新闻内容只需要简单的配置,就大大减少了工作量。自动网络新闻内容采集 @吴文辉$国防信息学院!武汉430010研究了网站网络新闻内容自动采集的实现方法,并给出了编程算法。网页;;自动采集 [1]李峰。基于网站拓扑的网页内容优化算法。计算机工程,2007,11:5 1.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线