内容采集(基于网络爬虫的网站信息采集技术整合方案的设计与实现)
优采云 发布时间: 2022-03-04 16:08内容采集(基于网络爬虫的网站信息采集技术整合方案的设计与实现)
【摘要】 随着互联网的迅速普及和发展,它已逐渐融入人们日常生活的方方面面。网络是人们在互联网上相互交流、获取*敏*感*词*绕这一目标,本文提出了基于网络爬虫的网站信息采集技术集成方案的设计与实现。本文提出的基于网络爬虫的网站信息采集技术集成方案包括信息采集、信息抽取和信息检索三个部分。信息采集是基于Heritrix爬虫扩展实现的(结合HtmlUnit),负责完成目标站点的网页采集;信息提取是基于Jsoup和DOM技术,负责完成从网页中提取文章信息存入数据库,将非结构化信息转化为结构化信息;信息检索基于Lucene索引工具和SSH2架构实现,负责呈现采集信息的文章,方便用户浏览。