抓取动态网页(基于改进Single-Pass算法的噪声链接去除算法进行研究)

优采云 发布时间: 2022-01-04 16:13

  抓取动态网页(基于改进Single-Pass算法的噪声链接去除算法进行研究)

  [摘要]:互联网上Web2.0技术的出现和社交平台的兴起,极大地促进了动态网页的使用和普及。动态网页中的Ajax技术实现了客户端和服务器之间数据的异步操作,既满足了新时代的技术需求,又提高了用户体验,促进了互联网的发展。然而,传统的网络爬虫无法应对动态网页带来的新特性,因此研究支持动态页面的网络爬虫具有一定的现实意义。对于话题网络爬虫来说,噪声链接不仅毫无价值,而且消耗大量资源,尤其是采集和噪声链接对应网页上的网络爬虫分析,这大大降低了网络爬虫的效率。针对以上问题,本文的主要研究内容如下: 一、解决动态网页中Ajax异步操作原理的关键技术,以及如何让网络爬虫支持动态网页爬取的问题。本文通过HTTP请求获取网页,然后在本地构建网页的DOM树,分析脚本并提取URL,并修改HtmlUnit的源码解析需要点击触发的脚本,从而解决了传统网络爬虫对于动态网页中动态生成的网址难以获取的问题;其次,由于噪声链接大大降低了网络爬虫的效率,本文研究了去除网页噪声的算法。传统的网页去噪算法处理网页的整体结构,去噪效率低。本文通过聚类后的相似度计算对提取的URL结果进行去噪,在改进的Single-Pass算法的基础上提出了噪声链接去除算法,在去噪精度上取得了较好的效果;最后,实现了一个支持动态页面URL主题快速提取的网络爬虫系统,并针对动态网页分析和动态生成的URL提取、去噪算法的效果对比以及主题网络爬虫系统进行了设计和实现在快速提取 URL 的三个方面。实验。实验结果数据表明,本文实现的网络爬虫系统支持动态网页网址的提取,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线