htmlunit抓取动态网页(一种面向动态网页的定向信息提取模型模型研究)
优采云 发布时间: 2021-11-02 22:18htmlunit抓取动态网页(一种面向动态网页的定向信息提取模型模型研究)
【摘要】随着Web2.0技术的出现和快速发展,互联网上出现了越来越多的动态网页。Ajax技术实现了客户端和服务器之间的异步数据传输操作,不仅提高了用户体验,而且促进了动态网页的普及和互联网的发展。但是,这也使得传统的网络爬虫无法根据HTML源代码提取信息,从动态网页中提取动态信息。因此,支持动态网页信息提取的研究具有一定的现实意义。为此,本文提出了一种动态网页的定向信息提取模型。首先,分析了动态网页方向信息提取的相关理论和技术。同时将研究对象网页分为静态网页和动态网页,并进行详细的对比分析。在此基础上,分析了动态网页中广泛使用的Ajax技术给信息抽取带来的挑战。最后,详细介绍了超文本标记语言、DOM模型和正则表达式在信息抽取中的作用。其次,分析了传统网络爬虫抓取动态网页的缺陷和不足,提出了动态网页的定向信息抽取模型。工作流程是先通过HTTP请求获取网页,然后使用HtmlUnit解析并执行动态脚本,并模拟页面表单的提交;最后,使用jsoup构建DOM树,提取页面信息和URL并存入数据库。第三,结合所提出的面向Web的动态定向信息抽取模型,给出了各个组件模块的具体实现方法:采用广度优先搜索策略对网站中的网页进行爬取,布隆过滤器用于链接 URL。进行去重处理,使用正则表达式和jsoup选择器提取网页信息和URL链接,使用多线程爬虫技术提升模型性能。最后,基于提出的面向Web的动态信息抽取模型,以燕山大学*敏*感*词*为抓取对象进行实验,并从模型的效率和性能上进行实验设计。通过对爬取结果的分析可以看出,所提模型在准确率、召回率、F值等评价指标下均取得了较好的效果,验证了所提模型的高效、高性能。