htmlunit抓取动态网页(一种面向动态网页的定向信息提取模型模型研究)

优采云发布时间: 2021-11-02 22:18

　　【摘要】随着Web2.0技术的出现和快速发展，互联网上出现了越来越多的动态网页。Ajax技术实现了客户端和服务器之间的异步数据传输操作，不仅提高了用户体验，而且促进了动态网页的普及和互联网的发展。但是，这也使得传统的网络爬虫无法根据HTML源代码提取信息，从动态网页中提取动态信息。因此，支持动态网页信息提取的研究具有一定的现实意义。为此，本文提出了一种动态网页的定向信息提取模型。首先，分析了动态网页方向信息提取的相关理论和技术。同时将研究对象网页分为静态网页和动态网页，并进行详细的对比分析。在此基础上，分析了动态网页中广泛使用的Ajax技术给信息抽取带来的挑战。最后，详细介绍了超文本标记语言、DOM模型和正则表达式在信息抽取中的作用。其次，分析了传统网络爬虫抓取动态网页的缺陷和不足，提出了动态网页的定向信息抽取模型。工作流程是先通过HTTP请求获取网页，然后使用HtmlUnit解析并执行动态脚本，并模拟页面表单的提交；最后，使用jsoup构建DOM树，提取页面信息和URL并存入数据库。第三，结合所提出的面向Web的动态定向信息抽取模型，给出了各个组件模块的具体实现方法：采用广度优先搜索策略对网站中的网页进行爬取，布隆过滤器用于链接 URL。进行去重处理，使用正则表达式和jsoup选择器提取网页信息和URL链接，使用多线程爬虫技术提升模型性能。最后，基于提出的面向Web的动态信息抽取模型，以燕山大学*敏*感*词*为抓取对象进行实验，并从模型的效率和性能上进行实验设计。通过对爬取结果的分析可以看出，所提模型在准确率、召回率、F值等评价指标下均取得了较好的效果，验证了所提模型的高效、高性能。

0

2021-11-02

htmlunit抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit抓取动态网页(一种面向动态网页的定向信息提取模型模型研究)

0 个评论

发起人