基于jxbrowser的网页采集技术-上海怡健医学()

优采云发布时间: 2021-06-08 02:41

　　本发明涉及计算机网络技术领域，具体是一种基于jxbrowser的网页采集技术。

　　背景技术：

　　随着互联网和自媒体信息的飞速发展，互联网技术呈现多样性和复杂性。网页的实现技术从静态网页到动态网页，从原文传输到加密传输，从cookie控制请求到前端秘钥加密验证；这些技术带来的变化，让数据采集的工作越来越困难，成本也越来越高。

　　目前类似网页采集技术，无法有效渲染动态网页，无法正确加密数据采集，采集效率低等，导致上网工作质量下降采集，导致信息量大，范围错误；给相关业务系统带来了很大的麻烦。

　　技术实现要素：

　　本发明要解决的技术问题是爬虫技术采集全和准确率的问题。动态网页无法有效渲染、加密数据无法正常采集、采集、效率低下等，导致互联网采集工作质量下降，造成信息*敏*感*词*泄露；给相关业务系统带来了很大的麻烦。

　　为解决上述技术问题，本发明采用以下技术手段：

　　一种基于jxbrowser的网页采集技术，其特点是网页采集步骤如下：

　　第一步：数据初始化：通过jxbrowser完成实例对象的数据初始化；

　　第2步：保存路径：通过browsercontextparams传递初始数据，设置实例对象的web缓存保存路径；

　　第三步：代理ip地址和端口：通过contextparams设置代理ip地址和端口；

　　第四步：加载数据完成初始化：使用函数getbrowsercontext加载数据，使用initbrowser对加载的数据完成对实例对象的所有初始化操作；

　　第五步：资源定位：通过loadurl实现对目标URL的请求；

　　第六步：获取内容：网页下载后，获取html内容；

　　第七步：完成采集：将网页内容发送到kafka，完成网页采集。

　　本发明的保护点：一种设置代理ip的方法；判断网页是否加载的方法；一种动态网页和加密网页的正常分析方法。

　　作为优选，本发明进一步的技术方案是：

　　上面提到的加载数据是分别加载保存路径、代理ip地址和端口步骤中获取的数据。

　　本发明可以达到以下技术效果。它可以实现动态网页的采集和加密网页的采集。采集的效率相比同类技术效率有了很大的提升。支持代理ip访问网址。

　　图纸说明

　　图。附图说明图1为本发明实施步骤的结构框图。

　　具体实现方法

　　以下实施例进一步说明本发明。

　　参见图1，可以看出，本发明基于jxbrowser的网页采集技术的特征在于网页采集的制作步骤如下：

　　第一步：数据初始化：通过jxbrowser完成实例对象的数据初始化；

　　第2步：保存路径：通过browsercontextparams传递初始数据，设置实例对象的web缓存保存路径；

　　第三步：代理ip地址和端口：通过contextparams设置代理ip地址和端口；

　　第四步：加载数据完成初始化：使用函数getbrowsercontext加载数据，使用initbrowser对加载的数据完成对实例对象的所有初始化操作；加载数据，分别加载保存路径、代理ip地址和端口步骤获取的数据；

　　第五步：资源定位：通过loadurl实现对目标URL的请求；

　　第六步：获取内容：网页下载后，获取html内容；

　　第七步：完成采集：将网页内容发送到kafka，完成网页采集。

　　本发明的保护点：一种设置代理ip的方法；判断网页是否加载的方法；一种动态网页和加密网页的正常分析方法。

　　由于以上仅为本发明的具体实施方式，本发明的保护范围不限于此。任何本领域技术人员能够想到的技术方案的技术特征的等同变化或替换，均收录在本发明的保护范围内。

0

2021-06-08

采集网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

基于jxbrowser的网页采集技术-上海怡健医学()

0 个评论

发起人

AI时代内容工厂

基于jxbrowser的网页采集技术-上海怡健医学()

0 个评论

发起人

相关问题