网页信息抓取软件(发明专利技术涉及一种可配置化的数据抓取方法和步骤)
优采云 发布时间: 2022-02-26 11:34网页信息抓取软件(发明专利技术涉及一种可配置化的数据抓取方法和步骤)
本发明专利技术涉及一种可配置的数据抓取方法,包括以下步骤:确定需要抓取的目标网站,并配置目标网站的基本信息。站点配置页面,包括站点类型、站点名称、目标编号、页面编码格式;在用户配置页面配置可登录目标网站的用户基本信息,包括用户类型、登录账号/密码、用户代码、用户名;在爬取URL配置页面配置爬取登录和爬取数据的基本URL信息,包括URL名称、请求时的URL地址、上层URL、URL类型、请求方式、URL后缀类型;在调度管理页面配置爬取服务的启动时间;
一种可配置的数据抓取方法及装置
下载所有详细的技术数据
【技术实现步骤总结】
一种可配置的数据采集方法及装置
本专利技术涉及一种可配置的数据采集方法及装置,属于数据采集
技术介绍
目前实现数据抓取的方式有很多,包括开源代码和直接提供服务的商业工具,但这些基本上都是针对不同的目标网站,根据网站硬编码的特点实现 是的,这个实现有一定的局限性。一旦要捕获的范围变大,或者目标网站发生变化,解决问题的唯一方法就是修改之前实现的编码。这造成了一定的资源浪费,影响了执行周期。灵活性不够,还受限于实施的人员技能。
技术实现思路
为了解决现有技术中存在的上述问题,专利技术提供了一种可配置的数据采集方法,可以有效解决多次网站的采集,即使面对网站的变化的情况下,也可以通过修改配置来完成配套变更,缩短建设周期,也可以由普通实施者完成。本专利技术的技术方案如下:该技术方案是一种可配置的数据抓取方法,包括以下步骤:确定要抓取的目标网站,在站点配置页面配置目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;在用户配置页面配置可登录目标网站的用户基本信息,包括用户类型、登录账号/密码、用户代码、用户名;在爬取URL配置页面配置爬取登录和爬取数据的基本URL信息,包括URL名称、请求时的URL地址、上层URL、URL类型、请求方式、URL后缀类型;管理页面配置启动爬虫服务的时间;生成爬取作业,从目标网站抓取数据,具体步骤如下:根据爬取服务启动的时间,开始执行作业;目标网站的基本信息,打开目标网站;根据目标网站的用户基本信息,输入登录账号/密码,登录目标网站>;根据网址的基本信息,打开抓取数据的网址,对目标网站进行固定操作,抓取网页内容。进一步判断目标网站是否有验证码登录步骤,如果有验证码登录步骤,在输入验证码配置页面配置输入验证码的基本信息,包括验证码图片类型,验证码图片。验证码图片的语言、字符数、验证码大小写;如果没有验证码登录步骤,跳过验证码输入配置;如果目标网站有验证码登录步骤,则抓取目标<
进一步的,还包括用户密码验证步骤,具体为:选择一个或多个需要验证的用户,点击验证;客户端依次验证所选用户的登录账号/密码,并在后台生成。验证结果,验证结果包括登录成功和登录失败。如果验证结果是登录失败,也会在后台产生错误信息,并列出相关错误信息日志地址;点击查询获取验证结果,如验证结果为登录失败,则根据错误信息日志地址获取错误信息日志,分析并执行错误解决。进一步,在URL参数配置页面配置一个值为变量的请求参数,包括参数名称、参数类型、参数值和参数描述。技术方案2 一种可配置的数据抓取装置,包括内存和处理器,内存中存储有指令,指令用于被处理器加载并执行以下步骤:确定要抓取的目标网站 ,并在站点配置页面配置目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;配置用户配置页面登录目标 网站 用户的基本信息,包括用户类型、登录账号/密码、用户代码、用户名;在爬取URL配置页面配置爬取登录和爬取数据的基本URL信息,包括URL名称、请求时的URL地址、上层URL、URL类型、请求方式、URL后缀类型;在调度管理页面配置启动爬取服务的时间;生成一个爬虫作业,从目标网站爬取数据,具体步骤如下: 根据启动爬虫服务时开始执行作业;根据目标网站的基本信息,打开目标网站;根据目标网站的用户基本信息,输入登录账号/密码,登录目标网站;根据网址的基本信息,打开抓取数据的网址,
进一步判断目标网站是否有验证码登录步骤,如果有验证码登录步骤,在输入验证码配置页面配置输入验证码的基本信息,包括验证码图片类型,验证码图片。验证码图片的语言、字符数、验证码大小写;如果没有验证码登录步骤,跳过验证码输入配置;如果目标网站有验证码登录步骤,则抓取验证码图片中的目标网站,根据验证码中输入的基本信息识别验证码图片登录目标网站,具体步骤如下:使用网络爬虫从目标网站图片中爬取验证码;采用OCR技术,根据输入的验证码基本信息,自动识别验证码图片,获取验证码图片中的验证码信息;在验证码输入框中填写验证码信息并提交登录;如果登录失败,则转为人工识别验证码图片,在验证码输入框中输入验证码进行登录。另外,还包括用户密码验证步骤,具体如下:选择一个或多个需要验证的用户,点击验证;客户端依次验证所选用户的登录帐户/密码,并在后台生成它们。验证结果,验证结果包括登录成功和登录失败。如果验证结果是登录失败,也会在后台产生错误信息,并列出相关错误信息日志地址;点击查询获取验证结果,如验证结果为登录失败,则根据错误信息日志地址获取错误信息日志,分析并执行错误解决。
进一步的,在URL参数配置页面上配置了一个值为变量的请求参数,包括参数名称、参数类型、参数取值和参数描述。该专利技术具有以下有益效果:1、该专利技术是一种可配置的数据抓取方式,解构了数据抓取过程中的每一个关键环节,让操作者不需要专业的爬虫编码技能,就可以完成一个网站 的数据采集作业;无需投入高端人员,数据采集成本可控。附图说明图。附图说明图1是本专利技术实施例的流程图;无花果。图2是站点配置的示例图;无花果。图3是实施例中网站的源代码示例图;无花果。图4是用户配置的示例图;图5是抓取URL配置示例图。图6是寻呼表达配置的示例图。图7是调度管理配置示例图。图8是验证码输入示例图。图9为用户账号密码验证图10为URL参数配置示例图。图11是通过httpwatch获取网站信息的示例图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。实施例1 参见图1-11,一种可配置的数据捕获方法包括以下步骤:确定需要捕获的目标网站,在站点配置页面配置目标网站基本信息,包括站点类型、站点名称、目标编号、页面编码格式;如图2,以配置永辉超市网站为例,站点类型根据配置的永辉超市网站类型,选择零售商;站点名称填写永辉超市,名称可自定义;目标数量可定制,数量一般由需方提供;页面编码格式由各个网站开发定义,见图3,打开永辉超市网站,右键查看页面源代码,从源代码。从图3可以看出,页面的编码格式为UTF-8。编码格式统一,所以页面编码格式选择UTF-8。在用户配置页面,配置可以登录的目标网站
【技术保护点】
1.一种可配置的数据抓取方法,其特征在于包括以下步骤:确定要抓取的目标网站,在站点配置页面配置目标网站基本信息,包括站点类型、站点名称、目标编号和页面编码格式;在用户配置页面配置可登录目标网站的用户基本信息,包括用户类型、登录账号/密码、用户代码、用户名;在爬取URL配置页面配置爬取登录和爬取数据的基本URL信息,包括URL名称、请求时的URL地址、上层URL、URL类型、请求方式、URL后缀类型;在调度管理页面上配置启动抓取服务的时间;创造一个抢手的工作,从目标网站抓取数据,具体步骤如下:根据抓取服务启动的时间开始执行job;根据目标网站的基本信息,打开目标网站;根据目标网站的用户基本信息,输入登录账号/密码登录目标网站;根据URL的基本信息,打开抓取数据的URL,对目标网站进行固定操作,抓取网页内容。根据目标网站的用户基本信息,输入登录账号/密码登录目标网站;根据URL的基本信息,打开抓取数据的URL,对目标网站进行固定操作,抓取网页内容。根据目标网站的用户基本信息,输入登录账号/密码登录目标网站;根据URL的基本信息,打开抓取数据的URL,对目标网站进行固定操作,抓取网页内容。
【技术特点总结】
1.一种可配置的数据抓取方法,其特征在于包括以下步骤:确定要抓取的目标网站,在站点配置页面配置目标网站基本信息,包括站点类型、站点名称、目标编号和页面编码格式;在用户配置页面配置可登录目标网站的用户基本信息,包括用户类型、登录账号/密码、用户代码、用户名;在爬取URL配置页面配置爬取登录和爬取数据的基本URL信息,包括URL名称、请求时的URL地址、上层URL、URL类型、请求方式、URL后缀类型;在调度管理页面上配置启动抓取服务的时间;创造一个抢手的工作,从目标网站抓取数据,具体步骤如下:根据抓取服务启动的时间开始执行job;根据目标网站的基本信息,打开目标网站;根据目标网站的用户基本信息,输入登录账号/密码登录目标网站;根据URL的基本信息,打开抓取数据的URL,对目标网站进行固定操作,抓取网页内容。2.根据权利要求1所述的一种可配置的数据抓取方法,其特征在于:判断目标网站是否有验证码登录步骤,如果有验证码登录步骤,然后在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字符个数、验证码大小写;如果没有验证码登录步骤,跳过验证码输入配置;如果目标网站有验证码登录步骤,则抓取目标网站中的验证码图片,根据验证码输入的基本信息识别验证码图片登录target网站,具体步骤如下:使用来自目标网站的网络爬虫 包括验证码图片类型、验证码图片语言、验证码图片字符个数、验证码大小写;如果没有验证码登录步骤,跳过验证码输入配置;如果目标网站有验证码登录步骤,则抓取目标网站中的验证码图片,根据验证码输入的基本信息识别验证码图片登录target网站,具体步骤如下:使用来自目标网站的网络爬虫 包括验证码图片类型、验证码图片语言、验证码图片字符个数、验证码大小写;如果没有验证码登录步骤,跳过验证码输入配置;如果目标网站有验证码登录步骤,则抓取目标网站中的验证码图片,根据验证码输入的基本信息识别验证码图片登录target网站,具体步骤如下:使用来自目标网站的网络爬虫 跳过验证码输入配置;如果目标网站有验证码登录步骤,则抓取目标网站中的验证码图片,根据验证码输入的基本信息识别验证码图片登录target网站,具体步骤如下:使用来自目标网站的网络爬虫 跳过验证码输入配置;如果目标网站有验证码登录步骤,则抓取目标网站中的验证码图片,根据验证码输入的基本信息识别验证码图片登录target网站,具体步骤如下:使用来自目标网站的网络爬虫
3.根据权利要求1所述的一种可配置的数据抓取方法,其特征在于,还包括用户密码验证步骤,如下:选择一个或多个需要验证的用户,点击进行验证;客户端依次验证选中用户的登录账号/密码,并在后台生成验证结果,验证结果包括登录成功和登录失败。后台生成错误信息并列出相关错误信息日志地址;点击查询获取验证结果,若验证结果为登录失败,则根据错误信息日志地址获取错误信息日志,分析错误执行错误获取解决。4.根据权利要求1所述的可配置数据采集方法,其特征在于:在URL参数配置页面配置一个值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。5.一种可配置的数据捕获设备,它...
【专利技术性质】
技术研发人员:邱涛、邱水文、陈成乐、
申请人(专利权)持有人:,
类型:发明
国家、省、市:福建,35
下载所有详细的技术数据 我是该专利的所有者