每周计数丨小彩教您如何使用优采云采集器来抓取法律法规新闻数据(发送规则+数据)
优采云 发布时间: 2020-08-06 06:07采集网址:
采集目标: 1.遍历爬网列表页面的内容页面地址2.内容页面采集字段: 标题,内容,关键字,来源使用工具: 1.优采云采集器2.捕获器软件采集结果:
然后,让我们看一下如何使用优采云采集器来获取法律和法规数据.
第一步: 打开Youcai Cloud的官方网站,下载并安装最新版本的Youcai Cloud Collector
第2步: 在软件中打开列表页面,使用fiddler捕获和分析数据包,并获取实际的数据请求(抓取几页进行比较)
通过分析,可以看出分页加载方法是POST请求. POST形式中有一些变量可以控制分页,并且内容页地址的格式在源代码中清晰可见.
第3步: 在采集器中创建新规则,并根据Fiddler捕获的信息编写列表页面的获取规则,并在起始地址列中填写POST请求地址
填写POST表单,用[page]变量替换页面控制参数,然后设置页面范围
步骤4: 在分析源代码之后,在URL获取选项中设置内容页面地址获取规则,并测试采集列表
将通过数据包捕获获得的标头信息依次填充到HTTP请求设置中
第5步: 完成上述所有设置后,即可测试运行列表的获取. 获取成功后,您可以继续制定内容采集规则
步骤6: 在浏览器中打开内容页面,找到要采集的字段的位置以及与源代码的对应关系
找到数据的前后位置,然后可以通过前后截取或常规提取来获取内容
步骤7: 由于``关键字''字段中存在多个值,建议使用循环采集,以下是处理方法
设置关联的多个页面并保存它们
从多个关联页面循环提取
摘要: 使用Fiddler捕获数据包并分析数据请求信息,根据需要填写相应的设置,并为内容字段编写获取规则. 注意: 1.该网站的采集存在IP阻塞的问题,使用代理后需要采集很长时间. 2.一段时间后,还会出现Cookie失效的问题
每周采集数据和采集规则的时间是在2019年10月24日发布后的5个工作日内. 采集规则涉及商业版本功能. 建议用户登录到商业版本以使用此规则.
数据采集的资格: Youcai Cloud Collector / Youcai Cloud Browser / Touch Wizard Business Edition软件用户(在使用期限内),如果您不是商业用户或已经过使用期限但想要参加活动,您可以购买新软件或升级或续订,以便可以参加活动!请告诉我,双11优采云活动有很大的折扣!
数据采集方法:
第一步: 扫描二维码,添加“财彩云”操作微信帐号,“财彩云”操作助手会将您拉入活动组.
第2步: 进入群组后,添加数据以咨询客户服务. Ya的WeChat帐户经过客户服务部门在使用寿命内被确认为商业用户后,便可以接收它.
好的,此期“星期一计数”在这里. 如果您仍想获得更多的数据资源和采集器规则,则可以在文章底部或官方帐户的背景中留言. 小蔡将根据您的意见选择下一期的主题!