算法自动采集列表页,大概有这么几类,你知道吗

优采云 发布时间: 2021-08-02 19:09

  算法自动采集列表页,大概有这么几类,你知道吗

  算法自动采集列表页,大概有这么几类,1.使用列表页分析工具(splittree,bigpipe)抓取,保留点击name部分,同样抓取total和outoftag数据;2.通过模拟器抓取,potmanloader,大流量potmanloader也会保留outoftag数据;3.通过脚本自动抓取,抓取是自动进行的,是否同时抓取对应的total,outoftag即可。

  用卡片自动爬,之前我们很多网站就是用这个爬的,目前支持豆瓣,陌陌,知乎,爱奇艺,这些是都有文档的,

  谢邀。和你遇到了同样的问题。但在selenium上,一般会有以下三种方法实现:采集,就是在被抓取页面上采集数据;通过auto_cookie验证,可以识别并保留;通过模拟器自动抓取,即在现有页面上采集数据,然后逐渐改掉抓取无效页面的方法;采集自己想要的网页数据,转存成xml或json文件。比如以这个站点为例,我通过搜索框搜索时搜索按钮的抓取脚本,抓取了1400个结果:主要是点击、划词和点击数据auto_cookie验证,这块要确保采集的内容是正确的;通过模拟器自动抓取,适合小网站,精度要求不高;主要是抓取点击数据,辅助识别无效页面。

  至于合理性,需要数据说话,结果说话,没有对比就没有伤害。可以尝试手工实验一下对比,或实在是坚持不下去,只有通过重大手段转移或消灭爬虫思想。加油!。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线