算法自动采集列表页，大概有这么几类，你知道吗

优采云发布时间: 2021-08-02 19:09

　　算法自动采集列表页，大概有这么几类，1.使用列表页分析工具(splittree,bigpipe)抓取，保留点击name部分，同样抓取total和outoftag数据；2.通过模拟器抓取，potmanloader,大流量potmanloader也会保留outoftag数据；3.通过脚本自动抓取，抓取是自动进行的，是否同时抓取对应的total,outoftag即可。

　　用卡片自动爬，之前我们很多网站就是用这个爬的，目前支持豆瓣，陌陌，知乎，爱奇艺，这些是都有文档的，

　　谢邀。和你遇到了同样的问题。但在selenium上，一般会有以下三种方法实现：采集，就是在被抓取页面上采集数据；通过auto_cookie验证，可以识别并保留；通过模拟器自动抓取，即在现有页面上采集数据，然后逐渐改掉抓取无效页面的方法；采集自己想要的网页数据，转存成xml或json文件。比如以这个站点为例，我通过搜索框搜索时搜索按钮的抓取脚本，抓取了1400个结果：主要是点击、划词和点击数据auto_cookie验证，这块要确保采集的内容是正确的；通过模拟器自动抓取，适合小网站，精度要求不高；主要是抓取点击数据，辅助识别无效页面。

　　至于合理性，需要数据说话，结果说话，没有对比就没有伤害。可以尝试手工实验一下对比，或实在是坚持不下去，只有通过重大手段转移或消灭爬虫思想。加油！。

0

2021-08-02

算法自动采集列表

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

算法自动采集列表页，大概有这么几类，你知道吗

0 个评论

发起人

AI时代内容工厂

算法自动采集列表页，大概有这么几类，你知道吗

0 个评论

发起人

相关问题