自动抓取网页数据(新版本的调度功能请看《调度设置设置操作介绍》 )

优采云发布时间: 2022-03-20 22:25

　　自动抓取网页数据(新版本的调度功能请看《调度设置设置操作介绍》

)

　　下面是老版本的调度功能界面。新版调度功能请参考《调度设置介绍》

　　1 使用场景

　　这些只要开启爬虫群模式就可以实现。爬虫分组模式采用简单的图形界面，只需点击几下鼠标即可自由控制爬虫，实现采集数据的自动智能调度，真正实现大爬虫的概念，让你的采集数据更高效方便。

　　2 关于爬行动物

　　爬虫群模式是在一台电脑上同时开启多个爬虫（即DS计数器窗口）。通过设置更多的爬虫数量和合理的爬取速度，不仅降低了IP被封的风险，还可以抓取更多的数据，是一种非常稳定高效的原生采集模式。它集成了crontab爬虫调度器、DS计数器主要功能、数据库存储三大功能块。简单易用的图形界面操作，无需编程基础，100%权限开放，让您自由控制爬虫数量和操作，专属数据库，高效处理千万级数据，转换数据轻松快速地格式化。

　　爬虫组和规则制定可以同时操作，但是爬虫组只能采集调度池中的规则。如果你想自动采集任何规则，它将被扔到调度池中。调度池等价于一个指挥中心，采集任务会自动分配给每一个爬虫，所以运行爬虫组、制定规则、调度这三个步骤是必须的，并且三者没有先后顺序.