自动采集数据(增强版及更高数据管家—增强版网络爬虫老版本对应教程)
优采云 发布时间: 2022-01-03 05:12自动采集数据(增强版及更高数据管家—增强版网络爬虫老版本对应教程)
支持软件版本:V10及更高版本Data Manager-Enhanced Web Crawler
老版本对应教程:V9及以下。吉首客网络爬虫对应的教程是《DS编号机采集数据》
完成采集规则并保存后,如何启动采集?目前有三种类型的发布。
方法一:保存规则后,点击工作台上的“数据采集”按钮启动采集
方法二:在任务管理页面,启动采集。
方法三:使用爬虫组采集数据。
本教程只讲解方法一和方法二,以及一些常用的采集优化配置。第三种方法请参考“爬虫组采集数据”。
1. 方法一、直接点击“数据采集”按钮启动采集
制定规则并保存。只需单击旁边的“数据采集”按钮即可启动采集。 采集过程同方法二。
2. 方法二,在任务管理页面,启动采集。
2.1 点击数据管理器左侧边栏的任务管理按钮
2.2 选择任务名称进入任务管理页面
在本例中,选择的任务是 JD-Jeans Man。
任务管理下面是线程(网站)管理,可以对这个任务的线程(网站)进行管理、添加、查看、激活等。具体操作参见“如何管理网络爬虫线索”。
观察 URL 状态的详细信息,看看有多少 采集 URL 处于待处理状态,并记下这个数字。在此示例中,有两个 采集 URL。
2.3 点击任务名称后的菜单启动采集
按照提示输入网址数和翻页数。
注意,连续翻页会算一个网址。 (比如在这个例子中,抓取京东男牛仔裤的列表页,一共100页。对于爬虫来说,这是一个网址,手机的列表页网址是另一个网址。)
本例中,如果不限制翻页,爬虫要翻到100页才会结束,抓取时间比较长。一些用户刚刚开始练习,急于看到数据结果。您可以在此处设置少量页面进行抓取,例如5个页面。
点击确定后会弹出一个新窗口,加载要爬取的网页,启动采集。在这个窗口的右下方,有一个绿色的圆形标志,表示这是一个采集窗口,以及采集的状态。
2.4 采集 完成后按照教程“excel格式数据打包下载”进行数据打包下载。
3. 采集优化配置
在数据管理器的最左侧边栏中,有一个设置按钮,点击它,进入采集的设置选项,选择配置。
采集配置中,用户常用的参数:
延迟爬行:部分网页打开速度慢,延迟爬行需要设置大一些。比如设置10s就是等待网页加载10s后才开始采集。
超时时间:某些网页加载速度非常慢。如果采集的内容还没有加载,爬虫会一遍遍扫描等待。但你不能无限期地等待。设置时间,例如 60 秒。 60s时间到,爬虫会自动跳转到下一个采集网页。
滚屏采集:需要开启滚屏到采集才能看到完整的内容。一般设置次数为2,速度为2,数值越大采集越慢。如果你想要采集的内容,它在网页的顶部,你不需要滚动,你可以把它关掉。
内容重复中断:部分网页,例如本例中的京东listing页面,翻到最后一页时,会无限循环地停留在最后一页。设置重复内容中断,当一个页面重复采集3次后,采集中止退出。
第一部分文章:“如何管理网络爬虫的线索”第二部分文章:“使用爬虫组采集数据”