自动采集数据(增强版及更高数据管家—增强版网络爬虫老版本对应教程)

优采云发布时间: 2022-01-03 05:12

　　支持软件版本：V10及更高版本Data Manager-Enhanced Web Crawler

　　老版本对应教程：V9及以下。吉首客网络爬虫对应的教程是《DS编号机采集数据》

　　完成采集规则并保存后，如何启动采集？目前有三种类型的发布。

　　方法一：保存规则后，点击工作台上的“数据采集”按钮启动采集

　　方法二：在任务管理页面，启动采集。

　　方法三：使用爬虫组采集数据。

　　本教程只讲解方法一和方法二，以及一些常用的采集优化配置。第三种方法请参考“爬虫组采集数据”。

　　1. 方法一、直接点击“数据采集”按钮启动采集

　　制定规则并保存。只需单击旁边的“数据采集”按钮即可启动采集。采集过程同方法二。

　　2. 方法二，在任务管理页面，启动采集。

　　2.1 点击数据管理器左侧边栏的任务管理按钮

　　2.2 选择任务名称进入任务管理页面

　　在本例中，选择的任务是 JD-Jeans Man。

　　任务管理下面是线程（网站）管理，可以对这个任务的线程（网站）进行管理、添加、查看、激活等。具体操作参见“如何管理网络爬虫线索”。

　　观察 URL 状态的详细信息，看看有多少采集 URL 处于待处理状态，并记下这个数字。在此示例中，有两个采集 URL。

　　2.3 点击任务名称后的菜单启动采集

　　按照提示输入网址数和翻页数。

　　注意，连续翻页会算一个网址。（比如在这个例子中，抓取京东男牛仔裤的列表页，一共100页。对于爬虫来说，这是一个网址，手机的列表页网址是另一个网址。）

　　本例中，如果不限制翻页，爬虫要翻到100页才会结束，抓取时间比较长。一些用户刚刚开始练习，急于看到数据结果。您可以在此处设置少量页面进行抓取，例如5个页面。

　　点击确定后会弹出一个新窗口，加载要爬取的网页，启动采集。在这个窗口的右下方，有一个绿色的圆形标志，表示这是一个采集窗口，以及采集的状态。

　　2.4 采集完成后按照教程“excel格式数据打包下载”进行数据打包下载。

　　3. 采集优化配置

　　在数据管理器的最左侧边栏中，有一个设置按钮，点击它，进入采集的设置选项，选择配置。

　　采集配置中，用户常用的参数：

　　延迟爬行：部分网页打开速度慢，延迟爬行需要设置大一些。比如设置10s就是等待网页加载10s后才开始采集。

　　超时时间：某些网页加载速度非常慢。如果采集的内容还没有加载，爬虫会一遍遍扫描等待。但你不能无限期地等待。设置时间，例如 60 秒。 60s时间到，爬虫会自动跳转到下一个采集网页。

　　滚屏采集：需要开启滚屏到采集才能看到完整的内容。一般设置次数为2，速度为2，数值越大采集越慢。如果你想要采集的内容，它在网页的顶部，你不需要滚动，你可以把它关掉。

　　内容重复中断：部分网页，例如本例中的京东listing页面，翻到最后一页时，会无限循环地停留在最后一页。设置重复内容中断，当一个页面重复采集3次后，采集中止退出。

　　第一部分文章：“如何管理网络爬虫的线索”第二部分文章：“使用爬虫组采集数据”

0

2022-01-03

自动采集数据

0 个评论

要回复文章请先登录或注册