算法自动采集列表(1.一般来说想爬取详情页的数据都会先把列表数据 )

优采云发布时间: 2021-10-26 08:07

　　算法自动采集列表(1.一般来说想爬取详情页的数据都会先把列表数据

)

　　1. 一般来说，如果要抓取详情页的数据，会先抓取列表数据（有详情页的链接），然后再抓取详情页的数据。

　　2.爬取详细列表数据的步骤：

　　1.打开网页

　　2.循环翻页（注：优采云免费版一次只能抓取1w条数据，所以需要设置循环执行次数，避免超过1w条数据数据）

　　3.Loop采集列出数据，即一个页面有多少数据

　　4.提取数据（重点）：如果你对xpath不熟悉，可以下载火狐的两个插件，可以轻松获取指定数据的xpath。

　　要下载火狐插件，需要下载5.5之前的版本。下载完成后，去掉自动更新，然后导入debug和xpath插件，重启火狐浏览器。

　　然后添加必填字段并写入指定数据的xpath。相对路径和绝对路径都要写

　　然后点击获取方式，即文本，获取指定数据

　　注意：有时会从指定页面采集开始，如果URL有规则，那是自然的，如果没有规则，则需要在优采云中进行配置

　　打开网页，数据文本（指定多少页），点击元素（跳转到多少页），然后循环点击下一页采集数据，翻的时候页面循环，计算不能超过1w个数据OK

　　3.抓取详情页的数据：

　　列表爬取后，会得到详情页的url，此时需要将url输入到循环url列表中，优采云会循环遍历this和url中的url列表以获取数据。

0

2021-10-26

算法自动采集列表

0 个评论

要回复文章请先登录或注册