算法 自动采集列表(1.一般来说想爬取详情页的数据都会先把列表数据 )

优采云 发布时间: 2021-10-26 08:07

  算法 自动采集列表(1.一般来说想爬取详情页的数据都会先把列表数据

)

  1. 一般来说,如果要抓取详情页的数据,会先抓取列表数据(有详情页的链接),然后再抓取详情页的数据。

  2.爬取详细列表数据的步骤:

  1.打开网页

  

  2.循环翻页(注:优采云免费版一次只能抓取1w条数据,所以需要设置循环执行次数,避免超过1w条数据数据)

  

  3.Loop采集 列出数据,即一个页面有多少数据

  

  4.提取数据(重点):如果你对xpath不熟悉,可以下载火狐的两个插件,可以轻松获取指定数据的xpath。

  要下载火狐插件,需要下载5.5之前的版本。下载完成后,去掉自动更新,然后导入debug和xpath插件,重启火狐浏览器。

  然后添加必填字段并写入指定数据的xpath。相对路径和绝对路径都要写

  

  然后点击获取方式,即文本,获取指定数据

  

  注意:有时会从指定页面采集开始,如果URL有规则,那是自然的,如果没有规则,则需要在优采云中进行配置

  打开网页,数据文本(指定多少页),点击元素(跳转到多少页),然后循环点击下一页采集数据,翻的时候页面循环,计算不能超过1w个数据OK

  

  3.抓取详情页的数据:

  列表爬取后,会得到详情页的url,此时需要将url输入到循环url列表中,优采云会循环遍历this和url中的url列表以获取数据。

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线