网页数据抓取怎么写(京东商城:二级页面中elementsrolldowm)
优采云 发布时间: 2021-10-04 11:06网页数据抓取怎么写(京东商城:二级页面中elementsrolldowm)
换言之,我们之前已经爬过JD的数据,但是辅助页面选择器类型是简单文本。这一次,我们想在第二页抓取商店名称、表扬率和评价标签。页面需要向下滚动以显示完整的数据。因此,它涉及在第二页中使用元素sroll dowm。链接地址:【手机】价格\图片\品牌\京东商城怎么样
一、分析网站规则
1、起始页的数据可以完全显示
2、分页时,网址不变。单击以翻页
3、从起始页链接进入第二页后,您需要向下滚动以显示完整的数据
因此,确定获取数据的方法:元素单击+链接+元素向下滚动+文本
二、网站地图创建
从图中可以看出,我将列表、链接和向下滚动选择器设置为一个系列关系。其中,向下滚动就是向下滚动辅助显示数据。其他子选择器是文本,它们是真正捕获数据的子选择器。捕获的数据维度包括手机名称、价格、评估人数、店铺名称、赞誉率和评估标签
需要注意的是,必须在向下滚动中设置延迟,建议设置为2000ms。一开始,我没有在这里设置延迟,所以赞扬率和评价标签没有上升,所以我跳到下一页
代码如下:
{“startUrl”:“/chanpin/127371.html”,“选择器”:[{“parentSelectors”:[“_root”],“type”:“SelectorElementClick”,“multiple”:true,“id”:“list”,“selector”:“div.gl-i-wrap”,“delay”:“2000”,“clickElementSelector”:“a.pn-next em”,“clickelement uniquencesstype”:“uniquecsselector”,“clickType”:“clickMore”,“discardinalelements”:false},{“parentSelectors”:[“list”],“type”:“SelectorText”,“multiple”:false,“id”:“price”,“selector”:“div.p-price”,“regex”:“delay”:“,”),“},{“parentSelectors”:[“list”],“type”:“SelectorText”,“multiple”:false,“id”:“pingjianum”,“selector”:“div
p-commit“,”regex“:”,”delay“,”type“:”SelectorLink“,”type“:”false“,”id“,”link“,”selector“,”div.p-name a“,”delay“,”delay“,”,”parentSelectors“,”type“,”selectorrelementscroll“,”false“,”id“:”向下滚动“,”选择器“:”div#J-global-toolbar“,”delay“,”2000“,”delay“,”delay“,”parentSelectors“,”selectors“,”SelectorText“,”2000“,”“,”多个“:false,”id:”store“,”selector“:”div.popbox-internal div.mt“,”regex“,”delay“,”},{”parentSelectors“:[”link“],”type“:”SelectorText“,”多个“:false,“id:”百分比“,”选择器“:”div
注释百分比“,”regex:“,”delay:“},{”parentSelectors:“[”link“],”type:“SelectorText”,“multiple:”false,“id:“label”,“selector:“div.tag-list”,“regex:“,”delay:“}],”_id:“shouji2”}
三、数据预览
设置参数后,可以等待结果。预览如下:
在本总结开始时,对延迟设置的理解不到位。我希望通过章节分享来加深我的印象~~~