网页数据抓取怎么写(京东商城:二级页面中elementsrolldowm)

优采云 发布时间: 2021-10-04 11:06

  网页数据抓取怎么写(京东商城:二级页面中elementsrolldowm)

  换言之,我们之前已经爬过JD的数据,但是辅助页面选择器类型是简单文本。这一次,我们想在第二页抓取商店名称、表扬率和评价标签。页面需要向下滚动以显示完整的数据。因此,它涉及在第二页中使用元素sroll dowm。链接地址:【手机】价格\图片\品牌\京东商城怎么样

  一、分析网站规则

  1、起始页的数据可以完全显示

  2、分页时,网址不变。单击以翻页

  3、从起始页链接进入第二页后,您需要向下滚动以显示完整的数据

  因此,确定获取数据的方法:元素单击+链接+元素向下滚动+文本

  二、网站地图创建

  

  从图中可以看出,我将列表、链接和向下滚动选择器设置为一个系列关系。其中,向下滚动就是向下滚动辅助显示数据。其他子选择器是文本,它们是真正捕获数据的子选择器。捕获的数据维度包括手机名称、价格、评估人数、店铺名称、赞誉率和评估标签

  需要注意的是,必须在向下滚动中设置延迟,建议设置为2000ms。一开始,我没有在这里设置延迟,所以赞扬率和评价标签没有上升,所以我跳到下一页

  代码如下:

  {“startUrl”:“/chanpin/127371.html”,“选择器”:[{“parentSelectors”:[“_root”],“type”:“SelectorElementClick”,“multiple”:true,“id”:“list”,“selector”:“div.gl-i-wrap”,“delay”:“2000”,“clickElementSelector”:“a.pn-next em”,“clickelement uniquencesstype”:“uniquecsselector”,“clickType”:“clickMore”,“discardinalelements”:false},{“parentSelectors”:[“list”],“type”:“SelectorText”,“multiple”:false,“id”:“price”,“selector”:“div.p-price”,“regex”:“delay”:“,”),“},{“parentSelectors”:[“list”],“type”:“SelectorText”,“multiple”:false,“id”:“pingjianum”,“selector”:“div

  p-commit“,”regex“:”,”delay“,”type“:”SelectorLink“,”type“:”false“,”id“,”link“,”selector“,”div.p-name a“,”delay“,”delay“,”,”parentSelectors“,”type“,”selectorrelementscroll“,”false“,”id“:”向下滚动“,”选择器“:”div#J-global-toolbar“,”delay“,”2000“,”delay“,”delay“,”parentSelectors“,”selectors“,”SelectorText“,”2000“,”“,”多个“:false,”id:”store“,”selector“:”div.popbox-internal div.mt“,”regex“,”delay“,”},{”parentSelectors“:[”link“],”type“:”SelectorText“,”多个“:false,“id:”百分比“,”选择器“:”div

  注释百分比“,”regex:“,”delay:“},{”parentSelectors:“[”link“],”type:“SelectorText”,“multiple:”false,“id:“label”,“selector:“div.tag-list”,“regex:“,”delay:“}],”_id:“shouji2”}

  三、数据预览

  设置参数后,可以等待结果。预览如下:

  

  在本总结开始时,对延迟设置的理解不到位。我希望通过章节分享来加深我的印象~~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线