浏览器抓取网页(使用GooSeeker浏览器的谋数台做了的抓取规则和爬虫)

优采云 发布时间: 2022-04-07 11:09

  浏览器抓取网页(使用GooSeeker浏览器的谋数台做了的抓取规则和爬虫)

  GooSeeker浏览器制定的爬取规则和爬虫路径:

  数据规则:

  0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//* [@class='main4_left_m1_r']/p)>0 和 count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/ span[position()=2]/text())>0]" mode="A2011"/>

  0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//* [@class='main4_left_m1_r']/p)>0 和 count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/ span[position()=2]/text())>0]" mode="A2011">

  线索规则:

  能源政策 007

  HTML

  一个

  //*[@class='main4_b1 main4_b1_3']//a[.//text()="加载更多"]

  线程

  能源政策 007

  主机名+路径名

  未定义

  DS电脑抓取数据时,浏览器会按照设置的'load more'页面增长,但下面抓取的数据和第一个一样,没有变化。

  请指导我!

  谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线