浏览器抓取网页(使用GooSeeker浏览器的谋数台做了的抓取规则和爬虫)

优采云发布时间: 2022-04-07 11:09

　　GooSeeker浏览器制定的爬取规则和爬虫路径：

　　数据规则：

　　0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//* [@class='main4_left_m1_r']/p)>0 和 count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/ span[position()=2]/text())>0]" mode="A2011"/>

　　0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//* [@class='main4_left_m1_r']/p)>0 和 count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/ span[position()=2]/text())>0]" mode="A2011">

　　线索规则：

　　能源政策 007

　　HTML

　　一个

　　//*[@class='main4_b1 main4_b1_3']//a[.//text()="加载更多"]

　　线程

　　能源政策 007

　　主机名+路径名

　　未定义

　　DS电脑抓取数据时，浏览器会按照设置的'load more'页面增长，但下面抓取的数据和第一个一样，没有变化。

　　请指导我！

　　谢谢！

0

2022-04-07

浏览器抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

浏览器抓取网页(使用GooSeeker浏览器的谋数台做了的抓取规则和爬虫)

0 个评论

发起人

AI时代内容工厂

浏览器抓取网页(使用GooSeeker浏览器的谋数台做了的抓取规则和爬虫)

0 个评论

发起人

相关问题