浏览器抓取网页(使用GooSeeker浏览器的谋数台做了的抓取规则和爬虫)
优采云 发布时间: 2022-04-07 11:09浏览器抓取网页(使用GooSeeker浏览器的谋数台做了的抓取规则和爬虫)
GooSeeker浏览器制定的爬取规则和爬虫路径:
数据规则:
0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//* [@class='main4_left_m1_r']/p)>0 和 count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/ span[position()=2]/text())>0]" mode="A2011"/>
0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//* [@class='main4_left_m1_r']/p)>0 和 count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/ span[position()=2]/text())>0]" mode="A2011">
线索规则:
能源政策 007
HTML
一个
//*[@class='main4_b1 main4_b1_3']//a[.//text()="加载更多"]
线程
能源政策 007
主机名+路径名
未定义
DS电脑抓取数据时,浏览器会按照设置的'load more'页面增长,但下面抓取的数据和第一个一样,没有变化。
请指导我!
谢谢!