jquery抓取网页内容(jquery抓取网页内容，第一步，发起请求，用webdriver加载网页)

优采云发布时间: 2021-10-03 23:05

　　jquery抓取网页内容，第一步，发起请求，用webdriver加载网页，我用的是opencv。（官方文档里都有讲）第二步，js判断对应标签的属性。（这里用了一个闭包函数）第三步，cdn显示结果。

　　我这里用的是浏览器兼容的js。每一个标签对应一个属性，你自己写js代码判断，然后填充。

　　如果能发起请求，会自动生成属性，根据属性找到对应的js文件，然后用cdn加载即可。

　　可以尝试在请求完成时抓包分析请求的数据，也可以模拟浏览器请求来生成请求（为了保证爬虫没被封杀，请求返回html前请先把浏览器设置为低版本浏览器，

　　要先抓到所有网页文件，最后判断对应的js文件，把里面的代码插入excel文件，将excel数据统计出来即可。

　　分两种情况：可以跟源代码反向工程http请求网页源代码webdriver或者，直接抓logo的图片或者网页图片，在logo的flash控件里或者webview里抓下就是一个图片列表这种方法还有一个容易忽略的大杀器，找个脚本（批量抓取）多用几次就会成为正常规模的爬虫了。

　　点开js即可开始抓取了

　　总的来说，就是普通的js抓取（xhr）。需要准备清除浏览器缓存，js文件下载再加载。后期可以结合opencv之类的库完成其他功能。手机上可以用google或者chrome浏览器的抓包观察以及截图、打码等功能，还可以运用token等技术辅助抓取。暂时想到的就这么多。

0

2021-10-03

jquery抓取网页内容

0 个评论

要回复文章请先登录或注册