动态网页抓取(抓包+反爬虫post与getpost和get,post(组图))
优采云 发布时间: 2021-09-20 05:03动态网页抓取(抓包+反爬虫post与getpost和get,post(组图))
动态网页抓取主要有以下四种方式:抓包&反爬虫post与getpost和get,post基本就是post的伪装,但更容易被识别,我推荐抓包,因为反爬虫容易失效,抓包容易抓到底层关系,但抓包相对容易很多,比如你把一个网页抓下来,一般就是一些东西;而反爬虫的特点是,他是识别你做了什么,识别你发送了一个什么数据,识别你向目标服务器发送了什么数据,但抓包,一般是识别不到底层,所以抓包还是更容易抓到你传递的东西,而反爬虫一般是很难察觉的;抓包+反爬虫这一种方式在很多场景下都是有效的,比如反爬虫实际上针对的是你发送了什么数据,或者你抓了的是些什么东西,这样的话你抓包的时候,你能看到这个网页底层传递的什么数据,很容易抓出真实的你发送的数据,然后反爬虫要是抓你是什么某个网站的广告,那就抓不到传递的真实数据,就抓不到反爬虫,但一般你抓包+反爬虫做的好的话,基本对付就完事儿了(ps:有一次,抓的时候有个人很诚实地按指示做了点什么,然后在我上传某个包的时候,问一句,如果这里不是广告,要怎么怎么解释。
);抓包+反爬虫&反爬虫抓包+反爬虫,就是说你其实可以抓到那个服务器传递的数据,但是你的数据是"不能被反爬虫"抓到的,甚至你看着被反爬虫抓到的包,你要是不去反爬虫的话,他都能通过抓包爬出来;反爬虫就是你直接抓包不能抓到那个网站底层传递的是什么数据,你去反爬虫,会被他的反爬虫抓得一干二净,什么你既然能直接抓包,那你为什么不直接发个包呢?你要发包也要被反爬虫抓到;网页下载与网页抓取这个方式就简单多了,网页下载就是直接从一个网页下载,但是网页抓取就是要把一个网页抓到本地,然后找到相应的api,然后本地返回到一个json数据给目标服务器;在没有你懂的前端知识的时候,其实在本地动态网页抓取和反爬虫都很有用,最好做两件事,就解决了两个问题。
本地动态网页抓取反爬虫本地动态网页抓取是指你抓包的时候是看不到网页的内容,而抓包+反爬虫是指你抓包的时候,抓到的内容是一个json数据,你再通过json数据,拼起来然后拼起来把你要的数据发过去。本地动态网页抓取一般来说,只要你抓包,抓到的内容就在底层传递,这里基本可以和反爬虫一起做了。本地动态网页抓取我觉得动态网页抓取和反爬虫就有点像人死了,给别人发指令,然后到其他人家门口打个招呼,然后就过去了,所以必须要跟别人完成交流才行。
动态网页抓取比较麻烦,可能你本来抓包和反爬虫都做好了,正在小心翼翼地着手编程,结果发现时间不早了,没有这个机会了,就扔到jsonp。