网页抓取qq,多渠道抓取抓取呗(图)

优采云 发布时间: 2022-08-22 06:02

  网页抓取qq,多渠道抓取抓取呗(图)

  网页抓取qq,多渠道抓取呗。题主似乎没用过requests,但我觉得requests在爬虫这块应该还是够用的。其他可以的话就用selenium。像谷歌浏览器自带的抓取程序,以及网站主动向服务器发起请求的时候。就抓取的效率来说,几乎所有有机器代理的服务器都无法干扰到它,只要服务器不closetodate,你可以随时随地去爬。

  

  你给出的url.split('/')之类的方法,我觉得会比较慢,因为直接给的url,可能是分割后url在其他地方抓取的。要在requests的process_data方法里输出每个url分割后的值才是快的方法。ps:你们爬虫真是有难度,昨天才抓取了requests的报文。还一边google,一边用chrome浏览器抓取报文。你们这是在致敬谷歌么?。

  哈哈,用python解析requests库就可以了,

  

  当然可以考虑爬虫,首先你要确定你要抓取的网站是否提供api,下载最好有代理。还有要做好爬虫的运维,在requests抓取的过程中,有时候并不是只抓取一个网站就ok了,有时候甚至会发生这个网站存在可以抓取的多个文件,这时候我们就需要对每个文件进行api的取值和抓取。

  requestsformysql的话,我只用到concurrent.https协议的,如果提供concurrent.https协议的就好说了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线