php多线程抓取多个网页(php多线程抓取多个网页,这样抓取抓取同时操作)

优采云 发布时间: 2021-11-18 16:06

  php多线程抓取多个网页(php多线程抓取多个网页,这样抓取抓取同时操作)

  php多线程抓取多个网页,这样多个抓取同时操作,会切换多线程读取器,抓取效率会降低;最好的方法是单线程抓取。php实现多线程抓取,并不是每一个url都要有过滤器过滤:实现方法一:在抓取任意网页的同时也要设置一个反爬虫的header,当url中包含cookie的时候,关于xss等问题都是会自动过滤掉;或者把url中的cookie从urllib的urllib2里面清除掉;php实现多线程抓取,但是反爬虫是通过xss获取cookie的,因此想实现真正的不去过滤cookie的抓取是不存在的;php实现多线程抓取,最简单的是用selenium库,但是selenium是不能抓取目录级别的,dom级别的才可以抓取到;目前用php实现爬虫最普遍的,是就是爬取某个网站,获取数据库里面的数据,做到我们后续其他工作的部分。

  能不用框架就不用框架,一键式的操作,减少很多操作链。最重要一点,不建议用太多的线程去抓取,爬取一些特定网站的内容可以用单线程爬取,大多数数据抓取的都是小站,用多线程太多线程维护更麻烦,更耗内存。

  可以采用urllib3库配合selenium,但是这需要写很多代码。另外支持多线程抓取的库很多,如openid、sleep、aircrypt等,intelcpython都有其他爬虫库的实现,只要用好框架,抓取效率并不低。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线