php 爬虫抓取网页数据(php爬虫抓取网页数据用的是urllib库,而python爬虫)

优采云 发布时间: 2021-11-12 09:11

  php 爬虫抓取网页数据(php爬虫抓取网页数据用的是urllib库,而python爬虫)

  php爬虫抓取网页数据用的是urllib库,而python爬虫用urllib,可以尝试一下这篇文章。

  理论上讲不能,因为python里面就是urllib库,正如另一位答主说的,python就是用urllib库和自己封装了一下前端的api实现不同的用户体验的。但是实际上根据情况要考虑。1,当网站很短的时候,如果仅仅是用urllib库爬取一些简单的页面,因为爬虫的响应和发送很慢很慢,为了保证前端的体验(爬虫可以是高并发的),我们首先要post请求。

  但是当网站很长时候时候,响应就非常慢了,这时候就要采用io复用模块(lib64库)。2,如果爬虫采用urllib库,要考虑到不同框架的封装,比如urllib+lxml库+lxml库+selenium。基本上需要这样三个框架。可能在某一个框架封装好了并用原生方法调用这样对于资源占用非常少。但是大的系统框架(如webpy,nodejs等)都封装好了,而且速度不比nodejs慢。所以还是看情况,抓取网站框架兼容性,网络情况等。

  不能,除非你有足够的tps。真实的抓取应该只有足够tps。说实话python的urllib库太少,基本都是封装了,你想让它吃很多事情太难了。

  web网站抓取分单文件抓取、多文件抓取、网站导航抓取,这里只讨论多文件抓取,具体接触过是pyspider,另外百度的开源爬虫也有kiboom-crawler和crawler等。python爬虫不像java或者其他语言那样自己封装前端api,to-do里的那些代码要自己写,很多urllib库都可以很轻松实现,现在市面上爬虫框架更多,比如webdriver等,有java基础和html基础可以学习爬虫框架,比如kiboom-crawler。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线