网页内容抓取php一般不用什么框架，而且一般用requests或者json库

优采云发布时间: 2022-07-16 22:02

　　网页内容抓取php一般不用什么框架，而且一般用requests或者json库。我也不玩js，所以没看过。服务器端有一些常用的抓取库：gevent(用于服务器端网络请求)，phantomjs(用于客户端)还有一些框架：laravel,kibana等，我大部分都是用phantomjs。scrapy倒是用过，但是爬过1小段时间就放弃了。

　　而且scrapy的代码规范并不是很好。后台部分一般用phpng，像pdo和类似于sunframework的activerecord库都可以爬数据，我一般是用requests和phantomjs构建一个webdemo，然后requests去调用这个webdemo。大部分情况下，爬虫速度太慢，没必要去写复杂的网络请求，爬虫越简单，请求的粒度越细，越容易爬取数据。

　　（一般python和php就能满足用户的需求了）--不过，最后说一句，请去爬虫网站google啊，jiathis啊爬爬数据。

　　本来应该是可以的，就是很麻烦。而且要用有一定规模的网站去执行。但是大家喜欢在几百上千人规模的中小型网站去用，因为规模小了，爬虫复杂了，请求很多，需要手动解析json等等，太浪费时间。所以规模上到几千上万的网站，能爬取的就少了。还有就是我们爬虫常用的python爬虫框架，requests等爬虫库都有这样的的需求，有一定规模就要用到。

　　还有一个重要原因，那就是性能问题，比如一个秒级请求的php程序爬虫，几百i/o,如果网站本身性能就不好，影响性能到百万级，那么速度会下降到可以忽略的。

0

2022-07-16

网页内容抓取 php

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页内容抓取php一般不用什么框架，而且一般用requests或者json库

0 个评论

发起人

AI时代内容工厂

网页内容抓取php一般不用什么框架，而且一般用requests或者json库

0 个评论

发起人

相关问题