网页内容抓取php一般不用什么框架,而且一般用requests或者json库
优采云 发布时间: 2022-07-16 22:02网页内容抓取php一般不用什么框架,而且一般用requests或者json库
网页内容抓取php一般不用什么框架,而且一般用requests或者json库。我也不玩js,所以没看过。服务器端有一些常用的抓取库:gevent(用于服务器端网络请求),phantomjs(用于客户端)还有一些框架:laravel,kibana等,我大部分都是用phantomjs。scrapy倒是用过,但是爬过1小段时间就放弃了。
而且scrapy的代码规范并不是很好。后台部分一般用phpng,像pdo和类似于sunframework的activerecord库都可以爬数据,我一般是用requests和phantomjs构建一个webdemo,然后requests去调用这个webdemo。大部分情况下,爬虫速度太慢,没必要去写复杂的网络请求,爬虫越简单,请求的粒度越细,越容易爬取数据。
(一般python和php就能满足用户的需求了)--不过,最后说一句,请去爬虫网站google啊,jiathis啊爬爬数据。
本来应该是可以的,就是很麻烦。而且要用有一定规模的网站去执行。但是大家喜欢在几百上千人规模的中小型网站去用,因为规模小了,爬虫复杂了,请求很多,需要手动解析json等等,太浪费时间。所以规模上到几千上万的网站,能爬取的就少了。还有就是我们爬虫常用的python爬虫框架,requests等爬虫库都有这样的的需求,有一定规模就要用到。
还有一个重要原因,那就是性能问题,比如一个秒级请求的php程序爬虫,几百i/o,如果网站本身性能就不好,影响性能到百万级,那么速度会下降到可以忽略的。