网页内容抓取 php(网页内容抓取php过来?你下载的地址全是http的)

优采云 发布时间: 2021-10-20 05:04

  网页内容抓取 php(网页内容抓取php过来?你下载的地址全是http的)

  网页内容抓取php过来?你下载的地址全是http的。我通常抓的是app的内容,所以redis+urllib2能解决绝大部分问题。非app抓取就很难了,因为app的内容是浏览器加载的,如果要抓就得抓ios和android。而这些对你来说又比较麻烦,一般的方案是直接去redis里面存是,但是如果提取请求参数和反向代理问题就会来了。

  如果对抓取和请求的参数在redis的映射规则比较清楚,就用简单的redis记事本就行了,但对于特别复杂的规则,还是使用工具的好。

  php已经集成了前端处理传统文件的接口-api.php

  iptables

  分析url字段得到url请求头然后加载后处理redis内容,

  redis

  php是单线程单核的,api是多线程多核的。题主可以换换思路,go实现api也是能搞定的。php的协程用在这里也不是不可以。

  实际上很多服务端代码,

  php和redis接口

  python也可以吧,但看别人的代码还是有点心疼反正我没学。

  tornado。然后基于tornado写tornadosocket程序。

  1.redis2.phpserver端。php客户端绕不开如,redisi/omodule,mysqli/omodule,mysqlapimodule等等。之后如果是http请求推送的,还需要有个推送方客户端。另外,如果只是ajax的话,tornado+mysql也是可以封装成单个容器的。利益相关:facebookhttpserver。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线