php 抓取网页(php抓取网页html源码的区别及策略分析-乐题库)

优采云 发布时间: 2022-03-27 05:03

  php 抓取网页(php抓取网页html源码的区别及策略分析-乐题库)

  php抓取网页html源码。1.使用http/1.1协议抓取。比如爬虫网站提供免费的http代理服务,代理商提供http代理。以糗百为例,糗百会发出http/1.1的代理服务器,把糗百所有人的评论抓取下来。2.还可以使用http/1.1/http/1.1+协议抓取。比如跟糗百类似的网站会定期地抓取很多网站的评论,然后再爬回糗百,再通过http/1.1发回给服务器。这两种抓取方式的区别在于对服务器的要求,前者要求服务器处理快,后者要求服务器处理的空间大。

  这个事跟你技术无关,看思路和策略。你都有不错的java基础,那就找些spring之类的spring生态,然后php抓数据,qq,开源的就很多,ror也有,

  ror手机端程序呀!

  你要抓的数据来源可能会不一样的,有可能是发帖人的评论数据,有可能是喷子的评论数据,有可能是浏览器评论,有可能是编辑评论,有可能是网页评论。还有可能是百度评论。

  事实上就没有这个需求,

  连喷都喷了,

  ror吧,

  这么搞搞数据,估计数据库以后也用不了多久。建议用phpstorm吧。

  没必要,上bootstrap写个爬虫网站就行了,贴吧数据很小,不需要这么麻烦的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线