php 抓取网页(php抓取网页html源码的区别及策略分析-乐题库)

优采云发布时间: 2022-03-27 05:03

　　php抓取网页html源码。1.使用http/1.1协议抓取。比如爬虫网站提供免费的http代理服务，代理商提供http代理。以糗百为例，糗百会发出http/1.1的代理服务器，把糗百所有人的评论抓取下来。2.还可以使用http/1.1/http/1.1+协议抓取。比如跟糗百类似的网站会定期地抓取很多网站的评论，然后再爬回糗百，再通过http/1.1发回给服务器。这两种抓取方式的区别在于对服务器的要求，前者要求服务器处理快，后者要求服务器处理的空间大。

　　这个事跟你技术无关，看思路和策略。你都有不错的java基础，那就找些spring之类的spring生态，然后php抓数据，qq，开源的就很多，ror也有，

　　ror手机端程序呀！

　　你要抓的数据来源可能会不一样的，有可能是发帖人的评论数据，有可能是喷子的评论数据，有可能是浏览器评论，有可能是编辑评论，有可能是网页评论。还有可能是百度评论。

　　事实上就没有这个需求，

　　连喷都喷了，

　　ror吧，

　　这么搞搞数据，估计数据库以后也用不了多久。建议用phpstorm吧。

　　没必要，上bootstrap写个爬虫网站就行了，贴吧数据很小，不需要这么麻烦的。

0

2022-03-27

php 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 抓取网页(php抓取网页html源码的区别及策略分析-乐题库)

0 个评论

发起人