网页内容抓取 php(网页内容抓取php爬虫web前端开发前面几位说的有道理)

优采云发布时间: 2022-03-22 13:07

　　网页内容抓取php爬虫web前端开发

　　前面几位说的有道理，顺便补充下性能优化的问题，开发语言设计时就要考虑到数据访问等的性能问题，避免弄得像历史文章数据库中存储。

　　首先这种数据来源是没有意义的，和你要爬取什么用意无关。但是我觉得你要说用php爬取到这些问题不大。php我觉得用法非常简单，用字符串字典就可以储存，然后可以php向上层走，浏览器或者是网页内存存储，里面数据抓取器，

　　纯爬虫的话，搞几个g的shell，

　　php我只服batd

　　php可以抓几十g的内容，

　　这个没有什么特别好爬的，

　　google的新闻爬虫，twitter的信息爬虫等等，可以在google爬虫库里搜索到百度是什么样的，百度推送的结果大致是什么样的，java可以抓糗百，微博，

　　除了静态页面还有动态页面，那php应该能做的，也可以通过http接口来抓取对应的内容，像baidu爬虫等。但数据量相当大，这样相对于php操作传统文件存储来说缺点较大。所以爬虫还是以抓取动态页面为主要目的。大部分框架都支持这种，像mongodb，apache等。

　　还有百度百科。

0

2022-03-22

网页内容抓取 php

0 个评论

要回复文章请先登录或注册