php抓取网页数据和评论文字其实只是html代码的分析

优采云 发布时间: 2022-08-24 20:03

  php抓取网页数据和评论文字其实只是html代码的分析

  

  php抓取网页数据和评论文字其实只是html代码的分析,wordpress和百度对比一下就行了,wordpress只提供html1和html2的解析,并不提供支持javascript的支持,所以javascript的渲染会有点问题,换言之如果有想法的话,完全可以用c#的框架来实现,这样完成抓取wordpress的评论文字分析就会容易很多。

  

  抓取评论文字分析推荐使用requests来实现,这里详细介绍一下思路和流程:1.定义request接口:2.创建一个spider:包括一个request对象和一个error对象;3.编写程序,将第2步定义的request对象以callback()的方式对第3步发出的异步responseresponse进行回调函数获取,发送给服务器;4.服务器进行异步处理,把第2步中返回responseresponse再转发给wordpress;5.第3步是一个重复工作,包括编写页面抓取的逻辑等;6.重复3中的5步;7.进行第4步:url分析,判断是否有javascript;8.使用jquery进行点击逻辑处理,获取单元格内容和分割;9.直到最后,把返回的responseresponse进行处理返回给前端。demo包括mymo.py和mymo.php。

  php可以模拟http请求在wordpress的网页端抓取评论,并把评论串到代码中,然后服务器可以对评论分词处理,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线