php 循环抓取网页内容(php循环抓取网页内容,然后用正则表达式去下载)

优采云发布时间: 2022-02-06 21:04

　　php循环抓取网页内容,然后用正则表达式去下载网页中的内容到mysql数据库当中,这样基本可以实现一个简单的反爬虫系统

　　批量抓取浏览器标签，首先有个思路是，从某个网页不同页面去生成不同数据（html，txt或者.php等等格式都可以），这些不同数据一定要有url（可以用下面requests库去抓取爬取下来保存url就行）api或者.php之类，其次对url和保存后的内容进行json解析处理，取出我们需要的数据。一般用正则表达式来抓取。现在就比较麻烦，json数据如何处理成response文本，这才是问题。

　　最开始是我在知乎上看到了好像是一个新手老师提的这个问题，他和我说可以利用ajax+php做爬虫，然后问我有什么缺点，我说你看我网页上挂着二维码，然后你用php能抓二维码么，他说可以，然后我就去尝试了一下，发现确实可以抓，但是呢，是一个比较麻烦的过程。他说是为了追求性能，但是我觉得现在大部分网站都用webserver，自己去写个ajax方便快捷方便效率又高，数据我直接存在数据库。

　　但是呢，既然有这个想法，有做的意识，说明还是有些事情可以做。废话说了一堆，我说一下我是怎么做的。我做的首先，我先在浏览器上抓到jsonphp代码，自己做下form与form_header中各种东西，不理解的话，暂且往下看，后面在解释。通过if来判断是什么链接，然后走http协议的url去请求这个服务器接着，解析出来url,base64转成字符串，再处理一下，格式就能看的过去了我也还是不清楚网页上有的链接是怎么来的(。

　　o_o)，但是总之就是换个地方找。还是有点技术含量的，先挖出来一些源码试试如果觉得代码有点搞，对php和ajax不感兴趣，就解析，保存成文本文件，再爬虫就可以做了，只要知道一些api。我随便抓了个人的信息列表，存着，最后简单处理一下，存mysql的时候再json库解析一下，这里基本都可以做到(其实我觉得动态页面也是能爬取到)真心是为了解决问题，搞这个爬虫也不是打算成为大神，学到自己能用，了解一些就好。

　　更新:这是我之前所挖掘到的点，这个只是第一步，后面会进一步细分操作，我这样大致介绍一下：1.入口点：url，一个基本的网络请求，从这里出发会不会就会先进行一些python操作呢2.解析：先将你所要解析的资源转化成jsonphp代码，再获取url处理json形式3.多线程处理：发送请求，得到服务器返回的server_error里面的错误，1到2条就抓取一下，如果有上3条会抓取第三遍，找到错误原因，直接处理(static是什么可以去看看)4.发送数据：需要注意下一步的数据。

0

2022-02-06

php 循环抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 循环抓取网页内容(php循环抓取网页内容,然后用正则表达式去下载)

0 个评论

发起人

AI时代内容工厂

php 循环抓取网页内容(php循环抓取网页内容,然后用正则表达式去下载)

0 个评论

发起人

相关问题