php 循环抓取网页内容(php循环抓取网页内容,然后用正则表达式去下载)
优采云 发布时间: 2022-02-06 21:04php 循环抓取网页内容(php循环抓取网页内容,然后用正则表达式去下载)
php循环抓取网页内容,然后用正则表达式去下载网页中的内容到mysql数据库当中,这样基本可以实现一个简单的反爬虫系统
批量抓取浏览器标签,首先有个思路是,从某个网页不同页面去生成不同数据(html,txt或者.php等等格式都可以),这些不同数据一定要有url(可以用下面requests库去抓取爬取下来保存url就行)api或者.php之类,其次对url和保存后的内容进行json解析处理,取出我们需要的数据。一般用正则表达式来抓取。现在就比较麻烦,json数据如何处理成response文本,这才是问题。
最开始是我在知乎上看到了好像是一个新手老师提的这个问题,他和我说可以利用ajax+php做爬虫,然后问我有什么缺点,我说你看我网页上挂着二维码,然后你用php能抓二维码么,他说可以,然后我就去尝试了一下,发现确实可以抓,但是呢,是一个比较麻烦的过程。他说是为了追求性能,但是我觉得现在大部分网站都用webserver,自己去写个ajax方便快捷方便效率又高,数据我直接存在数据库。
但是呢,既然有这个想法,有做的意识,说明还是有些事情可以做。废话说了一堆,我说一下我是怎么做的。我做的首先,我先在浏览器上抓到jsonphp代码,自己做下form与form_header中各种东西,不理解的话,暂且往下看,后面在解释。通过if来判断是什么链接,然后走http协议的url去请求这个服务器接着,解析出来url,base64转成字符串,再处理一下,格式就能看的过去了我也还是不清楚网页上有的链接是怎么来的(。
o_o),但是总之就是换个地方找。还是有点技术含量的,先挖出来一些源码试试如果觉得代码有点搞,对php和ajax不感兴趣,就解析,保存成文本文件,再爬虫就可以做了,只要知道一些api。我随便抓了个人的信息列表,存着,最后简单处理一下,存mysql的时候再json库解析一下,这里基本都可以做到(其实我觉得动态页面也是能爬取到)真心是为了解决问题,搞这个爬虫也不是打算成为大神,学到自己能用,了解一些就好。
更新:这是我之前所挖掘到的点,这个只是第一步,后面会进一步细分操作,我这样大致介绍一下:1.入口点:url,一个基本的网络请求,从这里出发会不会就会先进行一些python操作呢2.解析:先将你所要解析的资源转化成jsonphp代码,再获取url处理json形式3.多线程处理:发送请求,得到服务器返回的server_error里面的错误,1到2条就抓取一下,如果有上3条会抓取第三遍,找到错误原因,直接处理(static是什么可以去看看)4.发送数据:需要注意下一步的数据。