爬虫抓取网页数据(爬虫抓取网页数据最基本的三种方式post和get方式)

优采云发布时间: 2022-02-20 09:12

　　爬虫抓取网页数据最基本的三种方式post和get方式。我今天先给大家谈一下post方式。举个例子，比如我们要抓取电信公司的一个号码，我们可以向电信公司发一个post请求，请求的内容，也是一个号码，然后分析请求的json格式去抓取对应的电信公司的一些数据。以上例子，代码如下：xiaoshiji2017/requestspider(二维码自动识别)我们使用post请求电信公司的一个号码。

　　那么如何去构造一个post请求呢？我在想过以后一定要把格式梳理一下，大家一起把http协议那部分搞懂。一开始我不知道要抓取哪个网站的哪个数据，我就看了一下baidu的api文档，我找到一个电信公司号码的实例代码。如下：src=''headers={'user-agent':'mozilla/5.0(windowsnt10.0;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/71.0.3323.122safari/537.36'}data={'simple':false,'old':true,'loading':false,'user-agent':'woaix-010-1200-e'}cookie={'simple':false,'loading':false,'user-agent':'egg.home.1.2.2'}fordatainsrc:data['simple']=truedata['old']=truereturndata就是我们抓取一个电信公司的号码。

　　那么我们如何去构造呢？可以先把我们的数据保存在某个数据库中，然后用户发送一个post请求，获取我们的数据。我们先构造一个post请求并发送一次post请求，然后我们保存一下数据，放在我们的数据库。重复n次这个操作。如下：baidu.post()这个时候我们就可以回忆下，我们以前使用get请求电信公司号码。

　　我们应该找到我们需要抓取的那个公司网站，然后构造以下的代码就行了我们发送一个post请求，请求一个电信公司的号码。html=''frombaidu.postimportget_号码的，get_value()如果是请求不存在的公司的话，返回303代码这里构造这个data就是构造完我们的数据，然后如果已经存在数据的话，返回304，这是我们构造不存在的data的一个代码get_value(value)这是获取数据的一个json格式的数据。

　　get_value(value)这个是获取我们数据的一个json格式的数据。我们总结下post请求请求的数据。我们需要有以下json格式的数据。simple对应的simple=',{'"name":"%s","age":"%s","city":"%s","str":"{"p_city":"%s","p_city":"%s","res":"%s"}'}'u。

0

2022-02-20

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫抓取网页数据(爬虫抓取网页数据最基本的三种方式post和get方式)

0 个评论

发起人