爬虫抓取网页数据(爬虫抓取网页数据最基本的三种方式post和get方式)

优采云 发布时间: 2022-02-20 09:12

  爬虫抓取网页数据(爬虫抓取网页数据最基本的三种方式post和get方式)

  爬虫抓取网页数据最基本的三种方式post和get方式。我今天先给大家谈一下post方式。举个例子,比如我们要抓取电信公司的一个号码,我们可以向电信公司发一个post请求,请求的内容,也是一个号码,然后分析请求的json格式去抓取对应的电信公司的一些数据。以上例子,代码如下:xiaoshiji2017/requestspider(二维码自动识别)我们使用post请求电信公司的一个号码。

  那么如何去构造一个post请求呢?我在想过以后一定要把格式梳理一下,大家一起把http协议那部分搞懂。一开始我不知道要抓取哪个网站的哪个数据,我就看了一下baidu的api文档,我找到一个电信公司号码的实例代码。如下:src=''headers={'user-agent':'mozilla/5.0(windowsnt10.0;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/71.0.3323.122safari/537.36'}data={'simple':false,'old':true,'loading':false,'user-agent':'woaix-010-1200-e'}cookie={'simple':false,'loading':false,'user-agent':'egg.home.1.2.2'}fordatainsrc:data['simple']=truedata['old']=truereturndata就是我们抓取一个电信公司的号码。

  那么我们如何去构造呢?可以先把我们的数据保存在某个数据库中,然后用户发送一个post请求,获取我们的数据。我们先构造一个post请求并发送一次post请求,然后我们保存一下数据,放在我们的数据库。重复n次这个操作。如下:baidu.post()这个时候我们就可以回忆下,我们以前使用get请求电信公司号码。

  我们应该找到我们需要抓取的那个公司网站,然后构造以下的代码就行了我们发送一个post请求,请求一个电信公司的号码。html=''frombaidu.postimportget_号码的,get_value()如果是请求不存在的公司的话,返回303代码这里构造这个data就是构造完我们的数据,然后如果已经存在数据的话,返回304,这是我们构造不存在的data的一个代码get_value(value)这是获取数据的一个json格式的数据。

  get_value(value)这个是获取我们数据的一个json格式的数据。我们总结下post请求请求的数据。我们需要有以下json格式的数据。simple对应的simple=',{'"name":"%s","age":"%s","city":"%s","str":"{"p_city":"%s","p_city":"%s","res":"%s"}'}'u。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线