爬虫抓取网页数据( 网页数据爬取Python爬取网页网页数据需要发起请求 )
优采云 发布时间: 2022-01-03 02:22爬虫抓取网页数据(
网页数据爬取Python爬取网页网页数据需要发起请求
)
网页数据抓取
Python抓取网页数据需要4个步骤,发起请求、获取响应内容、解析数据、保存数据。了解数据爬取原理后,进行数据爬取。
1、发起请求
以Where to Travel网站为例,抓取网页数据,首先发送请求。
import requests
u='https://travel.qunar.com/p-cs300100-xian-jingdian'#爬取网址
response=requests.get(u)
print('状态码:{}'.format(response.status_code))
if response.status_code != 200:
pass
else:
print("服务器连接正常")
这里返回的状态码为200,表示服务器连接正常,可以抓取数据。
2、获取回复内容
服务器连接正常后,直接打印返回的内容,这里返回的是整个网页的html。
print(response.text)
3、分析数据
网页结构由复杂的html语言组成,这里借助BeautifulSoup库进行解析。
from bs4 import BeautifulSoup
ri = requests.get(url=u)
soupi=BeautifulSoup(ri.text,'lxml')#解析网址
ul=soupi.find('ul',class_='list_item clrfix')
lis = ul.find_all('li')
lis
定位特定标签并输出文本。
print(soupi.h1.text)#标签定位,输出text
lis=ul.find_all('li')
print(lis[0].text)
创建一个字典来解析目标标签的内容。
使用 for 循环解析标签内容。
import requests from bs4
import BeautifulSoup
u1='https://travel.qunar.com/p-cs300100-xian-jingdian'
ri=requests.get(url= u1)
soupi=BeautifulSoup(ri.text,'lxml')#解析网址
ul=soupi.find('ul',class_='list_item clrfix')
lis=ul.find_all('li')
for li in lis:
dic={}
dic['景点名称']=li.find('span',class_="cn_tit").text
dic['攻略提到数量']=li.find('div',class_="strategy_sum").text
dic['评论数量']=li.find('div',class_="comment_sum").text
dic['lng']=li['data-lng']
dic['lat']=li['data-lat']
print(dic)
根据翻页规则设置翻页数。这里设置了一个列表,循环抓取前十页数据。
#根据翻页规律,设置翻页数
urllst=[]
for i in range(11):
urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian'+str('-1-')+str(i))
urllst=urllst[2:11]
urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian')
urllst
4、保存数据
创建一个空的数据框来保存数据。
import pandas as pd
dic = pd.DataFrame(columns=["景点名称", "攻略提到数量", "评论数量", "lng", "lat"])
dic
将第一条数据保存在一个空的数据框中,使用for循环依次抓取剩余页面的数据。
n=0
dic.loc[n, '景点名称'] = li.find('span', class_="cn_tit").text
dic.loc[n, '攻略提到数量'] = li.find('div', class_="strategy_sum").text
dic.loc[n, '评论数量'] = li.find('div', class_="comment_sum").text
dic.loc[n, 'lng'] = li['data-lng']
dic.loc[n, 'lat'] = li['data-lat']
dic