爬虫抓取网页数据( 网页数据爬取Python爬取网页网页数据需要发起请求 )

优采云发布时间: 2022-01-03 02:22

　　爬虫抓取网页数据(

网页数据爬取Python爬取网页网页数据需要发起请求

)

　　网页数据抓取

　　Python抓取网页数据需要4个步骤，发起请求、获取响应内容、解析数据、保存数据。了解数据爬取原理后，进行数据爬取。

　　1、发起请求

　　以Where to Travel网站为例，抓取网页数据，首先发送请求。

　　import requests

u='https://travel.qunar.com/p-cs300100-xian-jingdian'#爬取网址

response=requests.get(u)

print('状态码:{}'.format(response.status_code))

if response.status_code != 200:

pass

else:

print("服务器连接正常")

　　这里返回的状态码为200，表示服务器连接正常，可以抓取数据。

　　2、获取回复内容

　　服务器连接正常后，直接打印返回的内容，这里返回的是整个网页的html。

　　print(response.text)

　　3、分析数据

　　网页结构由复杂的html语言组成，这里借助BeautifulSoup库进行解析。

　　from bs4 import BeautifulSoup

ri = requests.get(url=u)

soupi=BeautifulSoup(ri.text,'lxml')#解析网址

ul=soupi.find('ul',class_='list_item clrfix')

lis = ul.find_all('li')

lis

　　定位特定标签并输出文本。

　　print(soupi.h1.text)#标签定位，输出text

lis=ul.find_all('li')

print(lis[0].text)

　　创建一个字典来解析目标标签的内容。

　　使用 for 循环解析标签内容。

　　import requests from bs4

import BeautifulSoup

u1='https://travel.qunar.com/p-cs300100-xian-jingdian'

ri=requests.get(url= u1)

soupi=BeautifulSoup(ri.text,'lxml')#解析网址

ul=soupi.find('ul',class_='list_item clrfix')

lis=ul.find_all('li')

for li in lis:

dic={}

dic['景点名称']=li.find('span',class_="cn_tit").text

dic['攻略提到数量']=li.find('div',class_="strategy_sum").text

dic['评论数量']=li.find('div',class_="comment_sum").text

dic['lng']=li['data-lng']

dic['lat']=li['data-lat']

print(dic)

　　根据翻页规则设置翻页数。这里设置了一个列表，循环抓取前十页数据。

　　#根据翻页规律，设置翻页数

urllst=[]

for i in range(11):

urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian'+str('-1-')+str(i))

urllst=urllst[2:11]

urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian')

urllst

　　4、保存数据

　　创建一个空的数据框来保存数据。

　　import pandas as pd

dic = pd.DataFrame(columns=["景点名称", "攻略提到数量", "评论数量", "lng", "lat"])

dic

　　将第一条数据保存在一个空的数据框中，使用for循环依次抓取剩余页面的数据。

　　n=0

dic.loc[n, '景点名称'] = li.find('span', class_="cn_tit").text

dic.loc[n, '攻略提到数量'] = li.find('div', class_="strategy_sum").text

dic.loc[n, '评论数量'] = li.find('div', class_="comment_sum").text

dic.loc[n, 'lng'] = li['data-lng']

dic.loc[n, 'lat'] = li['data-lat']

dic

0

2022-01-03

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫抓取网页数据( 网页数据爬取Python爬取网页网页数据需要发起请求 )

0 个评论

发起人