python网页数据抓取(数据预览_csv路径不要带有中文敏感词要求(图) )

优采云发布时间: 2021-10-03 14:04

　　python网页数据抓取(数据预览_csv路径不要带有中文*敏*感*词*要求(图)

)

　　全文介绍

　　本文先采集从网上拉取数据，采集从Python位置数据，然后用Python进行可视化。主要涉及爬虫知识和数据可视化。

　　履带部分

　　首先使用Python抓取pull hook网络上的数据，使用简单易用的requests模块。主要需要注意的是，是一个动态网页，所以会使用浏览器的 F12 开发者工具来抓包。抓包后会发现网页其实是一个POST表单，需要提交数据。提交的数据如下：

　　真正的网址是：/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0

　　在上图中也很容易找到：kd是查询关键词，pn是页数，可以用来翻页。

　　代码

　　import requests # 网络请求

import re

import time

import random

# post的网址

url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0'

# 反爬措施

header = {'Host': 'www.lagou.com',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',

'Accept': 'application/json, text/javascript, */*; q=0.01',

'Accept-Language': 'zh-CN,en-US;q=0.7,en;q=0.3',

'Accept-Encoding': 'gzip, deflate, br',

'Referer': 'https://www.lagou.com/jobs/list_Python?labelWords=&fromSearch=true&suginput=',

'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',

'X-Requested-With': 'XMLHttpRequest',

'X-Anit-Forge-Token': 'None',

'X-Anit-Forge-Code': '0',

'Content-Length': '26',

'Cookie': 'user_trace_token=20171103191801-9206e24f-9ca2-40ab-95a3-23947c0b972a; _ga=GA1.2.545192972.1509707889; LGUID=20171103191805-a9838dac-c088-11e7-9704-5254005c3644; JSESSIONID=ABAAABAACDBABJB2EE720304E451B2CEFA1723CE83F19CC; _gat=1; LGSID=20171228225143-9edb51dd-ebde-11e7-b670-525400f775ce; PRE_UTM=; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DKkJPgBHAnny1nUKaLpx2oDfUXv9ItIF3kBAWM2-fDNu%26ck%3D3065.1.126.376.140.374.139.129%26shh%3Dwww.baidu.com%26sht%3Dmonline_3_dg%26wd%3D%26eqid%3Db0ec59d100013c7f000000055a4504f6; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGRID=20171228225224-b6cc7abd-ebde-11e7-9f67-5254005c3644; index_location_city=%E5%85%A8%E5%9B%BD; TG-TRACK-CODE=index_search; SEARCH_ID=3ec21cea985a4a5fa2ab279d868560c8',

'Connection': 'keep-alive',

'Pragma': 'no-cache',

'Cache-Control': 'no-cache'}

for n in range(30):

# 要提交的数据

form = {'first':'false',

'kd':'Python',

'pn':str(n)}

time.sleep(random.randint(2,5))

# 提交数据

html = requests.post(url,data=form,headers = header)

# 提取数据

data = re.findall('{"companyId":.*?,"positionName":"(.*?)","workYear":"(.*?)","education":"(.*?)","jobNature":"(.*?)","financeStage":"(.*?)","companyLogo":".*?","industryField":".*?","city":"(.*?)","salary":"(.*?)","positionId":.*?,"positionAdvantage":"(.*?)","companyShortName":"(.*?)","district"',html.text)

# 转换成数据框

data = pd.DataFrame(data)

# 保存在本地

data.to_csv(r'D:\Windows 7 Documents\Desktop\My\LaGouDataMatlab.csv',header = False, index = False, mode = 'a+')

　　注意：爬取数据的时候不要爬得太快，除非你有其他的反爬取措施，比如改IP，并且不需要登录。我在代码中加了一个时间模块来限制爬取速度。

　　数据可视化

　　下载的数据如下所示：

　　注意标题（也就是listing）是我自己加的。

　　导入模块并配置绘图风格

　　import pandas as pd # 数据框操作

import numpy as np

import matplotlib.pyplot as plt # 绘图

import jieba # 分词

from wordcloud import WordCloud # 词云可视化

import matplotlib as mpl # 配置字体

from pyecharts import Geo # 地理图

mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"]

# 配置绘图风格

plt.rcParams["axes.labelsize"] = 16.

plt.rcParams["xtick.labelsize"] = 14.

plt.rcParams["ytick.labelsize"] = 14.

plt.rcParams["legend.fontsize"] = 12.

plt.rcParams["figure.figsize"] = [15., 15.]

　　注意：导入模块时，其他一切都很容易解决。除了 wordcloud 模块，我建议你手动安装这个模块。如果用pip安装，会提示缺少C++14.0等错误，导致安装。不开。手动下载whl文件以顺利安装。

　　数据预览

　　# 导入数据

data = pd.read_csv('D:\\Windows 7 Documents\\Desktop\\My\\LaGouDataPython.csv',encoding='gbk') # 导入数据

data.head()

　　read_csv路径中不要有中文

　　data.tail()

　　学术要求

　　data['*敏*感*词*要求'].value_counts().plot(kind='barh',rot=0)

plt.show()

　　工作经验

　　data['工作经验'].value_counts().plot(kind='bar',rot=0,color='b')

plt.show()

　　Python热帖

　　final = ''

stopwords = ['PYTHON','python','Python','工程师','（','）','/'] # 停止词

for n in range(data.shape[0]):

seg_list = list(jieba.cut(data['岗位职称'][n]))

for seg in seg_list:

if seg not in stopwords:

final = final + seg + ' '

# final 得到的词汇

　　工作场所

　　data['工作地点'].value_counts().plot(kind='pie',autopct='%1.2f%%',explode = np.linspace(0,1.5,25))

plt.show()

　　工作地理图

　　# 提取数据框

data2 = list(map(lambda x:(data['工作地点'][x],eval(re.split('k|K',data['工资'][x])[0])*1000),range(len(data))))

# 提取价格信息

data3 = pd.DataFrame(data2)

# 转化成Geo需要的格式

data4 = list(map(lambda x:(data3.groupby(0).mean()[1].index[x],data3.groupby(0).mean()[1].values[x]),range(len(data3.groupby(0)))))

# 地理位置展示

geo = Geo("全国Python工资布局", "制作人:挖掘机小王子", title_color="#fff", title_pos="left", width=1200, height=600,

background_color='#404a59')

attr, value = geo.cast(data4)

geo.add("", attr, value, type="heatmap", is_visualmap=True, visual_range=[0, 300], visual_text_color='#fff')

# 中国地图Python工资，此分布是最低薪资

geo

0

2021-10-03

python网页数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python网页数据抓取(数据预览_csv路径不要带有中文敏感词要求(图) )

0 个评论

发起人