核心方法:python爬虫学习(requests模块)
优采云 发布时间: 2022-12-08 04:24核心方法:python爬虫学习(requests模块)
# 需求:爬取搜狗首页数据
import requests
# -指定url
url = 'https://www.sogou.com/'
# 发起请求
response = requests.get(url=url)
# 获取响应数据
page_text = response.text
print(page_text)
# 持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_text)
实践巩固:
1. 抓取搜狗指定词对应的搜索结果页(简单网页采集器)()
import requests
# 指定UA,通过UA检测
headers = {
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
}
# 指定url
url = 'https://www.sogou.com/web'
# 处理url中携带的参数
kw = input("请输入要查询的内容:")
param = {
'query':kw
}
# 发送请求
page_text = requests.get(url=url,params=param,headers=headers).text
# print(page_text)
# 持久化存储得到的数据
filename = kw+'.html'
with open(filename,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(filename,'保存成功')
2. 抓取百度翻译()。
import requests
post_url = 'https://fanyi.baidu.com/sug'
headers = {
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
}
kw = input("请输入要翻译的内容:")
data = {
'kw':kw
}
page_json = requests.post(url=post_url,data=data,headers=headers).json()
print(page_json)
<p>
</p>
3.抓取豆瓣电影分类排名中的电影细节数据()。
import requests
import json
# 指定url
url = 'https://movie.douban.com/j/chart/top_list'
headers = {
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
}
param = {
'type': '11',
'interval_id': '100:90',
'action': '',
# 从当前类型第几部电影开始取
'start': '0',
# 一次取出多少部
'limit': '20',
}
page_json = requests.get(url=url, params=param, headers=headers).json()
# print(page_json)
fp = open('./douban.json', 'w', encoding='utf-8')
json.dump(page_json, fp=fp, ensure_ascii=False)
4.抓取肯德基餐厅地址查找()。
import requests
import json
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
headers = {
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
}
kw = input('请输入要查询的地址:')
page = input('请输入查询的页数:')
data = {
'cname': '',
'pid': '',
'keyword': kw,
'pageIndex': page,
'pageSize': '10',
}
page_json = requests.post(url=url, data=data, headers=headers).json()
page_txet = requests.post(url=url,data=data,headers=headers).text
fileName = kw + page + '.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_txet)
# fileName = kw + page + '.json'
<p>
# with open(fileName, 'w', encoding='utf-8') as fp:
# json.dump(page_json, fp=fp, ensure_ascii=False)
print('查询完毕')
</p>
5、抓取中华人民共和国化妆品生产许可证相关数据(:81/xk/)。
import requests
import json
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
headers = {
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
}
# 存储企业ID
id_list = []
# 存储所有企业详情数据
all_data_list = []
# 分页操作
for page in range(1):
page = str(page)
data = {
'on': 'true',
'page': page,
'pageSize': '15',
'productName': '',
'conditionType': '1',
'applyname': '',
'applysn': '',
}
# 获取id
ids_json = requests.post(url=url, headers=headers, data=data).json()
# print(ids_json)
for dic in ids_json['list']:
id_list.append(dic['ID'])
# print(id_list)
post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
for id in id_list:
data = {
'id': id
}
data_json = requests.post(
url=post_url, headers=headers, data=data).json()
# print(data_json)
all_data_list.append(data_json)
print(all_data_list)
#持久化存储
fp = open('./allData.json', 'w', encoding='utf-8')
json.dump(all_data_list, fp=fp, ensure_ascii=False)
print('第', page, '页爬取完毕')
核心方法:飞达鲁同义词替换工具v2.0
飞达鲁同义词替换工具是一款同义词替换工具,收录了很多我们生活中需要用到的功能。该软件界面简洁,但功能非常强大。无论我们是在日常生活中还是在办公过程中,我们都可以使用这款软件作为我们的工具。
软件说明
飞达路同义词替换工具正式版是一款不错的文章伪原创工具,用户通过飞达路同义词替换工具可以快速替换文章中的部分关键词,从而消除重复率,不修改文章的内容,这对一些做SEO工作的用户很有用。
软件特色
1.让您的更换更DIY、更个性化。
2. 将一个文章替换为另一个全新的伪原创文章同义词,替换速度快。
3、使用准确强大的词库快速替换文章,使文章达到伪原创的目的。
4.让您的更换更加DIY,更加个性化。是站长朋友更新网站数据的好帮手。
5.飞打录网站可以下载最新的词库,全部免费!!
安装步骤
在本站下载最新的安装包解压,打开后点击exe文件即可使用。