网页新闻抓取(本篇博客在爬取新闻网站信息2的基础上进行)

优采云 发布时间: 2021-10-07 20:28

  网页新闻抓取(本篇博客在爬取新闻网站信息2的基础上进行)

  本博客基于爬取新闻网站信息2.

  主要内容如下:

  1.定义获取页面20个链接的函数

  2.构造多个分页链接

  3.获取多个分页链接的新闻内容

  4.使用pandas整理爬取的数据

  5.保存数据到csv文件

  6.Scrapy 安装

  1.定义获取页面20个链接的函数

  #定义获取一页20条链接内容的函数

def parseListLinks(url):

newsdetails = []

res = requests.get(url)

jd = json.loads(res.text)

#获取一个页面所有链接(20个左右)

for ent in jd['result']['data']:

#getNewsDetail为获取一个链接内容详情

newsdetails.append(getNewsDetail(ent['url']))

return newsdetails

  #测试

url = 'https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8'

parseListLinks(url)

  

  2.构造多个分页链接

  #构造多个分页链接

pageurl = "https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page={}&encode=utf-8"

for i in range(1,10):

newsurl = pageurl.format(i)

print(newsurl)

  

  3.获取多个分页链接的新闻内容

  #抓取多个分页链接新闻内容

import requests

url = 'https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page={}&encode=utf-8'

news_total = []

for i in range(1,3):

newsurl = url.format(i)

newsary = parseListLinks(url)

news_total.extend(newsary)

  #测试打印抓取的两个页面

print(news_total)

  

  4.使用pandas整理爬取的数据

  pandas是一个python数据分析包(Python Data Analysis Library),这里我们使用pandas的DataFrame函数将爬取中提取的数据组织成二维表数据结构。

  安装pandas套件:进入cmd命令行输入如下命令安装

  pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas

  

  #用pandas整理爬取出的资料

import pandas

df = pandas.DataFrame(news_total)

#查看后5行数据

df.tail()

  

  5.保存数据到csv文件

  使用 to_csv 函数将数据存储在 csv 文件中。 “ruiyigongfang.csv”是我们导出的文件名。存放在jupyter notebook启动根目录下,一般在C:\Users\Administrator目录下。

  

  

  查看ruiyigongfang.csv文件的内容

  

  到此,用python3爬取新闻网站信息的项目已经完成。

  总结:

  爬虫的主要过程分为三个阶段:

  

  下载数据:使用requests包,通过requests.get('url')方法获取网页信息

  提取数据:使用BeautifulSoup4套件通过soup.select('xxx');解析关系的内容;

  保存数据:通过pandas套件将数据组织成二维数据结构,然后通过to_csv()函数将数据以csv格式保存在本地。

  ----------------------------------------------- ---------------------------------------------

  接下来会有第二个python爬虫项目,等待下次博客更新!

  这里先介绍一下简单而强大的爬虫框架Scrapy的安装,为后面的项目做准备。

  Scrapy 安装

  环境:windows系统,python3

  步骤:

  1.安装轮子:

  py -3 -m pip install wheel

  2.安装lxml:

  py -3 -m pip install lxml

  3.安装扭曲:

  下载扭曲:~gohlke/pythonlibs/#twisted

  注意:下载的版本必须与安装的python版本和电脑的位数一致。对于python3.7,选择cp37,其他版本以此类推。例如:

  

  安装扭曲:

  pip install xxx/xxx/Twistedxxx

  注:xxx/xxx/Twistedxxx为下载的twisted文件的绝对路径。比如下载的文件放在D:\目录下,文件名是Twisted‑18.9.0‑cp37‑cp37m‑win_amd64.whl

  命令应该是 pip install D:\Twisted‑18.9.0‑cp37‑cp37m‑win_amd64.whl

  4.安装 Scrapy:

  pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

  5.安装 win32py

  下载:注意下载与python版本和电脑相同位数的文件

  安装:双击pywin32-224.win-amd64-py3.7.exe文件安装

  6.验证

  scrapy -h

  说明:

  安装Scrapy依赖于wheel、lxml和Twisted模块

  运行 Scrapy 依赖于 win32py

  完成!享受吧!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线