抓取网页新闻(特朗普称如会晤顺利可能邀请腾讯新闻首页资讯标题进行爬取)

优采云发布时间: 2022-04-17 10:32

　　我们再看另一个新闻标题，发现它的结构和我们之前分析的新闻标题的结构是一样的：

　　特朗普表示，如果会面顺利，他可能会邀请金正恩访问美国

　　有了这些信息，我们就可以确定新闻标题在 HTML 文档中的位置。然后我们开始爬取腾讯新闻首页的标题。

　　2.写代码开始爬网页

　　我们先确定标题的详细位置，使用css选择器选择元素：

　　使用 BeautifulSoup 解析响应文本 wb_data。我个人更喜欢使用 lxml 库。如果没有安装，可以使用Python自带的html.parser，效果是一样的。

　　遍历结果列表时，先遍历，然后从遍历的元素中提取单个数据，get_text()表示获取标签的文本信息，get("href")表示获取名为"的属性的属性值参考文献”。

　　完整代码如下：

　　import requests

from bs4 import BeautifulSoup

# 导入相关的模块

url = "http://news.qq.com/"

# 腾讯新闻的首页网址

web_data = requests.get(url) # 获取文本信息

soup = BeautifulSoup(web_data.text, "lxml") # 对获取到的文本信息进行解析

news = soup.select("a.linkto") # 从解析的文本中通过select选择器定位指定的元素，返回一个列表

for x in news: # 对返回的列表进行遍历

title = x.get_text() # 取出标题，采用get_text()方法

link = x.get("href") # 取出链接，采用get("href")方法

data = {

'标题': title,

'链接': link

}

print(data) # 输出文章标题

　　3、代码输出结果

　　这个怎么样？有没有觉得自己很厉害！先给自己掌声，先撒一朵花！

　　综上所述：

　　本例使用request+Beautiful的形式对腾讯新闻首页的新闻头条进行分析。

　　为了爬取，这是小白最容易理解的爬取例子。其次是学习

　　再深入一点，我们将挑战一些更有趣、更难的例子。顺便说一句，如果你对requests和BeautifulSoup不了解或者有强烈的欲望，你可以查看他们的官方文档：（我把地址贴在这里）

　　索取官方文件（中文）：

　　BeautifulSoup 文档（中文）：

0

2022-04-17

抓取网页新闻

0 个评论

要回复文章请先登录或注册