抓取网页新闻(特朗普称如会晤顺利可能邀请腾讯新闻首页资讯标题进行爬取)

优采云 发布时间: 2022-04-17 10:32

  抓取网页新闻(特朗普称如会晤顺利可能邀请腾讯新闻首页资讯标题进行爬取)

  我们再看另一个新闻标题,发现它的结构和我们之前分析的新闻标题的结构是一样的:

  特朗普表示,如果会面顺利,他可能会邀请金正恩访问美国

  有了这些信息,我们就可以确定新闻标题在 HTML 文档中的位置。然后我们开始爬取腾讯新闻首页的标题。

  2.写代码开始爬网页

  我们先确定标题的详细位置,使用css选择器选择元素:

  使用 BeautifulSoup 解析响应文本 wb_data。我个人更喜欢使用 lxml 库。如果没有安装,可以使用Python自带的html.parser,效果是一样的。

  遍历结果列表时,先遍历,然后从遍历的元素中提取单个数据,get_text()表示获取标签的文本信息,get("href")表示获取名为"的属性的属性值参考文献”。

  完整代码如下:

  import requests

from bs4 import BeautifulSoup

# 导入相关的模块

url = "http://news.qq.com/"

# 腾讯新闻的首页网址

web_data = requests.get(url) # 获取文本信息

soup = BeautifulSoup(web_data.text, "lxml") # 对获取到的文本信息进行解析

news = soup.select("a.linkto") # 从解析的文本中通过select选择器定位指定的元素,返回一个列表

for x in news: # 对返回的列表进行遍历

title = x.get_text() # 取出标题,采用get_text()方法

link = x.get("href") # 取出链接,采用get("href")方法

data = {

'标题': title,

'链接': link

}

print(data) # 输出文章标题

  3、代码输出结果

  这个怎么样?有没有觉得自己很厉害!先给自己掌声,先撒一朵花!

  综上所述:

  本例使用request+Beautiful的形式对腾讯新闻首页的新闻头条进行分析。

  为了爬取,这是小白最容易理解的爬取例子。其次是学习

  再深入一点,我们将挑战一些更有趣、更难的例子。顺便说一句,如果你对requests和BeautifulSoup不了解或者有强烈的欲望,你可以查看他们的官方文档:(我把地址贴在这里)

  索取官方文件(中文):

  BeautifulSoup 文档(中文):

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线