js 抓取网页内容(如何数据?Python有很多种可以输出网页文本的工具)

优采云 发布时间: 2022-03-03 05:09

  js 抓取网页内容(如何数据?Python有很多种可以输出网页文本的工具)

  现在越来越多的人用Python从网上爬取有用的数据,然后分析,最后得到自己想要的结论。那么从爬取数据到分析的过程是怎样的呢?

  

  上图是一个从爬取数据到统计分析的简单过程。

  关于机器人.txt

  《机器人协议》是国际互联网界普遍使用的网站道德准则,其目的是保护网站数据和敏感信息,确保用户的个人信息和隐私不受侵犯。(摘自网络)

  Robots.txt 是一个位于 网站 根目录的小文本文件。它告诉爬虫是否要爬取 网站 的某些部分。该文件使用简单的语法,以便爬虫可以将其放置到位。(摘自网络)

  因此,在学习如何爬取数据之前,您应该熟悉一些使用爬虫爬取数据的规范。

  什么是网络文字?

  这是我们平时看到的页面

  

  普通页面

  在页面上点击鼠标的“右键”,然后查看“源代码”,可以看到我们想要的网页的文字,如:

  

  我们平时看到的网页是网页文本本地加载后生成的,也是我们要爬取的数据。

  如何抓取数据?

  Python 有多种工具可以抓取网页文本。今天,我将首先讨论使用“BeautifulSoup”和“requests”包抓取数据:

  第一步:先确定网页的位置,如:

  第 2 步:向网页位置发送获取文本请求

  第三步:配置网页编码,如:utf-8

  第四步:输出网页文本

  

  获取网页文本示例

  然后我们开始分析文本,获取文本下“”标签的数据:

  

  获取“”标签内容的示例

  至此,我们就可以对“”标签的内容进行统计分析了。

  这只是一个简单的案例。在我们日常的网页浏览中,也会遇到js生成的网页,以及只有“登录”才能查看的网页。我们将逐一解释如何解决它们。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线