js 抓取网页内容(如何数据？Python有很多种可以输出网页文本的工具)

优采云发布时间: 2022-03-03 05:09

　　现在越来越多的人用Python从网上爬取有用的数据，然后分析，最后得到自己想要的结论。那么从爬取数据到分析的过程是怎样的呢？

　　上图是一个从爬取数据到统计分析的简单过程。

　　关于机器人.txt

　　《机器人协议》是国际互联网界普遍使用的网站道德准则，其目的是保护网站数据和敏感信息，确保用户的个人信息和隐私不受侵犯。（摘自网络）

　　Robots.txt 是一个位于网站根目录的小文本文件。它告诉爬虫是否要爬取网站的某些部分。该文件使用简单的语法，以便爬虫可以将其放置到位。（摘自网络）

　　因此，在学习如何爬取数据之前，您应该熟悉一些使用爬虫爬取数据的规范。

　　什么是网络文字？

　　这是我们平时看到的页面

　　普通页面

　　在页面上点击鼠标的“右键”，然后查看“源代码”，可以看到我们想要的网页的文字，如：

　　我们平时看到的网页是网页文本本地加载后生成的，也是我们要爬取的数据。

　　如何抓取数据？

　　Python 有多种工具可以抓取网页文本。今天，我将首先讨论使用“BeautifulSoup”和“requests”包抓取数据：

　　第一步：先确定网页的位置，如：

　　第 2 步：向网页位置发送获取文本请求

　　第三步：配置网页编码，如：utf-8

　　第四步：输出网页文本

　　获取网页文本示例

　　然后我们开始分析文本，获取文本下“”标签的数据：

　　获取“”标签内容的示例

　　至此，我们就可以对“”标签的内容进行统计分析了。

　　这只是一个简单的案例。在我们日常的网页浏览中，也会遇到js生成的网页，以及只有“登录”才能查看的网页。我们将逐一解释如何解决它们。

0

2022-03-03

js 抓取网页内容

0 个评论

要回复文章请先登录或注册