js 抓取网页内容(如何数据?Python有很多种可以输出网页文本的工具)
优采云 发布时间: 2022-03-03 05:09js 抓取网页内容(如何数据?Python有很多种可以输出网页文本的工具)
现在越来越多的人用Python从网上爬取有用的数据,然后分析,最后得到自己想要的结论。那么从爬取数据到分析的过程是怎样的呢?
上图是一个从爬取数据到统计分析的简单过程。
关于机器人.txt
《机器人协议》是国际互联网界普遍使用的网站道德准则,其目的是保护网站数据和敏感信息,确保用户的个人信息和隐私不受侵犯。(摘自网络)
Robots.txt 是一个位于 网站 根目录的小文本文件。它告诉爬虫是否要爬取 网站 的某些部分。该文件使用简单的语法,以便爬虫可以将其放置到位。(摘自网络)
因此,在学习如何爬取数据之前,您应该熟悉一些使用爬虫爬取数据的规范。
什么是网络文字?
这是我们平时看到的页面
普通页面
在页面上点击鼠标的“右键”,然后查看“源代码”,可以看到我们想要的网页的文字,如:
我们平时看到的网页是网页文本本地加载后生成的,也是我们要爬取的数据。
如何抓取数据?
Python 有多种工具可以抓取网页文本。今天,我将首先讨论使用“BeautifulSoup”和“requests”包抓取数据:
第一步:先确定网页的位置,如:
第 2 步:向网页位置发送获取文本请求
第三步:配置网页编码,如:utf-8
第四步:输出网页文本
获取网页文本示例
然后我们开始分析文本,获取文本下“”标签的数据:
获取“”标签内容的示例
至此,我们就可以对“”标签的内容进行统计分析了。
这只是一个简单的案例。在我们日常的网页浏览中,也会遇到js生成的网页,以及只有“登录”才能查看的网页。我们将逐一解释如何解决它们。