网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序 )

优采云发布时间: 2021-10-18 03:13

　　网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序

)

　　在本章中，我们将学习网络爬虫，包括学习 Python 中的 BeautifulSoup 库，该库用于从网站中提取数据。

　　本章收录以下主题。

　　1 什么是网络爬虫

　　网络爬虫是指从网站中提取数据的技术，可以将非结构化数据转化为结构化数据。

　　网络爬虫的目的是从网站中提取数据。提取的数据可以存储在本地文件中并保存在系统中，也可以以表格的形式存储在数据库中。网络爬虫使用 HTTP 或 Web 浏览器直接访问万维网 (WWW)。网络爬虫或机器人抓取网页的过程是一个自动化的过程。

　　抓取网页的过程分为获取网页和提取数据。网络爬虫可以抓取网页，是网络爬虫的必备组件。获取网页后，需要提取网页数据。我们可以对提取的数据进行搜索、解析、保存在表格中，然后重新排列格式。

　　2 数据提取

　　在本节中，我们将了解数据提取。我们可以使用 Python 的 BeautifulSoup 库进行数据提取。这里还需要 Python 库的 Requests 模块。

　　运行以下命令来安装 Requests 和 BeautifulSoup 库。

　　$ pip3 install requests$ pip3 install beautifulsoup4

　　2.1Requests 库

　　使用 Requests 库以易于理解的格式在 Python 脚本中使用 HTTP。在这里，使用 Python 中的 Requests 库来获取网页。Requests 库收录不同类型的请求，这里使用 GET 请求。GET请求用于从Web服务器获取信息，通过GET请求可以获取指定网页的HTML内容。每个请求对应一个状态码，从服务器返回。这些状态码为我们提供了相应请求执行结果的相关信息。以下是一些状态代码。

　　2.2BeautifulSoup 库

　　BeautifulSoup 也是一个 Python 库，收录简单的搜索、导航和修改方法。它只是一个从网页中提取所需数据的工具包。

　　要在脚本中使用 Requests 和 BeautifulSoup 模块，您必须使用 import 语句导入这两个模块。现在让我们看一个用于解析网页的示例程序。这里我们将解析一个来自百度网站的新闻网页。创建一个脚本，将其命名为 parse_web_page.py，并在其中写入以下代码。

　　import requestsfrom bs4 import BeautifulSouppage_result = requests.get('https://www.news.baidu.com')parse_obj = BeautifulSoup(page_result.content, 'html.parser')print(parse_obj)

　　运行脚本程序，如下所示。

　　student@ubuntu:~/work$ python3 parse_web_page.pyOutput:Top News - IMDb

0

2021-10-18

网页表格抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序 )

0 个评论

发起人

AI时代内容工厂

网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序 )

0 个评论

发起人

相关问题