网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序 )
优采云 发布时间: 2021-10-18 03:13网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序
)
在本章中,我们将学习网络爬虫,包括学习 Python 中的 BeautifulSoup 库,该库用于从 网站 中提取数据。
本章收录以下主题。
1 什么是网络爬虫
网络爬虫是指从网站中提取数据的技术,可以将非结构化数据转化为结构化数据。
网络爬虫的目的是从网站中提取数据。提取的数据可以存储在本地文件中并保存在系统中,也可以以表格的形式存储在数据库中。网络爬虫使用 HTTP 或 Web 浏览器直接访问万维网 (WWW)。网络爬虫或机器人抓取网页的过程是一个自动化的过程。
抓取网页的过程分为获取网页和提取数据。网络爬虫可以抓取网页,是网络爬虫的必备组件。获取网页后,需要提取网页数据。我们可以对提取的数据进行搜索、解析、保存在表格中,然后重新排列格式。
2 数据提取
在本节中,我们将了解数据提取。我们可以使用 Python 的 BeautifulSoup 库进行数据提取。这里还需要 Python 库的 Requests 模块。
运行以下命令来安装 Requests 和 BeautifulSoup 库。
$ pip3 install requests$ pip3 install beautifulsoup4
2.1Requests 库
使用 Requests 库以易于理解的格式在 Python 脚本中使用 HTTP。在这里,使用 Python 中的 Requests 库来获取网页。Requests 库收录不同类型的请求,这里使用 GET 请求。GET请求用于从Web服务器获取信息,通过GET请求可以获取指定网页的HTML内容。每个请求对应一个状态码,从服务器返回。这些状态码为我们提供了相应请求执行结果的相关信息。以下是一些状态代码。
2.2BeautifulSoup 库
BeautifulSoup 也是一个 Python 库,收录简单的搜索、导航和修改方法。它只是一个从网页中提取所需数据的工具包。
要在脚本中使用 Requests 和 BeautifulSoup 模块,您必须使用 import 语句导入这两个模块。现在让我们看一个用于解析网页的示例程序。这里我们将解析一个来自百度网站的新闻网页。创建一个脚本,将其命名为 parse_web_page.py,并在其中写入以下代码。
import requestsfrom bs4 import BeautifulSouppage_result = requests.get('https://www.news.baidu.com')parse_obj = BeautifulSoup(page_result.content, 'html.parser')print(parse_obj)
运行脚本程序,如下所示。
student@ubuntu:~/work$ python3 parse_web_page.pyOutput:Top News - IMDb