网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序 )

优采云 发布时间: 2021-10-18 03:13

  网页表格抓取(Python中的网络爬虫库用于从网站中提取数据的程序

)

  在本章中,我们将学习网络爬虫,包括学习 Python 中的 BeautifulSoup 库,该库用于从 网站 中提取数据。

  本章收录以下主题。

  1 什么是网络爬虫

  网络爬虫是指从网站中提取数据的技术,可以将非结构化数据转化为结构化数据。

  网络爬虫的目的是从网站中提取数据。提取的数据可以存储在本地文件中并保存在系统中,也可以以表格的形式存储在数据库中。网络爬虫使用 HTTP 或 Web 浏览器直接访问万维网 (WWW)。网络爬虫或机器人抓取网页的过程是一个自动化的过程。

  抓取网页的过程分为获取网页和提取数据。网络爬虫可以抓取网页,是网络爬虫的必备组件。获取网页后,需要提取网页数据。我们可以对提取的数据进行搜索、解析、保存在表格中,然后重新排列格式。

  2 数据提取

  在本节中,我们将了解数据提取。我们可以使用 Python 的 BeautifulSoup 库进行数据提取。这里还需要 Python 库的 Requests 模块。

  运行以下命令来安装 Requests 和 BeautifulSoup 库。

  $ pip3 install requests$ pip3 install beautifulsoup4

  2.1Requests 库

  使用 Requests 库以易于理解的格式在 Python 脚本中使用 HTTP。在这里,使用 Python 中的 Requests 库来获取网页。Requests 库收录不同类型的请求,这里使用 GET 请求。GET请求用于从Web服务器获取信息,通过GET请求可以获取指定网页的HTML内容。每个请求对应一个状态码,从服务器返回。这些状态码为我们提供了相应请求执行结果的相关信息。以下是一些状态代码。

  2.2BeautifulSoup 库

  BeautifulSoup 也是一个 Python 库,收录简单的搜索、导航和修改方法。它只是一个从网页中提取所需数据的工具包。

  要在脚本中使用 Requests 和 BeautifulSoup 模块,您必须使用 import 语句导入这两个模块。现在让我们看一个用于解析网页的示例程序。这里我们将解析一个来自百度网站的新闻网页。创建一个脚本,将其命名为 parse_web_page.py,并在其中写入以下代码。

  import requestsfrom bs4 import BeautifulSouppage_result = requests.get('https://www.news.baidu.com')parse_obj = BeautifulSoup(page_result.content, 'html.parser')print(parse_obj)

  运行脚本程序,如下所示。

  student@ubuntu:~/work$ python3 parse_web_page.pyOutput:Top News - IMDb

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线