网页抓取数据百度百科(一下“网页数据抓取”的基本过程(图))

优采云发布时间: 2021-09-11 02:10

　　说起“网页数据抓取”，可能很多人都不太熟悉。毕竟，在中国，虽然人们已经做了网络数据爬虫之类的事情，但从业者的总体人数还比较少，观众的意识就更差了。

　　其实大家并不陌生。所谓“网页数据抓取”，也称为网页数据采集、网页数据采集等，就是从我们通常通过浏览器查看的网页中提取所需的数据信息，并然后将它们以结构化的方式存储到 CSV、JSON、XML、ACCESS、MSSQL、MYSQL 等格式的文件或数据库过程中。当然，这里的数据提取过程是通过计算机软件技术实现的，而不是通过人工复制粘贴。也正是因为如此，才有可能从采集上的大网站中获取所需的数据。

　　接下来以作者在当当网采集data的过程为例，详细讲解一下web数据抓取的基本过程。

　　首先我们需要分析目标网站的网页结构，判断网站上的数据是否可以为采集以及如何采集。

　　当当网是一个综合性的网站。这里我们以图书数据为例。检查后，我们找到了图书信息的目录页。图书信息采用多级目录结构组织，如下图所示，图片左侧为图书信息一级目录：

　　因为许多网站出于数据保护的原因限制了显示的数据数量。比如数据最多可以显示100页，超过100页的数据就不显示了。这样，如果您选择进入更高级别的目录，您可以获得的数据就越少。因此，为了获得尽可能多的数据，我们需要进入下一级目录，也就是更小的分类级别，以获得更多的数据。

　　同理，依次点击每一级目录，最后可以进入底部目录，这里显示的是该目录下所有可显示数据项的列表，我们称之为底部列表页面，如图图：

　　当然，这个列表页面很可能会被分成多个页面。我们在做数据采集的时候，需要遍历每个页面上的数据项，通过每个数据项上的链接，可以进入最终的数据页面，我们称之为详情页。如下图：

　　这里明确了获取详细数据的路径。接下来，我们将分析详细页面上有用的数据项，然后专门编写数据采集程序来捕获我们感兴趣的数据。

　　以下是作者编写的网页数据爬取程序的部分代码：

　　以下是作者采集得到的一些样书信息数据：

　　到此，一个完整的网页数据抓取过程就完成了。从上面的数据列表可以看出，只要网页上有数据项，我们几乎可以抓取它们。至于后续的工作，就看你想怎么用数据了。

0

2021-09-11

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科(一下“网页数据抓取”的基本过程(图))

0 个评论

发起人

AI时代内容工厂

网页抓取数据百度百科(一下“网页数据抓取”的基本过程(图))

0 个评论

发起人

相关问题