爬虫抓取网页数据(Python学习网络爬虫的几种常见算法和方法)

优采云发布时间: 2022-02-28 12:07

　　一.什么是爬虫？1.1 初识网络爬虫

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常被称为网络追逐者）是根据一定规则自动从万维网上爬取信息的程序或脚本。

　　也就是说，爬虫可以自动浏览网络中的信息。当然，在浏览信息时，我们需要遵守我们制定的规则。这些规则称为网络爬虫算法。Python 可以轻松编写爬虫程序，用于自动检索互联网信息。

　　搜索引擎离不开爬虫。例如，百度搜索引擎的爬虫被称为百度蜘蛛。百度蜘蛛每天都会抓取大量互联网信息，抓取优质信息和收录，当用户在百度搜索引擎上搜索对应的关键词时，百度会进行关键词@ > 分析处理，从收录的网页中找出相关网页，按照一定的排名规则进行排序，并将结果展示给用户。

　　1.1.1 百度新闻案例说明

　　在这个过程中，百度蜘蛛起到了至关重要的作用。那么，如何在互联网上覆盖更多的优质网页呢？如何过滤这些重复的页面？这些都是由百度爬虫的算法决定的。使用不同的算法，爬虫的运行效率会有所不同，爬取的结果也会有所不同。

　　1.1.2 网站排名（访问权重pv）

　　因此，我们在研究爬虫的时候，不仅需要了解爬虫是如何实现的，还需要了解一些常见爬虫的算法。如有必要，我们还需要自己制定相应的算法。在这里，我们只需要了解爬虫的概念。一个基本的了解

　　二. 爬虫领域（为什么要学爬虫？）

　　我们对网络爬虫有了初步的了解，但是为什么要学习网络爬虫呢？

　　如今，人工智能和大数据离我们越来越近。很多公司都在做相关的业务，但是在人工智能和大数据中有一个非常重要的东西，那就是数据，但是数据从哪里来呢？

　　首先，我们看下面的例子

　　百度指数

　　这是百度百度指数的截图。它对用户在百度搜索关键词进行统计，然后根据统计结果绘制流行趋势，然后简单展示。

　　就像微博上的热搜，就是这个道理。类似的索引网站还有很多，比如阿里索引、360索引等，这些网站的用户数量非常多，他们可以获取自己的用户数据进行统计分析

　　那么，对于一些中小型企业来说，在没有这么多用户的情况下应该怎么办呢？

　　2.1 数据来源

　　1.去第三方公司购买资料（例如：七叉茶）

　　2.去免费数据网站下载数据（如：国家统计局）

　　3.通过爬虫爬取数据

　　4.手动采集数据（例如问卷）

　　在以上数据源中，人工方式耗时耗力，效率低下，数据免费网站以上数据质量较差。很多第三方数据公司经常从爬虫那里获取数据，因此获取数据是最难的。有效的方法是通过爬虫爬取

　　2.2 大数据和爬虫是什么关系？

　　爬虫爬取互联网上的数据，获取的数据量决定了与大数据的兄弟关系是否更近

　　2.3 爬虫领域，前景三. 爬虫分类

　　根据系统结构和实现技术，网络爬虫大致可分为四类，即通用网络爬虫、聚焦网络爬虫、增量网络爬虫和深层次网络爬虫。

　　1.通用网络爬虫：搜索引擎爬虫

　　例如，当用户在百度搜索引擎上搜索对应的关键词时，百度会对关键词进行分析处理，从收录的页面中找出相关的，然后根据一定的排名规则对它们进行排序。为了向用户展示，那么您需要尽可能多的互联网高质量网页。

　　从网上采集网页，采集信息，这些网页信息是用来为搜索引擎建立索引提供支持的，它决定了整个引擎系统的内容是否丰富，信息是否即时，所以它的性能直接受到影响。搜索引擎的影响。

　　2.聚焦网络爬虫：特定网页的爬虫

　　它也被称为主题网络爬虫。爬取的目标网页位于与主题相关的页面中，主要为某类人群提供服务，可以节省大量的服务器资源和带宽资源。Focused crawler 在实现网页抓取时会对内容进行处理和过滤，并尽量保证只抓取与需求相关的网页信息。

　　比如要获取某个垂直领域的数据或者有明确的检索需求，就需要过滤掉一些无用的信息。

　　例如：那些比较价格的网站是其他被抓取的网站产品。

　　3.增量网络爬虫

　　增量网络爬虫（Incremental Web Crawler），所谓增量，即增量更新。增量更新是指在更新的时候，只更新变化的地方，不更新变化的地方，所以爬虫只爬取内容发生变化的网页或者新生成的网页。例如：招聘网络爬虫

　　4.深网爬虫

　　Deep Web Crawler，首先，什么是深页？

　　在互联网中，网页根据存在的不同分为表层页面和深层页面。所谓表面页面，是指无需提交表单，使用静态链接即可到达的静态页面；而深页是经过一定程度的关键词调整后才能得到的页面。在 Internet 上，深层页面通常比表面页面多得多。

　　深网爬虫主要由URL列表、LVS【虚拟服务器】列表、爬取控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等组成。

　　后来我们主要学习专注爬虫，专注爬虫之后，其他类型的爬虫就可以轻松写出来了。

　　关键词3@> 通用爬虫和聚焦爬虫原理

　　万能爬虫

　　第 1 步：抓取网页（网址）

　　start_url 发送请求，并解析响应；从响应解析中获取需要的新url，并将这些url放入待抓取的url队列中；取出要爬取的URL，解析DNS得到主机的IP，并分配对应的URL 下载网页，存储在下载的网页库中，并将这些URL放入被爬取的URL队列中。分析已经爬取的URL队列中的URL，分析其中的其他URL，将这些URL放入待爬取URL队列中，从而进入下一个循环……

　　第 2 步：数据存储

　　搜索引擎通过爬虫爬取的网页将数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。

　　搜索引擎蜘蛛在抓取页面时也会进行某些重复内容检测。一旦他们遇到大量抄袭、采集或复制访问权重低的网站上的内容，很有可能不再使用。爬行。

　　第 3 步：预处理

　　搜索引擎将从爬虫抓取回来的页面，并执行各种预处理步骤。

　　除了 HTML 文件，搜索引擎通常可以抓取和索引各种基于文本的文件类型，例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们还经常在搜索结果中看到这些文件类型。

　　但搜索引擎无法处理图像、视频、Flash 等非文本内容，也无法执行脚本和程序。

　　第四步：提供搜索服务，网站排名

　　搜索引擎对信息进行组织处理后，为用户提供关键词检索服务，将用户检索到的相关信息展示给用户。

　　关键词4@> 通用爬虫和 Spotlight 爬虫工作流程

　　关键词5@>

　　第 1 步：start_url 发送请求

　　第 2 步：获取响应

　　第 3 步：解析响应。如果响应中有需要新的url地址，重复第二步；

　　第 4 步：提取数据

　　第 5 步：保存数据

　　通常，我们会一步获得响应并对其进行解析。因此，专注于爬虫的步骤一般是四个步骤。

0

2022-02-28

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫抓取网页数据(Python学习网络爬虫的几种常见算法和方法)

0 个评论

发起人