文章采集程序(Python编程语言Scrapy爬虫爬虫框架介绍及学习方法介绍-小编 )

优采云发布时间: 2022-04-19 06:31

　　文章采集程序(Python编程语言Scrapy爬虫爬虫框架介绍及学习方法介绍-小编

)

　　今天给大家详细讲解一下Scrapy爬虫框架，希望对大家的学习有所帮助。

　　1、Scrapy 爬虫框架

　　Scrapy是一个用Python编程语言编写的爬虫框架，任何人都可以根据自己的需要进行修改，使用起来非常方便。可应用于数据采集、数据挖掘、异常网络用户检测、数据存储等。

　　Scrapy 使用 Twisted 异步网络库来处理网络通信。整体架构大致如下图所示。

　　Scrapy爬虫框架

　　2、从上图可以看出，Scrapy爬虫框架主要由5部分组成，分别是：Scrapy Engine（Scrapy Engine）、Scheduler（调度器）、Downloader（Downloader）、Spiders（Spider）、Item管道（项目管道）。爬取过程是Scrapy引擎发送请求，然后调度器将初始URL发送给下载器，然后下载器向服务器发送服务请求。得到响应后，将下载的网页内容交给spider处理，然后spider会对网页进行细化。分析。爬虫分析的结果有两种：一种是获取到新的URL，然后再次请求调度器，开始新一轮的爬取，重复上述过程；另一种是获取所需的数据，稍后将继续处理到项目管道。项目管道负责数据清洗、校验、过滤、去重、存储等后处理，最终由管道输出到文件或存储到数据库中。

　　3、这五个组件及其中间件的作用如下：

　　1) Scrapy引擎：控制整个系统的数据处理过程，触发事务处理过程，负责连接各个模块

　　2) 调度程序：维护要抓取的 URL 队列。当引擎发送的请求被接受后，将从待抓取的 URL 队列中取出下一个 URL，并返回给调度器。

　　3) Downloader（下载器）：向web服务器发送请求下载页面，用于下载网页内容，并将网页内容交给spider处理。

　　4)蜘蛛：制定要爬取的网站地址，选择需要的数据内容，定义域名过滤规则和网页解析规则等。

　　5) 项目管道：处理蜘蛛从网页中提取的数据。主要任务是清理、验证、过滤、去重和存储数据。

　　6) 中间件：中间件是Scrapy引擎与Scheduler、Downloader、Spiders之间的一个组件，主要处理它们之间的请求和响应。

　　Scrapy爬虫框架可以轻松完成在线数据的采集工作，简单轻量，使用非常方便。

　　4、基于Scrapy的网络爬虫设计与实现

　　本节在了解Scrapy爬虫原理和框架的基础上，简单介绍一下Scrapy爬虫框架的data采集流程。

　　4.1 创建爬虫项目文件

　　基于scrapy爬虫框架，只需在命令行输入“scrapy startproject article”命令，就会自动创建一个名为article的爬虫项目。先进入文章文件夹，输入命令“cd article”，然后通过“dir”查看目录，也可以通过“tree /f”生成文件目录的树形结构，如下图，你可以清楚地看到 Scrapy 创建命令生成的文件。

　　爬虫项目目录结构

　　最上层的article文件夹是项目名称，第二层收录一个与项目名称同名的文件夹article和一个文件scrapy.cfg。这个与项目同名的文件夹文章是一个模块，所有项目代码都在这个模块中添加，scrapy.cfg文件是整个Scrapy项目的配置文件。第三层有5个文件和一个文件夹，其中__init__.py为空文件，用于将其父目录转为模块；items.py 是定义存储对象并决定要抓取哪些项目的文件；middlewares .py 文件是中间件，一般不需要修改。主要负责相关组件之间的请求和响应；pipelines.py 是一个管道文件，它决定了如何处理和存储爬取的数据；settings.py为工程设置文件，设置工程管道数据的处理方式、爬虫频率、表名等；在 spiders 文件夹中放置了爬虫主文件（用于实现爬虫逻辑）和一个空的 __init__.py 文件。

　　4.2 之后，开始分析网页结构和数据，修改Items.py文件，编写hangyunSpider.py文件，修改pipelines.py文件，修改settings.py文件。这些步骤的具体操作后面会进行文章专门展开，这里不再赘述。

　　4.3 执行爬虫

　　修改以上四个文件后，在Windows命令窗口输入cmd命令进入爬虫所在路径，执行“scrapy爬虫文章”命令，这样爬虫程序就可以运行了，最后得到数据保存到本地磁盘。

　　5、结论

　　随着互联网上信息量的不断增加，使用网络爬虫工具获取所需信息肯定会有用。使用开源的Scrapy爬虫框架，不仅可以实现对网络信息的高效、准确、自动获取，还可以帮助研究人员对采集获得的数据进行后续的挖掘和分析。

0

2022-04-19

文章采集程序

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集程序(Python编程语言Scrapy爬虫爬虫框架介绍及学习方法介绍-小编 )

0 个评论

发起人

AI时代内容工厂

文章采集程序(Python编程语言Scrapy爬虫爬虫框架介绍及学习方法介绍-小编 )

0 个评论

发起人

相关问题