自动采集编写(基于Python的产品设计与应用-Python使用框架脚本 )
优采云 发布时间: 2022-03-15 15:06自动采集编写(基于Python的产品设计与应用-Python使用框架脚本
)
本文介绍基于我多年的行业经验,在巨头的肩膀上开发的data采集应用,也就是我们俗称的爬虫系统。说到系统,不是单独的爬虫脚本,而是整套自动化采集的内容。因为我尝试了很多方法来构建这个系统,所以我将在这里分享最简单最有效的内容。现在各大日常数据相关公司基本都在使用这个数据采集技术,简单、快捷、实用。这里简单介绍一下基于Python的产品设计和应用。
编程语言:Python
使用的框架:Scrapy、Gerapy
数据仓库:MongoDB
其他内容:IP池
简要描述一般业务流程。
1. 安排一个抓取数据的目录以组织成文档。
2. 根据文档编写 Scrapy 爬虫脚本。
3. 在 Gerapy 中部署 Scrapy 脚本并配置它们以实现 24 小时自动化采集。
也会出现一些与之对应的问题。
1. 抓到的网站 无效,怎么查?
2. 如何使用 IP 池?
3. 部署过程中随时遇到的各种坑。
4. 以后如何使用捕获的数据?
你可以查看我的技术文章在使用中的各种问题。这里只介绍业务流程和功能使用。
言归正传,开始官方内容
组织数据采集文档
这一步是不可避免的,采集以一种比详尽的方式更傻瓜式方式来做。就是组织我们要爬取的目标页面。根据 Scrapy 抓取的格式要求进行整理。
比如新华网、人民网,其实有很多网站页面,而且因为页面的css不一样,整理出来很恶心,但是整理出来之后就可以随便用了一次。
在记录的形式中,是这样组织的,脚本名对应的Spider下的py文件。
这些页面组织的 Scrapy 脚本如下图所示。
Scrapy框架爬虫脚本的编写
然后按照模板写data采集脚本,我按照自己的习惯写了一套脚本。
根据模板,所有抓取数据的页面都可以根据这个模板申请。然后在本地调试,确保数据可以写入MongoDB。
Gerapy框架部署实现7*24自动化数据采集
部署好主机后,如果有多台机器,可以分别部署同一个脚本,也可以在不同的机器上部署不同的脚本,看自己的喜好。这里的项目就是上面Scrapy写的可执行脚本。
然后根据项目打包部署。
部署完成后,在编写好的Spider下设置爬虫脚本。
这里的部署脚本可以设置各种参数,例如每次执行的时间间隔、开始时间等。
部署后,数据可以完全自动化采集。
最后我们进入MongoDB看看采集的数量。