自动采集编写(基于Python的产品设计与应用-Python使用框架脚本 )

优采云 发布时间: 2022-03-15 15:06

  自动采集编写(基于Python的产品设计与应用-Python使用框架脚本

)

  本文介绍基于我多年的行业经验,在巨头的肩膀上开发的data采集应用,也就是我们俗称的爬虫系统。说到系统,不是单独的爬虫脚本,而是整套自动化采集的内容。因为我尝试了很多方法来构建这个系统,所以我将在这里分享最简单最有效的内容。现在各大日常数据相关公司基本都在使用这个数据采集技术,简单、快捷、实用。这里简单介绍一下基于Python的产品设计和应用。

  编程语言:Python

  使用的框架:Scrapy、Gerapy

  数据仓库:MongoDB

  其他内容:IP池

  简要描述一般业务流程。

  1. 安排一个抓取数据的目录以组织成文档。

  2. 根据文档编写 Scrapy 爬虫脚本。

  3. 在 Gerapy 中部署 Scrapy 脚本并配置它们以实现 24 小时自动化采集。

  也会出现一些与之对应的问题。

  1. 抓到的网站 无效,怎么查?

  2. 如何使用 IP 池?

  3. 部署过程中随时遇到的各种坑。

  4. 以后如何使用捕获的数据?

  你可以查看我的技术文章在使用中的各种问题。这里只介绍业务流程和功能使用。

  言归正传,开始官方内容

  

  组织数据采集文档

  这一步是不可避免的,采集以一种比详尽的方式更傻瓜式方式来做。就是组织我们要爬取的目标页面。根据 Scrapy 抓取的格式要求进行整理。

  比如新华网、人民网,其实有很多网站页面,而且因为页面的css不一样,整理出来很恶心,但是整理出来之后就可以随便用了一次。

  

  在记录的形式中,是这样组织的,脚本名对应的Spider下的py文件。

  

  这些页面组织的 Scrapy 脚本如下图所示。

  

  Scrapy框架爬虫脚本的编写

  然后按照模板写data采集脚本,我按照自己的习惯写了一套脚本。

  

  根据模板,所有抓取数据的页面都可以根据这个模板申请。然后在本地调试,确保数据可以写入MongoDB。

  

  Gerapy框架部署实现7*24自动化数据采集

  部署好主机后,如果有多台机器,可以分别部署同一个脚本,也可以在不同的机器上部署不同的脚本,看自己的喜好。这里的项目就是上面Scrapy写的可执行脚本。

  

  然后根据项目打包部署。

  

  部署完成后,在编写好的Spider下设置爬虫脚本。

  

  这里的部署脚本可以设置各种参数,例如每次执行的时间间隔、开始时间等。

  

  

  部署后,数据可以完全自动化采集。

  最后我们进入MongoDB看看采集的数量。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线