公司数据抓取系统的大致工作流程是什么?(一)

优采云 发布时间: 2021-04-25 20:25

  公司数据抓取系统的大致工作流程是什么?(一)

  公司的数据捕获系统已经编写了一段时间,现在是时候对其进行总结了,否则,根据我的记忆,一段时间后我会忘记它。我计划编写一个系列记录我踩过的所有坑。暂时确定一个目录并根据此系列进行编写:

  今天,让我们谈谈数据捕获的一般工作流程。

  让我们先谈一下背景。该公司正在提供企业信用调查服务。整合数据的各个方面以生成公司信用报告。主要数据源包括:从第三方购买(总体购买数据或界面表格);捕获Internet上公开可用的数据。然后需要一个数据采集平台,以便可以为采集方便快捷地添加新的数据对象。关于数据捕获平台的体系结构设计,我也是一个新手,将来我将从这一经验和教训中学习。本系列从实际战斗开始,然后是第一个项目符号:数据捕获的整个过程。

  我的日常数据捕获分为以下步骤:

  咳嗽咳嗽...还不扔鸡蛋,我知道有些人认为我采取了这三个步骤来取笑它们。但是,先听我说。 ##澄清数据采集的要求首先共享一个场景:

  - 产品经理:小张帅哥,我发现这个网站里面的数据对我们非常有用,你给抓取下来吧。

- 小张:好啊,你要抓取那些数据呢

- 产品经理:就这个页面的数据都要,这里的基本信息,这里的股东信息

- 小张:呃,都要是吧,好

- 产品经理:这个做好要多久啊,

- 小张:应该不会太久,这些都是表格数据,好解析

- 产品经理:好的,小张加油哦,做好了请你吃糖哦。

- 然后小张开始写,写了一会儿小张脸上冒汗了:这怎么基本信息和其他信息还不是一个页面。这表格竟然是在后台画好的,通过js请求数据画在页面的,我去,不同省份的企业表面看着一样,其实标签不一样。这要一个一个省份去适配啊啊啊啊啊啊.

- 小张同志开始加班加点,可还是没有按照和产平经理约定的时间完成任务

  问题是,为什么小张加班加点努力,却没有完成任务。是因为产品经理没有明确要求吗?但是产品经理还说,所有这些页面都是必需的。问题是:

  将数据的url和相关参数分析为采集,我将首先完成要抓取数据的过程,请参见以下四张图片:

  

  

  

  

  提取网址和参数

  从以上四张图片中,我们可以确定需要处理几个连接:-1。获取验证码connection-2。提交查询3。查看基本注册信息页面

  然后让我们看一下这三个步骤的提交地址和参数。在这里,我们使用Chrome的开发人员工具进行页面分析。有许多类似的工具。每个浏览器随附的开发人员工具基本上可以满足需求,您还可以使用一些第三方插件,例如firebug,httpwatch等。

  

  

  编写代码以实现功能

  通过前面的步骤,我们已将企业的基本注册信息提取到采集。我们需要提交三个请求,每个提交的方法(POST或GET),以及提交的参数。下一步是使用代码来实现上述步骤,并获取所需的数据。本文文章不再重复代码实现的特定逻辑,因为本文的重点是解释:爬网网页的工作流程。在后面的阶段中,将逐一总结代码实现过程中使用的关键技术要点和所加深的陷阱。暂时列出涉及的相关内容:

  您也可以访问我的个人网站进行查看

  或者,欢迎关注我的微信订阅帐户,每天有一个小提示,并且每天都有一点改进:

  对公众有利:enilu123

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线