采集相关文章( 1.线上采集方式及相关技术介绍--乐题库)

优采云 发布时间: 2021-12-27 15:13

  采集相关文章(

1.线上采集方式及相关技术介绍--乐题库)

  

  一、数据采集的必要性

  数据采集

是数据分析和挖掘的基础:

  数据分析和挖掘过程中一个比较基础和重要的环节就是数据采集

。再好的特征选择、建模算法,如果没有高质量的元数据,聪明的女人也很难不做饭。

  采集到的数据决定了数据分析挖掘的上限:

  经验告诉我们如何从历史数据的展示和分析中获取有用的知识,无论是通过报表或多维分析获得企业各个领域指标的相关性,还是通过挖掘模型的实施来预测未来的发展基于历史数据的企业。都是基于企业的历史数据。没有数据质量基础的保证,那么华丽的趋势图就是垃圾。

  如下图所示,garbage in,garbage out(garbage in,garbage out)是指如果你把错误无意义的数据输入计算机系统,计算机自然会输出错误无意义的结果。(这句谚语也适用于数据分析领域)

  

  垃圾进垃圾出

  二、数据采集方式

  数据采集​​方式分为线上采集和线下采集两大类。下面简单介绍一下各个采集方法和相关技术。

  

  1. 在线采集

  1)开放数据

  开放数据是指互联网上对所有人开放的数据,包括对特定行业开放的数据、对各级政府开放的数据以及网页中的相关内容数据。例如下图为北京公共数据开放平台。

  

  获取开放数据,我们可以使用爬虫技术。这里简单介绍一下爬虫技术。

  爬虫技术是一种使开发者能够自动化、系统地采集

互联网相关数据的技术。爬虫不是内容生产者,而是内容载体。网上各种爬虫技术的学习资料可以说是“香甜可口”。在这里我不讨论,但是我想谈谈爬虫是爬虫的安全性。您必须遵守相关法律,切记不要触碰红线。.

  一个。个人信息、商业机密和国家机密是数据爬取的红线。

  湾 遵守职业道德,控制爬虫访问频率,不干扰被爬虫方的正常经营活动。

  C。遵守robots协议,做能爬的,不能爬的。

  2)第三方平台数据

  比如开发者想要获取各种金融数据,除了使用爬虫技术,我们还可以通过第三方平台提供的API接口获取相关数据。例如下图为Toshare大数据开放平台,开发者可以获得各类金融数据。

  

  

  笔者曾经接到这样一个任务,要获取某城市禁止左转、禁止右转、禁止*敏*感*词*掉头的所有路段。在没有条件获取准确数据的情况下,我们可以通过高德或百度获取准确数据。地图开放平台的API接口是在路口设置起点和终点。通过比较*敏*感*词*与步行路径的规划距离,我们可以分析该路口是否禁止左转、右转或掉头。下图是百度的开放平台。我们可以在这里,通过API接口完成各种数据的采集。

  相应的功能有相应的服务文档说明如何使用。有兴趣的可以打开网站试一试。

  

  3)物理数据

  物理数据是指用户在物理世界中产生的数据,如用户使用手机时手机的各种传感器(指纹传感器:记录用户的指纹用于解锁手机或支付等,陀螺仪:利用角动量守恒原理记录角速度,用于手机导航等)

  与日常应用相比,传统制造中存在大量物理数据。一般来说,有以下几种数据采集

方法:

  各种类型的传感器:

  就像上面提到的手机中的各种传感器一样,传统制造中的传感器种类也很多,涵盖了光敏、气敏、力敏、磁敏和声敏等不同类型的工业传感器。虽然单条数据的内容非常大。很少,但频率很高。

  射频识别技术:

  RFID(Radio Frequency Identification,射频识别)技术是一种非接触式自动识别技术,它利用射频信号自动识别目标物体并获取相关数据信息。利用射频进行非接触式双向通信,实现身份识别和数据交换。

  RFID技术可识别高速运动物体,可同时识别多个标签,操作快捷方便。如下图所示,当我们使用手机的NFC读取电子标签数据时,可以看到ISO/IEC 14443-3(Type A)。这是当前的电子标签协议。目前大部分公交卡、一体机卡、门禁卡等都是基于ISO 14443 Type A协议。以下是电子标签的详细信息。如果配合专业的阅读器和特定的软件,可读性会更好。我只是在这里展示。

  

  由于设备品牌种类繁多,生产厂家和数据接口不同,一条生产线的一套设备可能来自多个国家,数据采集一直是传统制造业的痛点。

  4)APP数据

  在我们的日常生活中,对各种APP、网页APP、小程序的操作都被称为事件,比如打开一个电商APP→浏览某个商品→查看商品信息、评论→放入购物车→下单→付款→查看物流信息→确认收货→评估产品。当一个事件被触发时,我们要进行监控,所以我们只需要为该事件开发监控代码,这样每当事件被触发时,后台就可以采集

到该事件的相关信息并上传到服务器。

  关于数据埋点,是互联网业务中比较重要的一个环节。限于篇幅,这里简单介绍一下。笔者在此挖个坑,将专门针对数据埋点与读者进行系列讨论和交流。. 一般来说,埋点的类型分为Web埋点和App埋点。其中,主要的埋点技术分为埋点技术、无埋点技术、视觉埋点技术。

  2. 离线采集

  关于线下数据采集,笔者认为更倾向于主观数据采集,因为在公共场所线下面对面的定量客观数据采集,很容易让采集器

产生警觉,很容易造成数据采集

的准确性很差。影响数据质量,例如:我在学习时参与了线下数据采集,某城市交通规划部门在优采云

站、地铁换乘站等交通枢纽跟踪乘客填写出行问卷,尽管问卷设计规范,方法完善,如填完即有奖励,但乘客的接受度仍然很低。

  因此,这种采集

方式也在后期进行了调整和改革。例如,在线采集

定量和客观数据。通过与三大运营商合作,利用手机信令与基站的关系,精准获取旅客出行记录。

  此外,学生经常在商场、超市看到各家银行在宣传*敏*感*词*活动。现场填写信息,申请*敏*感*词*即可获得礼品奖励。不过行人的接受度较差,笔者所在的学校/公司在食堂也举办过类似的活动,但相比之下,填写问卷的意愿要强一些。

  线下采集

数据的方式有很多,比如问卷调查、用户访谈、实地调查、焦点小组、用户反馈等,接下来选择几种常用的方法进行介绍。

  1)问卷调查

  问卷调查是目前广泛使用的一种调查形式。根据调查目的设计问卷,通过抽样确定调查样本完成调查。问卷调查的一般步骤是:确定用户和样本量(根据调查目标选择符合特征的用户,覆盖尽可能多的人以达到目标)——设计问卷框架——发放问卷(试调查) /正式调查))-汇总数据,撰写报告

  

  2)用户访谈

  用户访谈是用户研究中一种非常常见的方法,它使用有目的的、有计划的、有条不紊的口头对话来从用户那里了解事实。一般用户访谈的步骤为:确定调查目标和内容——确定用户和样本——确定访谈和提纲——进行访谈——总结报告

  三、集合数据类别

  当我们通过上述方法采集

数据时,获取的数据一般分为三类,即结构化数据、非结构化数据和半结构化数据。关于结构化和非结构化数据,我们在上面10分钟里提到了数据库、数据仓库、数据湖、数据中心的区别和联系(二)”,有兴趣请点击查看。

  那么什么是半结构化数据呢?

  半结构化数据,顾名思义,是介于结构化数据(关系数据库)和非结构化数据(声音、视频)之间的数据。半结构化数据是结构化数据的一种形式。它不符合与关系数据库或其他数据表的形式相关联的数据模型结构。但是,它收录

相关标签来分隔语义元素并对记录和字段进行分类。地面。下图显示了一个简单的 JSON 示例。我们可以观察到它存储了一些书籍信息。一般的日志文件、XML 文档、JSON 文档等都是半结构化数据。

  

  四、总结

  本文带您快速了解各种数据采集方式。各种采集技术虽然重要,但必须根据行业和企业规模来选择,减少“大锤杀鸡”的发生。

  随着国家安全的重要性和居民个人隐私观念的提高,在保证数据采集准确性的同时,更应关注如何保护数据采集中的用户隐私问题以及与国家关键基础设施相关的数据安全。

  作者在写这篇文章的时候,身边的朋友好像在微信公众号推送一篇关于Flightradar24涉及信息安全违规的文章。作者和我的朋友对*敏*感*词*和AIS系统更感兴趣,他们知道这些数据的重要性。

  本文到此结束。作者将继续分享和交流有关数据分析和数据产品的知识。文中不妥之处欢迎大家批评指正。

  本文由@快乐的给原出发布给大家都是产品经理,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线