全网文章 采集(新华智云首席数据官:基于MaxCompute做媒体大数据开放平台建设)

优采云 发布时间: 2021-12-31 08:17

  全网文章 采集(新华智云首席数据官:基于MaxCompute做媒体大数据开放平台建设)

  摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战。新华智云利用大数据和人工智能技术赋能传媒产业。通过媒体大数据开放平台,聚合媒体行业全网数据,借助平台数据处理能力和算法能力,向用户开放有价值的数据内容和能力。本文主要从新华智云数据核心平台、媒体行业数据特征、批处理数据架构、通用媒体大数据平台能力等几个方面介绍如何构建基于MaxCompute的媒体大数据开放平台。

  演讲嘉宾简介:新华智云首席数据官李金波。负责阿里巴巴大数据通用计算平台MaxCompute(原ODPS)的框架架构。他在高可用性分布式系统的设计和开发方面拥有多年的经验。先后开发了阿里巴巴机器学习平台在线预测系统和通用大数据计算平台框架系统。精彩回顾此直播视频,请点击这里!以下内容根据演讲者的视频分享整理而成。本次分享主要集中在以下五个方面:

  一、关于新华智云二、数据核心-媒体大数据开放平台三、媒体大数据平台能力四、项目依赖五、几个tips

  一、关于新华智云 新华智云是新华社与阿里巴巴合资成立的公司。它专注于利用大数据和人工智能技术为媒体行业赋能。随着自媒体的发展,自媒体的公司很受欢迎。今日头条,抖音等。对于传统媒体来说,他们面临着巨大的压力和挑战。传统媒体热切希望互联网技术能够帮助他们赋能。

  媒体大脑-数字核心

  媒体大脑是新华智云的底层产品品牌,数据芯是媒体大脑的基础数据平台。Datachip定位为媒体大数据的开放平台,其中收录媒体行业依赖的多种数据。Datachip希望通过平台自身的数据处理能力和算法处理,将挖掘出的有价值的数据内容和能力开放给上层用户。目前数据核心收录多种数据,覆盖超过400万个互联网网站点,主要是中文站点,每天增加7000万个文章,包括微信公众号、微信博客号、图片和多媒体资源等。在平台中存储不同的资源,然后对接数据进行更多的处理和使用。“数据不再是成本,各个渠道的数据基于实体进行整合,为用户提供统一的视图。用户可以看到信息的发酵过程以及信息传播到哪里。

  二、数字核心-媒体大数据开放平台

  Datachip是一个开放的大数据平台,开放性主要有3点。一是数据公开。任何数据进入数核后,都会在整个大数据处理链中进行计算,结构化内容,添加标签。同时根据用户感兴趣的数据范围,对标签的特征进行过滤,过滤出用户想要的数据。Datachip帮助用户了解互联网上的信息,了解互联网上与自己相关的事件。第二,数字芯片提供智能能力的开放。用户再怎么努力,也不可能获得互联网上的所有数据;不可能每个公司都建立自己的内容大数据平台进行数据分析,不可能有算法工程师;而且公司的数据处理能力还不够。强的; 媒体大数据平台可以帮助用户处理与其相关的数据,通过算法能力获取用户关心的信息。如果用户提供了文章,Datachip可以反馈这个文章与谁有关,同一个文章传播到哪里,文章是谁写的,发布到哪里了等信息。通过开放算法能力,帮助用户应用数据能力和算法能力,提供文本反垃圾邮件服务、互联网内容结构化服务、文本内容实体识别服务、文本去重判断服务、图像字符识别服务和图像标注服务等。 . 第三,

  媒体数据特征

  媒体大数据具有三大特点。首先,媒体数据非常非结构化。与传统数据仓库最大的不同在于,媒体行业90%以上的数据都是非结构化的,比如文本、图片、视频等。第二,数据来源的多样性。媒体行业数据具有多种外部数据源,具有不同的数据提供方式,提供不同的数据能力。因此,需要具备强大的数据聚合能力,聚合所有数据,服务下游客户。此外,对数据有效性的要求非常高。媒体行业自然会追逐新闻热点。如果它知道一个事件是一个潜在的热点,媒体希望尽快跟踪、报道和解释这个热点。

  批处理流处理组合

  数据核心平台基于媒体行业数据的特点,采用批流相结合的方式,解决当前客户和业务场景的数据需求。批处理是指大量的计算,基于平台特性完成复杂模型、算法训练、长周期计算、文本实体识别、文本挖掘,利用批处理能力解决更深、更*敏*感*词*的数据处理。Streaming是指流式计算,完成数据清洗、结构化、轻量计算和实时统计。一条新闻出来,信息在整个新闻流通过程中实时处理。目前数字核心的整体流量计算大约需要300毫秒,也就是一条消息从源头传来,

  批流组合数据架构

  数据来自不同的数据源,如API、OTS、ROS、日志、文件等,一方面需要对数据进行实时计算、文本结构、标记源、垃圾识别、实体的URL去重识别和灯光实时统计。另外,基于MaxCompute,DataHub用于在批处理平台中存储数据。由于流计算本身不做持久化存储,所有的数据都会存储在MaxCompute上。完成数据存储、主题构建、关系挖掘、知识图谱计算、算法训练。批处理和流相结合的处理方式可以满足客户对数据本身能力的需求。之后,为用户提供搜索能力、大屏能力、BI能力。三、

  人们在网页上看到一条新闻,该新闻存储在数据库的字段中。比如分为新闻标题、发布网站、时间、新闻来源、情绪等。平台需要对新闻信息进行结构化,成为后续计算过程需要依赖的数据结构化字段。

  主题建筑

  媒体行业将按主题构建数据。平台将获取不同的数据源和不同类型的数据。这些数据不能完全结合。数据核心平台将所有数据划分为不同的主题,根据不同的主题进行构建、存储和处理。媒体是一个非常复杂的行业,对各个行业的数据都有需求。媒体需要挖掘来自许多不同行业的数据来支持新闻制作和报道。目前,Datachip专注于媒体、体育、金融、天气等主题的内部数据。一方面,Datachip 将不同的数据源聚合到平台中。另一方面,数据进来后,可以挖掘潜在的新闻点,生成选题计划,帮助用户选题等话题。

  实体识别

  实体识别是媒体大数据最基本的能力。Datachip目前积累的实体以人、机构、地点三类数据为中心。新闻行业和媒体行业会聚焦于某个实体,关注与该实体相关的数据能力。比如很多企业会关注与他们相关的询问,新闻是正面的还是负面的,哪些机构会发送正面信息,哪些机构会发送负面信息。只有在采集了大量数据后,才能对相关内容进行分析。实体识别场景是媒体大数据领域非常基础的能力。首先,建立实体数据库。同时,当一条新闻产生时,Digital Chip 需要实时识别新闻与哪些人、机构和地点相关。此外,Digital Core 需要采集实体之间的关系来创建实体关系图。例如,很多品牌会瞄准竞争对手,调整品牌战略。实体关系图对很多企业的品牌运营推广很有帮助。

  情绪分析

  情感分析也是媒体大数据平台中比较常见的能力。一条新闻出来后,用户需要知道它是正面的还是负面的。信息量少的信息可以人工判断,但是如果每天有几千篇文章,就无法人工判断最后一篇文章的内容。媒体行业的情感分析与学术情感分析是有区别的。目前自媒体发布后的短文越来越多。短文本的情感分析不同于长文本的情感分析。以前用同样的算法来实现情感分析,但是发现效果并不好。现在,Digital Core 分离了情感分析场景。Word2vec+LSTM用于微博短文本的情感分析,Word2vec+CNN+RNN用于新闻长文本的情感分析。分离后,我发现每一种情感分析的效果都有所提升。

  重复内容删除

  内容重复数据删除是媒体大数据平台中非常重要的一部分。去重能力是准确判断常见新闻摘录、编辑、删除重复的能力。一条新闻不是一个人写的,它会被许多组织和渠道转发。如何知道一条新闻转发到哪个渠道,其实是通过去重实现的。平台在采集了大量渠道的数据后,需要将一条新闻与前一条新闻的相似度进行比较,通过相似度的比较得出结果。最早的去重是基于关键词的对比,数据核心采用了关键词和语义的对比,去重效果显着提升。

  内容标记

  可以使用搜索引擎搜索新闻,关键词和文章的匹配程度决定了该内容是否推荐给用户。但单纯的搜索方式已不能满足用户的需求。今天的今日头条之所以成功,是因为它根据新闻和用户习惯推荐内容。内容标注是通过机器理解新闻,了解新闻与哪些信息相关,基于文本挖掘方法实现对全网内容数据采集的分类和标注。

  四、项目依赖很多场合,很难决定是否使用大数据平台来划分项目。不分项目的好处是开发者都在同一个平台上工作,彼此之间不需要太多的授权,整体的工作效率会更高。子项目的优势在于,使用不同的平台做不同的业务,会更清晰、更有条理。Digital Chip 开始使用 MaxCompute 时,采用的是逐个项目的方法。其考虑的原因是以下三点。首先,可以通过子项目区分业务优先级,防止低优先级的任务影响高优先级的数据输出。此外,可以区分资源消耗类型,避免从整体上影响数据输出的高资源消耗任务。内部服务和外部服务之间也有区别,以避免内部服务的交叉影响。一般来说,子项目可以为数据输出的稳定性提供很好的保证。

  五、一些提示

  首先,由于媒体行业的数据大多是非结构化数据,所以会对单个领域的容量产生比较大的需求。而且,不同的平台和传输工具对数据的字段大小有不同的限制。从不同平台传输数据时,需要特别注意这个问题。其次,对于可以用UDF解决的问题,不要使用MR。使用UDF可以提高开发和运维的效率。即尽量使用简单的表达式处理逻辑,有利于整体数据输出的稳定性。第三,对查询效率要求不高的数据报表可以直接接入MaxCompute,减少中间环节。这样可以大大降低数据转换和数据维护的成本。第四,一方面,Datahub可以连接数据源,也可以更好地连接流之间的批处理和计算过程,以保持数据的一致性和形式依赖性。五是合理设计批处理和流数据处理分区,减少重复计算。第六,媒体大数据往往需要使用不同的算法。PAI可以帮助解决很多算法问题,减少开发工作量,提高数据处理效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线