解决方案:好文荐读|面向多源异构数据的广电媒资聚合服务系统设计

优采云发布时间: 2022-10-22 19:33

　　面向多源异构数据的广电媒体资源聚合服务系统设计

　　曹彦明、于定国、戴金晶

　　0 前言

　　由于历史原因，传统广电媒体资产系统在原有业务功能维度下，具有系统构建分散、数据分布离散的特点。节目列表、媒体资产元数据、服务标签等数据无法与新媒体服务有机融合，形成三维连接。媒体资产数据模型。同时，随着基础平台服务和媒体服务系统的不断增多，不同类型的元数据分散在不同的系统中。如果一个业务系统使用多种元数据，就需要在多个平台之间进行传输，这给业务开发带来了很多好处。由于限制，

　　为满足传统广电与新媒体融合的业务需求，华数传媒网络*敏*感*词*设计了面向多源异构数据（以下简称广电）的广电媒体资源聚合服务系统。和电视媒体资源聚合服务系统）。在基础元数据的基础上，将点播等媒体资源与直播节目列表、播放节目列表等其他资源横向连接、交互、整合；数据属性匹配关联，将广电媒体资源数据与生活、社交等多源异构数据融合，形成聚合能力强的系统，为华数传媒提供信息., *敏*感*词* （以下简称华数公司）。) 各媒体产品线的业务系统提供灵活、便捷、高效的数据服务。

　　1 系统总体设计概述

　　根据广电媒体资源聚合服务系统的整体需求设计，将广电媒体资源聚合服务系统分为五个部分：数据聚合服务、数据采集服务、数据聚合服务、数据配置管理子系统和数据能力服务。广电媒体资源聚合服务系统总体设计架构如图1所示。

　　图1 广电媒体资源聚合服务系统总体架构

　　1.1 数据聚合服务

　　数据聚合服务通过数据注入接口和数据查询获取点播和直播的元数据。文件生成后通知聚合服务获取文件进行数据聚合处理。以华数自有数据为基础，主要包括ICDS和USDL DS注入的数据，作为后续的数据聚合标准。数据聚合服务主要包括以下功能：根据约定的接口从ICDS等业务系统中获取元数据；根据配置定期从USDL DS获取节目列表数据，可更新；获取标注系统的标签、权重等关系数据，并通知聚合服务系统进行处理；注入的数据最终形成 XML/JSON 格式的文件，格式由数据源决定，文件用于数据聚合服务；管理子系统可以配置待聚合数据的各个字段和可配置的数据需要保存的查询频率规则。

　　1.2 数据采集服务

　　数据采集服务是可配置的采集器，来自各种网络信息源，利用爬虫技术和开放API接口采集指定信息，经过数据分析处理后，可供用户使用的数据数据聚合服务。数据采集服务主要包括以下功能：后台子系统的事件调度和策略配置，利用爬虫技术和开放API获取配置网站上的数据；对采集的数据进行去重，过滤掉不必要的数据，如js代码、对象控件等，保存采集接收到的图片资源以备后用；统一保存处理后的采集数据，供数据聚合服务使用。

　　1.3 数据聚合服务

　　数据聚合服务通过接收聚合服务发送的事件通知，提取聚合服务生成的文件，并输入到数据转换过程中。同时，通过计算引擎、规则引擎、流程引擎等技术组件对抽取的数据进行清洗、修正、整合，然后将数据发布到数据聚合数据库中。对数据聚合的处理过程进行实时状态记录，可通过管理平台查询整个处理过程。

　　数据聚合服务系统运行过程中出现报错后，通过邮件发送报错，配置接收报错的邮箱，提供对整合数据进行人工审核的功能，提供数据转换的执行任务和状态查看和查询。数据聚合服务系统详细运行状态，设置定时任务执行规则，设置任务运行所需参数。

　　1.4 数据配置管理

　　数据配置管理子系统主要为管理者提供整个系统的数据管理和系统配置功能。数据配置管理主要包括以下功能：html/jsp等用户浏览的页面数据；数据存储和操作；主要用作子系统控制其他服务的消息通道，使用Kafka消息系统。

　　1.5 数据能力服务

　　数据能力服务主要为推荐系统、搜索系统、门户系统等下游业务系统提供数据查询功能，支持数据更新时自动通知下游业务系统。数据能力服务接收来自聚合服务的数据更新调度事件，并通知已订阅更新通知的下游业务系统。下游业务系统认证通过后，调用数据查询接口查询聚合数据。

　　2 广电媒体资源聚合服务系统设计方案

　　2.1 数据聚合服务

　　2.1.1 技术架构

　　数据聚合服务的技术架构如图2所示。

　　图 2 数据聚合服务技术架构

　　2.1.2 功能模块设计

　　1）数据注入。根据《和数ADI_Icms内容运营平台和业务运营平台元数据同步接口技术规范V3.3.37_20191219》及以上，提供HTTP接口获取ICDS推送的元数据，并及时返回响应结果。对于后续其他类型的注入数据服务，按照双方约定的数据接口进行连接。对于有更新项的数据，标记为更新数据，用于聚合服务通知数据能力服务，作为更新通知的标识。

　　2）数据查询。数据配置管理子系统根据聚合策略配置定期向聚合服务系统发送事件，定期从USDL DS查询获取频道数据和节目表数据，支持频道数据和节目表数据的更新。对于有更新项的数据，标记为更新数据，用于数据聚合服务向数据能力服务通知更新通知标识。

　　3) 数据标签结构。通过注入数据服务和查询数据服务获得的元数据被发送到标签系统，以获得扩展标签和权重等关系数据。主要流程如下：数据聚合服务根据《华数推荐系统到标签系统接口文档V1.1》，按照规定的格式要求，将元数据发送给第三方标签系统；智能EPG输出接口文档20150617_Revision”文档规范，异步回调数据聚合服务接口，数据聚合服务再通过消息通知聚合服务。

　　4) 文件生成。注入的数据最终形成 XML/JSON 格式的文件，供数据聚合服务使用。文件生成后，会发送消息通知数据聚合服务进行处理。

　　2.2 数据采集服务

　　2.2.1 技术架构

　　data采集服务的技术架构如图 3 所示。

　　图 3 数据采集服务技术架构

　　2.2.2 功能模块设计

　　1) 数据采集。采集器资源信息的获取主要通过Spider爬虫和外部网站API能力开放接口来实现。爬虫要爬取的网站网页信息是通过管理子系统配置和维护的，可以通过管理子系统访问。网站控制网页信息爬取的时间和频率。Spider爬虫基于WebMagic开源爬虫框架开发，根据管理子系统配置爬取规则，爬取网站网页信息。主要功能包括：支持URL链接提取、页面下载、内容提取；支持多线程爬取；可定制的 UA/cookie 信息；支持自动重试机制。开放接口主要是指对外的网站开放API接口，如豆瓣开发者服务平台，通过其标准API接口获取豆瓣评论/评分等信息。后续其他网站如果有类似的API接口，也可以按照网站标准API规范连接获取数据。

　　2）数据分析。根据采集器获取的外部网站数据，进行统一的数据分析处理，消除重复数据。关键词过滤采用solr+Jcseg分词器技术实现，确保关键词过滤快速有效。

　　2.3 数据聚合服务

　　2.3.1 技术架构

　　数据聚合服务的技术架构如图 4 所示。

　　图4 数据聚合服务技术架构

　　2.3.2 核心算法设计

　　1）数据库模式匹配算法。首先根据模式对应的数据实例信息计算模式元素之间的部分函数依赖（模式结构信息），然后根据部分函数依赖建立模式元素之间的依赖图，然后构造根据元素依赖图计算元素之间的相似度。最后得到模式元素之间的映射关系。由于使用了更多的结构信息来辅助匹配，因此该方法的性能优于其他仅使用完全功能依赖的结构信息进行匹配的方法。这是一种将数据实例信息与结构信息结合起来辅助匹配的新方法。

　　2）数据库增量更新同步策略。配置源服务器和目的服务器；配置要传输的表（根据表中最后一次更新时间字段（增量传输）；同步开始时间（根据最后一次更新时间字段，如update_date大于等于这个时间进行数据传输） ); 调度配置（配置多久自动执行一次）；最后保存设置；传输数据可以根据计划手动或自动执行。

　　2.3.3 功能模块设计

　　1）数据提取。数据抽取主要使用ETL调度工具，通过调度工具接口配置数据源的位置，然后将数据抽取到当前数据库（MySQL）中。

　　2) 元数据格式。基于ETL的调度工具使用Kettle的二次开发框架。源数据格式支持多种方式，包括：支持标准XML格式；支持标准 JSON 格式；支持常规文本格式（文本格式由源提供者和接收者协商确定）；支持各种关系数据（Oracle、MySQL、PostgreSQL、DB2 等）。

　　3）数据清洗。由于数据来自多个源系统，因此必须有统一的口径对数据进行清洗和转换。通过 Asset ID 验证元数据的唯一性，对重复数据进行去重。如果此类数据较大，则将其作为脏数据进行人工审核。主键字段必须唯一且不为空。不规则的数据整理（例如，一个字段是数字，但实际整理的数据是字符类型等）将被人工审核为脏数据。多个源系统必须具有一个或多个字段作为聚合关联。点播和直播的源数据按照元数据（Asset ID）的编码进行聚合。通过网络爬虫获取的互联网数据（如豆瓣评分、优酷土豆等），包括但不限于姓名、导演、编剧、主演、流派、制作国家、语言、上映日期、片长（时长）、AKA（别名）、简介、评论、评分、星级等。首先清理互联网数据；删除名称和别名都为空的数据；name 或 aka name 不为空，评论、评分、星级三项数据均为空。

　　4) 数据分布。数据模型（数据结构设计）使用ER-Win进行设计，星型模型用于构建。最后生成Word或Excel格式的数据字典，用于后续项目管理或提供给第三方系统参考。所有数据根据业务需求创建市场数据，并以接口的形式提供。为内部系统提供http接口，接收来自管理平台的命令，可用于任务管理和监控。为提取的数据源提供参数化配置，管理平台可根据实际需要进行配置。

　　2.4 数据配置管理子系统

　　2.4.1 技术架构

　　数据配置管理子系统的技术架构如图5所示。

　　图5 数据配置管理技术架构

　　2.4.2 功能模块设计

　　数据配置管理子系统的主要模块有系统管理、数据管理和数据配置管理。数据配置管理功能模块如图6所示。

　　图6 数据配置管理功能模块

　　1）系统管理。提供运营管理子系统的用户管理，包括用户查询、添加、编辑、删除、权限角色编辑、数据源权限配置等功能；提供子系统资源菜单管理，包括资源查询、添加、编辑、删除等功能；提供系统角色管理，包括查询、添加、编辑、删除角色等功能；支持按指定条件查询整个系统的操作记录和系统记录，并根据查询结果导出操作。

　　2）数据管理。提供根据条件查询数据的功能；支持编辑、删除、手动获取标签数据的功能；支持人工审核非法或可疑数据功能；支持数据离线运行，通过数据能力服务通知下游业务系统离线；支持数据源、数据类型、日、周、月、年数据统计报表功能，支持标签类型分类统计功能。

　　3）数据配置。提供聚合服务的管控功能。策略管理主要包括数据源查询任务频率和重试失败次数的配置管理，以及策略的查询、编辑、启停、删除等功能，可以查看查询的执行记录任务。和详细信息；管理和控制采集服务，主要包括采集源和采集记录的信息管理，通过编辑策略信息支持采集服务器的操作。采集源码管理包括网站地址、采集方法（爬虫/API）、采集频率、采集深度、采集类型（网页/查询、添加、编辑、删除和其他功能的信息，如评论和评级）。采集记录管理是通知采集服务按照频率执行采集，通过记录管理可以查看所有记录信息，包括采集来源，采集状态、采集时间、采集结果数据等信息；管理和控制聚合服务，主要包括聚合规则脚本配置、告警配置、调度配置等功能的管理，以及查看聚合过程中记录的信息。可以查看所有记录信息，包括采集来源、采集状态、采集时间、采集结果数据等信息；管理和控制聚合服务，主要包括聚合规则脚本配置、告警配置、调度配置等功能的管理，以及查看聚合过程中记录的信息。可以查看所有记录信息，包括采集来源、采集状态、采集时间、采集结果数据等信息；管理和控制聚合服务，主要包括聚合规则脚本配置、告警配置、调度配置等功能的管理，以及查看聚合过程中记录的信息。

　　4）关键字管理。提供查询、添加、编辑、删除系统关键词等功能，主要用于过滤外部网站评论数据、视频信息等。

　　5）能力开放管理。提供对下游业务系统的访问管理，主要包括下游业务信息、订阅更新通知标识、下游业务访问安全认证配置（appid+a*敏*感*词*ey方式）。

　　2.5 数据能力服务

　　2.5.1 技术架构

　　数据能力服务的技术架构如图7所示。

　　图 7 数据能力服务技术架构

　　2.5.2 功能模块设计

　　1) 数据更新。当系统元数据更新时，触发该操作，聚合服务通知数据能力服务更新的具体信息，数据能力服务将更新信息推送给已订阅元数据服务的下游系统。信息更新过程如下：聚合服务更新数据后，向消息队列发送数据更新消息，其中收录更新的具体信息；数据能力服务收到消息后，更新索引数据库，查询并订阅指定的元数据更新通知服务的下游系统；通过约定的接口向下游系统发送更新通知。

　　2）数据查询。为聚合后的元数据信息建立缓存机制，快速查询数据信息。下游业务系统可以通过约定的接口查询汇总的元数据信息。

　　3 结论

　　目前，华数的多源异构数据广电媒体资源聚合服务系统已投入运行，已聚合近180万条媒体资源元数据、10万条个人媒体资源数据、150多个可用的安全媒体资源元数据。10,000 篇文章和 50,000 多个媒体资产标签。广电媒体资源聚合服务系统支持华数互动电视、互联网电视、手机电视、云搜索、智能推荐等各类综合媒体业务系统，大数据分析等业务提供强大的数据支撑。

　　有你想看的精彩内容

　　内容分享:如何用文章采集伪原创工具实现CMS优化

　　不同的cms关注不同的领域，苹果cms主视频，雨cms

　　主要小说，WordPress主要国际，对于我们的网站管理员来说 cms网站，网站内容更新和维护是一个令人头疼的问题，那么我们应该如何管理这些cms来确保其内容在用户和排名中很好地排名？事实上，我们可以通过文章采集伪原创工具来实现它。

　　文章采集伪原创工具可以根据用户填写的关键词自动识别各大平台网页上的标题、正文等信息，无需编写任何采集规则即可实现全网采集。采集内容后，将自动计算内容与集合关键词的相关性，仅将相关文章留给用户。

　　文章采集伪原创工具支持标题前缀，自动粗体关键词，插入永久链接，自动提取标签标签，自动内部链接，自动映射，自动伪原创，内容过滤和替换，计划采集和主动提交等一系列SEO功能。用户只需设置其关键词，并且需要完全管理相关内容。无论是单个网站还是站群，都可以轻松管理无限数量的网站。

　　文章采集伪原创工具可以实现对软件中不同cms网站数据的观察，有利于多网站站长进行数据分析;批量设置发布数量（您可以设置发布数量/发布间隔）;预启动伪原创;直接监控软件已经发布、待发布、是否伪原创、发布状态、URL、程序、发布时间等;您可以在软件上查看收录，重量，蜘蛛等的每日数据。

　　要使网站SEO友好，需要专业的技术来实现它，并不是每个网站都有良好的SEO优化结果。要了解网站优化的作用并了解SEO的重要性，有必要熟悉或熟悉常见的SEO优化技术。

　　SEO优化：优化关键词，网站优化性能受关键词难度的影响。一般来说，在接受项目和网站优化时，首先要分析其关键词，结合网站本身的定位和模式、行业竞争程度、规划时效性、发展目标等基础数据，定位网站的关键词。应如何定位此关键字？哪些因素会影响关键字难度？它直接影响项目的可行性和可操作性，网站。

　　1. 确定需要优化关键词。请务必确定优化时关键词。关键词分为长尾关键词，优化网站内容和外部链接为主。这样的关键词更加困难。经过多年的积累，第二个字可以增加权重，第二个是核心关键词，这是网站的核心，是吸收用户流量的绝对主力。

　　2.百度指标数据测量关键词优化难度大。指关键词在百度平台上的普及。关键词在百度上搜索的次数越多，相应的百度索引就越高，但就越低。它可以反映这个关键词。竞争关键词越受欢迎，难度因子就越高。

　　3.百度的收录决定了难度。收录卷是百度网站页数。百度页面收录关键词，这是收录关键词量。因此，百度收录越大，这个关键词就越活跃。收录量越大，优化就越困难。

　　4. 关于顶级域名的数量。域名排名很多，权重最高的是一级域名。一级域名数量与关键词推广网站正朝着同一方向发展，一级域名越多，优化难度越大。

　　5.关键词数量。关键词由关键词组成。关键词越多，关键词就越受欢迎。关键词的难度取决于这种关键词。如何确定关键词的数量和热情？使用搜索工具在百度上搜索这些关键词，了解数量，数量，百度索引以及相关信息优化的难度也在增加。

　　6. 页面和关键词匹配的程度。网站优化的难度还受到关键词和页面匹配程度的影响。匹配要求越高，就越难优化网站。

　　文章采集伪原创工具可以为我们提供极大的便捷管理网站，还需要我们的网站站长合理使用，毕竟SEO的核心竞争力是不断优化，只要我们坚持数据分析和优化调整，就能始终实现理想的流量转化。

0

2022-10-22

内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:好文荐读|面向多源异构数据的广电媒资聚合服务系统设计

0 个评论

发起人