如何批量采集高质量好文章(腾讯微信数据质量团队解读自媒体在线文章质量自动评估算法 )
优采云 发布时间: 2021-11-01 04:15如何批量采集高质量好文章(腾讯微信数据质量团队解读自媒体在线文章质量自动评估算法
)
自媒体时代,每个公众号都在思考一个问题:如何让我的文章被更多人看到?其实除了操作,本章本身的质量才是最根本的。在这个文章中,腾讯微信数据质量团队解读了他们的自媒体在线文章质量自动评价算法,告诉你文章在模型眼中的好在哪里.
移动阅读时代,出现了很多用户生成内容模式下的自媒体平台。每个用户都可以是内容制作者。这种开放性也造就了自媒体online文章 Jagged 的质量。自动评价自媒体在线文章质量对于在线推荐、搜索、广告等应用场景具有重要意义。然而,目前几乎没有关于这项任务的研究工作。
与格式良好的传统文章(如学术论文和维基百科文档)不同,自媒体在线文章主要由用户创建,没有统一的格式、布局和写作规范,包括文本和图像视频和视频的多模态混合编辑,以及内容丰富、风格多样、语义跨度大的潜在特征。同时,评价过程需要充分考虑读者的阅读体验。此外,影响文章质量的因素包括内容、排版、文风等不同方面的多重影响因素。所有这些都使得自媒体在线文章质量的自动评估变得更加复杂和具有挑战性。
为了解决这些挑战,在ACM MM2020中,腾讯微信数据质量团队建立了统一的框架,有效地学习和整合在线文章质量评估的不同因素,结合排版布局、写作风格和深层语义,建立CoQAN,一个联合模型,设计了不同的表征学习子网络,特别考虑了移动端的交互特征学习过程和交互阅读习惯,更适合人类感知的文章质量评价。作者还构建了一个*敏*感*词*的真实世界评价数据集。充足的实验结果表明,所提出的方法有效地学习并整合了在线文章质量评估的不同因素。
论文链接:
考虑到自媒体平台的性质,笔者将自媒体在线文章的质量合理定义为文章给用户带来的阅读体验水平,即,文章可读性的水平体现在文章的信息内容、写作标准、用户感知等方面。
高质量的文章需要满足排版整齐美观,节段划分清晰,图文排列整齐;内容连贯,衔接性强,文笔逻辑好,信息丰富。相反,低质量的文章往往布局或写作逻辑混乱,内容不完整或毫无意义,甚至可能是一段拥挤的文字或混乱的纯图片或视频。
图1显示了两个微信公众号文章报道了同一条新闻“中国学者张莹莹被绑架和谋杀事件”。我们很容易区分它们之间的区别:右边的低质量文章收录无关的广告图片,并且在几行文字中使用了多种文字格式,给读者的眼睛带来了不必要的负担,以及在表达中使用更多的口语和情感词。相反,左边的优质文章,有更好的写作逻辑和表达,传达更丰富的内容。
图 1:高质量 文章(左)和低质量 文章(右)的示例
我们知道,当人类阅读自媒体online文章时,认知过程是由浅入深的。
当读者点击文章时,首先感受到的是排版的外观,也就是读者的表面感知。精美的视觉布局和丰富的呈现形式,可以让读者对文章产生兴趣,给读者带来更好的阅读体验。
然后,读者通过浏览词汇、句法、文章组织和图片,获得对内容的主要印象,这是读者的浅层认知。
最后,读者需要对文本语义和写作逻辑有深刻的理解,才能体会到文章的意义和价值。这是读者的深刻理解。
受上述认知过程的启发,本文提出结合布局组织、书写特征和文本语义,交互地进行特征表示学习并将其集成到一个统一的框架中来评价自媒体在线文章的质量。 . 与传统的文档质量评估大多只考虑文本元素不同,本文提出的方法以图片为建模页面布局的关键单元,提取重要的图片特征来反映文章的视觉感知和可读性水平。
这项工作的主要贡献包括:
据了解,这是第一次解决自媒体在线文章自动质量评估的研究工作。所提出的方法可以很好地模拟人类专家的评分要素和阅读习惯。
作者提出了结合不同特征空间子网络的联合认知表征学习模型,构建了端到端的自媒体在线文章质量评价框架。
作者构建了一个*敏*感*词*的真实世界数据集。充足的实验结果表明,所提出的模型明显优于以往的文档质量评估方法。
具体方法
本文将自媒体在线文章质量评价作为一个分类任务,即给定一块文章,预测它是高质量文章还是低质量文章。
图2展示了本文提出的自媒体online文章质量评估的CoQAN网络架构,其中设计了三个子网络来解耦布局组织、写作特征和文本语义的建模。
对于布局建模,研究人员考虑了人们在终端阅读自媒体文章时自上而下滑动的顺序阅读习惯,将文章划分为一系列内容块,明确学习文章 图形标题等布局布局元素,同时捕捉整体页面布局和局部布局模式。
书写特征子网络考虑到多模态元素的特征,可以通过学习深层次的特征交互关系,进行不同特征子空间的特征选择和特征融合,从而实现高阶非线性特征融合.
文本语义子网从不同语义层次深度捕捉章节级长文本文本内容中的语义和衔接关系,深入学习复杂语义空间和整体写作中的词间、句间依赖文章 的逻辑。在融合层中,每个子网络通过一个全连接层来调整输出向量中每个神经元的权重,级联后由输出层预测质量类别。
图2:本文提出的自媒体online文章质量评估的CoQAN网络架构
布局和组织子网络
为了明确了解外观布局的组织和排列方式,作者首先通过页面分析将文章划分为一系列内容块。内容块可以是标题、段落、图片或视频,如图3所示。
之后,提取每个内容块的页面布局相关特征,例如类型(文本/图像/视频)、在文章中的位置、内容块本身的高度、与页面顶部的距离等。这些特征值聚合形成每个内容块的布局特征向量,可以表达多个重要的布局特征。
图 3:布局组织子网络中的内容块提取和输入特征向量构建
将GRU网络应用于内容块布局特征向量序列,对内容块之间的序列依赖性进行建模,捕捉文章的全局排列模式。同时作者对输入的排版向量应用一维卷积神经网络学习关键局部布局,并设置多种尺寸的卷积核来捕捉不同比例的布局模式。两个网络级联以产生子网络的输出向量。
写特征子网
写作特征子网可以捕捉在线文章的编辑风格。作者对标题、文字、图片和视频、章节组织等特征进行提取和计算。例如,标题特征包括标题长度、关键词数量等;body特征包括文章类别、文本长度、n-gram、词性标签、非重复字符和非重复词比例等;图片和视频功能包括图片数量、*敏*感*词*图片数量、视频数量、OCR文本最大数量等。章节组织功能包括段落数量、用作章节标识符的模板图片数量、图片数量与段落数量的比例等。
为了允许不同类型特征和数值特征之间的交互,写入特征子网络首先通过嵌入层将所有特征投影到同一特征空间中,旨在对嵌入空间中的高阶组合特征进行建模。在本文中,作者使用多头自注意力层同时学习多个特征子空间中不同特征之间的相互依赖性,并进行特征空间的融合。多头允许将特征域收录在不同的特征组合中。
作者在网络中添加了残差连接,以保留之前学习的低阶组合特征,包括原创的单个特征。网络将多层多头自注意力进行堆叠,从而可以同时对多级组合特征进行建模,实现不同空间的深度特征融合。
文本语义子网
作者对BERT进行了改进,将hi-Bert设计为文本语义子网络。BERT 依托强大的预训练技术,具有很强的上下文建模能力。由于BERT中self-attention机制的时间复杂度为O(n2),BERT目前只用于处理句子级文本,不适用于文档级长文本输入。考虑到固有的层次结构的文档,即词构成句子,句子构成文档。作者将BERT改进为一种称为hi-BERT的层次结构,其中收录两级编码器依次对文档进行编码,分别应用于句子级和分别是文档级别。
由于标题是文章的高级概述,所以这里也用标题作为输入语句。在句子级别,网络以迁移学习的方式使用预训练的 BERT。在文档层面,作者使用文档层面的双向 Transformer 层来学习句子之间的深度依赖,从而获得最终的 文章 语义向量。hi-BERT可以深度学习词句交互关系,面对不同的写作风格,可以学习到鲁棒的文章语义表示。
实验结果
由于自媒体在线文章质量评估任务没有公开的数据集,作者从微信公众号平台采集并处理在线文章数据,构建了一个自媒体@ >在线文章质量分类数据集。该数据集收录38,248个在线文章,涵盖44个文章类别,涵盖新闻、金融、科技、民生等,实验在此数据集上进行评估。
对比实验结果表明,所提出的方法CoQAN在所有指标上都取得了最好的结果。实验中,baseline模型使用了与本文提出的模型相同的特征,因此模型的优越性能得益于作者提出的联合网络表示学习架构,可以充分学习到更多有价值的信息。
自媒体7@>
消融实验的结果证明了各个子网络的结构和联合学习的有效性。当去除文本语义子网络时,网络性能下降最多,这说明对复杂的写作知识进行建模是非常必要的。此外,文本语义子网络的性能超过了所有仅对文本输入进行建模的基线模型,书写特征子网络的性能超过了所有基于特征的基线模型。文章布局的建模可以有效提高文章质量评估性能。从实验结果来看,任意两个子网组合的性能都优于单个子网,并且三个子网组合的整体网络CoQAN是最优的,证明每个子网自媒体
自媒体8@>
作者设计了一个干扰实验来验证模型是否可以学习到感兴趣的书写逻辑和布局模式。实验中,将所有正确预测为正样本的文章句子或布局内容块的顺序随机打乱,将打乱后的样本视为负样本,观察扰动成功的比例。干扰率越高,模型对编写逻辑和布局模式越敏感,对文章质量的评估能力越强。
从结果来看,本文提出的模型明显比所有对比模型对句子打乱的干扰更敏感,这表明CoQAN可以更容易地捕捉句子之间的衔接关系,学习内容和写作逻辑的一致性。单文本语义子网(TS)的成功干扰率高于整体联合网络CoQAN。这是因为对正样本进行了扰动实验,正样本具有良好的文字质量和排版质量。因此,当只有一个句子被打乱时,一个好的布局会在一定程度上防止 CoQAN 将其判断为负样本。当版面顺序和句子顺序同时被打乱时,成功干扰的比例远高于单一维度下。这些结果证明,本文提出的 CoQAN 成功地学习了文本编写和页面布局的知识。
自媒体9@>
此外,作者对特征的交互关系进行了可视化分析,发现底层的self-attention层可以区分优势特征,而顶层则学习更复杂的特征空间交互以获得有意义的高层融合特征。图中的结果表明,占主导地位的特征是文本长度和图片中的最大字符数。高质量的文章通常内容更丰富、图片更规则,而低质量的文章通常没有 内容完整,经常有收录大量文字的广告图片。其他重要特征包括图片中文本区域的比例、非重复字数、标题中关键词的数量、图片数量、
近日,南京大学周志华教授的专着《集成学习:基础与算法》中文版开售,让我们有机会系统地学习这种经典的机器学习方法。
为了更好地帮助《机器之心》的读者了解集成学习,我们特邀本书翻译、周志华教授的学生李楠博士分别于8月16日和8月23日带来了两场线上分享会。让我们一起学习整合学习。