社交平台先发后审和先审后发的区别
优采云 发布时间: 2021-03-31 18:13社交平台先发后审和先审后发的区别
什么是内容审核?
简单地说:查看用户在社交平台上上传,发布或共享的内容(文本,图像,音频,视频)。
主要目的是过滤低质量和低俗的内容,从而生成高质量的内容,防止用户体验下降,并保持良好的内容色调。
在此过程中,平台将具有针对内容的专业标准作为参考。目前,一个大问题是手动筛选效率低下且成本高昂。
因此,许多内容平台使用算法通过有效地结合使用手册和算法来过滤和提高效率。
过滤后的内容基本上是无害的。即使质量不高,也没有风险。目前,公司将面临选择是在审核前发行还是在审核后发行的选择:
“先发布,然后查看”:即用户先发布UGC内容,然后进行查看; “先审后发”:即用户提交UGC内容后,先对其进行审阅,然后在审阅通过后即可发布UGC内容并在线发布。 “复审前”和“复审前”的适用场景:
“先发布,后审查”:适用于要求发布内容具有较高时效性的场景,例如在诸如阅读和收听歌曲之类的场景中的用户评论。目前,用户对即兴演奏的评论更多。从一个角度来看,我希望我的评论将立即获得成功和有效。例如:网易云音乐评论。 “发布前审阅”:适用于在社区,论坛,新闻平台等中发布文章,观点,讨论等。此时,该平台需要负责内容和构建权限,因此通常已审核,可以稍后发布。例如:抖音,每个人都是产品经理。
一、审核方法
无论审核内容是什么,它都应包括以下四个基本模块:机器审核,手动审核,用户投诉审核和结果审核。
1.机器评论
根据已建立的规则或机器学习算法对内容进行审查。
通常,成熟的审阅系统可以自动审阅和处理95%甚至超过99%的内容。如果确定存在问题,它将被自动删除。如果很难判断是否有问题,将对其进行标记并进入手动审核过程。
2.手动审核
尽管用户投诉审查和结果审查主要是人工审查,但此处提到的人工审查专门指审查机器无法区分的内容,通常不超过平台内容的5%。
但是对于某些大型内容平台,绝对数量已经很多。在内容爆炸式增长的时代,我们看到许多平台在全国范围内设有多个审核中心,每个审核中心的员工数为数千甚至数万。
3.用户投诉审查
这是对前两个的补救措施。有许多以前从未出现过的违规行为;因此,它们不在可以过滤的规则范围之内,或者是非常隐蔽的,并且这些规则很难严格过滤。
用户投诉是发现新问题的重要渠道。通过知乎中的危机事件,我们应该更加注意投诉的审查,并相应地及时补充机器审查。
4.结果审核
通常采用抽样检查,例如检查机器删除的内容,以了解规则或算法是否太严格;例如,通过检查手动删除和批准的内容,查看员工的工作是否按要求执行;例如,通过对内容的整体检查,看是否有新的问题没有被发现。
二、审核过程
具体过程,下图为一个示例:
首先通过计算机审核,然后通过或失败计算机审核;如果机器未通过机器审核,则将进行手动审核;如果机器通过了机器审核,则将进行手动抽样审核。
三、四个维度的评价
这里通常包括评论,关键字评论,用户发布限制,重复内容过滤和白名单/黑名单用户四个维度。
1. 关键词评论
在单词过滤方面,关键词主要分为三类:
1)禁止关键词
只要该单词匹配,内容就会被自动删除或禁止提交。通常,禁令关键词中只收录几句话,例如露骨*敏*感*词*内容,邪教和独家广告关键词。
2)评论关键词
这是关键词的最常见类型。只要匹配,它将自动输入背景进行审核。 文章中的关键词将突出显示并列出,这将有助于审阅者快速判断。审核关键词也应尽可能是独占关键词,以防止过多的内容被截获到后台。
3)代替关键词
在许多平台上,我们将在文本中看到无法解释的数字或缩写*。这可能不是文章的作者写的,但是该词会被系统自动替换。平台不希望这样做关键词,但是读者通常可以通过用其他东西代替它来理解它。例如,某些政治,宗教和不文明的用语可能会自动替换。
当然,当管理员添加关键词时,通常不会直接将其添加到后台。否则,用户可以以非常简单的方式避免关键词过滤,例如,在关键词中添加空格,系统将难以匹配。
因此,通常在后台支持限定符{x},以将可忽略的文本限制在两个相邻字符之间,并且x是要忽略的字节数。 !网站的背景中有明确的说明,例如“ a {1} s {2} s”(不带引号)可以过滤“ ass”或“”和“”等。
对于汉字,如果使用GBK和Big-5版本,则每个汉字等效于2个字节;如果使用UTF-8版本,则每个汉字等于3个字节。
此外,关键词还可以支持正则表达式,以使关键词与某些模式匹配。例如,“ / 1 \ d {10}([^ \ d] + | $)/”(不包括引号)用于匹配移动电话号码。正则表达式的内容太多了。如果您有兴趣,可以搜索和学习。
2.用户发布限制
主要限制一位用户无限制地发送评论。
在这种情况下,您可以将同一用户设置为在一分钟内最多发送一条评论;一小时内最多10条评论,每天最多30条评论。如果评论数超过评论数,则会弹出一个弹出窗口,“我厌倦了太多发言。”请休息”提示。
实际上,在此限制发布之后,发现广告商将继续注册新帐户来规避此问题。您可以稍后考虑添加它们。新用户需要多长时间才能注册才能发表评论,或者绑定他们的手机号码才可以发表评论。这些严格的条件。
3.重复内容过滤
这通常用于广告。
进行比较时,删除除汉字以外的任何符号,例如“ ”和“ kuai aabb手”,比较时使用“ 抖音”和“ ”;比较该评论与同一用户的最后评论,10如果一个以上汉字的重复率达到70%(20、60%; 30、50%),则弹出窗口“请不要发布重复的内容”会弹出;同时,该评论只会与评论库中发布的最后50条评论进行比较。如果超过20个汉字(其中之一)的重复率达到80%,则机器复审将失败(30%,70%,50%,60%);
比较重复内容时,请确保删除一些不相关的符号。因为许多小型广告都喜欢添加空格和逗号。他们通常还会保留几份文案,可以与注释数据库中的文案进行比较。这样也可以避免更改号码和撰写广告的问题。
4.白名单用户,黑名单用户
列入白名单的用户和列入黑名单的用户需要具有可编辑的后端,可以随时添加或删除该后端;如果同一用户一天中有10条以上的不成功评论,则会自动将其列入黑名单。
列入白名单的用户不受发布数量的限制,但是需要检查内容的广告词,敏感词和被屏蔽词。如果一天内发布10条以上的评论,但计算机审阅失败,它们也会自动被列入黑名单。当黑名单上的用户发表评论时,弹出窗口“您不能暂时发表评论”或计算机审核直接失败。
最后,对IP没有限制,因为公共区域中的wifi似乎具有相同的IP。尽管我非常希望处理垃圾邮件评论问题,但我仍然希望它不会影响普通用户。
以上基本上是所有内容审核都需要知道的一点。