网站内容发布审核流程(何为内容审核?简单来说:对用户在社交平台上上传、发布或共享的内容)

优采云 发布时间: 2021-09-27 07:13

  网站内容发布审核流程(何为内容审核?简单来说:对用户在社交平台上上传、发布或共享的内容)

  什么是内容审核?

  简单来说:查看用户在社交平台上上传、发布或分享的内容(文字、图片、音频、视频)。

  其主要目的是过滤低质量、低俗的内容,从而产出高质量的内容,防止用户体验下降,保持良好的内容基调。

  在这个过程中,平台会对内容有专业的标准作为参考。这时,一个很大的问题是人工筛选效率低下,成本高。

  因此,很多内容平台都使用算法进行过滤,通过人工和算法的有效结合来提高效率。

  过滤后的内容基本可以保证无害,即使质量不高,也不存在风险问题。此时,公司将面临是先审后发还是先审后发的选择:

  “先发表后评论”:即用户先发布UGC内容,再进行评论;“先审核,后发布”:即用户提交UGC内容后,先进行审核,审核通过后即可发布UGC内容。“issue before review”和“review before issue”的适用场景:

  “先发布,后评论”:适用于对发布内容时效性要求较高的场景,比如用户在阅读、听歌等场景下的评论。这个时候,用户的评论更多是即兴创作,所以站在用户的角度,希望我的评论能成功,立马见效。例如:网易云音乐评论。“先审后发”:适用于在社区、论坛、新闻平台等发表文章、意见、讨论等,此时需要平台对内容负责,建立权限,所以通常在发布之前必须对其进行审查。例如:抖音,人人都是产品经理。

  一、 审计方式

  无论审查的内容如何,​​都应包括以下四个基本模块:机器审查、人工审查、用户投诉审查和结果审查。

  1. 机器评测

  根据既定规则或机器学习算法审查内容。

  一般成熟的审核系统可以自动审核和处理95%甚至99%以上的内容。如果确定有问题,它将被自动删除。如果很难判断是否有问题,则会被标记并进入人工审核流程。

  2. 人工审核

  用户投诉审核和结果审核虽然多为人工审核,但这里所说的人工审核特指审核机无法区分的内容,一般不超过平台内容的5%。

  但对于一些大型内容平台来说,绝对数量已经很多了。在内容爆炸的时代,我们看到很多平台在全国都有多个审计中心,每个审计中心的员工数都是数千甚至数万。

  3. 用户投诉审核

  这是前两个的补救措施。有很多以前没有出现过的违法内容;因此,它不在可以过滤的规则范围内,或者非常隐蔽,规则很难严格过滤。

  用户投诉是发现新问题的重要渠道。通过知乎的危机事件,我们要更加重视投诉的审核,及时对机器审核进行相应的补充。

  4. 结果回顾

  通常采用抽查的方式,比如对机器删除的内容进行复查,看规则或算法是否过于严格;例如,通过查看手动删除和传递的内容,查看员工的工作是否按要求进行;比如通过对内容的整体检查,看是否存在新的问题被忽视。

  二、 审核流程

  具体流程如下图为例:

  先通过机器审核,然后通过或不通过机器审核;如果机器未通过机器审核,将进行人工审核;如果机器通过机器审核,则将进行人工抽样审核。

  

  三、评论的四个维度

  这里一般有评论、关键词评论、用户发帖限制、重复内容过滤、白/黑名单用户四个维度。

  1. 关键词 评论

  词过滤关键词主要分为三大类:

  1)禁止关键词

  只要匹配到这个词,内容就会被自动删除或禁止提交。通常只有极少数的词会被收录在被禁止的关键词中,比如露骨*敏*感*词*、邪教、广告专属关键词。

  2)评论关键词

  这是关键词最常见的类型,只要匹配到就会自动进入后台审核。文章中的关键词会高亮列出,方便审稿人快速判断。评论关键词也应该是独家的关键词,防止过多的内容被拦截到后台。

  3)替换关键词

  在很多平台上,我们会在文中看到莫名其妙的数字或字母缩写*。这个可能不是文章的作者写的,但是这个词是系统自动替换的。平台不希望这个关键词出现,但读者通常可以通过用别的东西代替它来理解。例如,一些政治、宗教和不文明的术语可能会被自动替换。

  当然,管理员在添加关键词时,往往不会直接在后台添加关键词。否则,用户可以通过非常简单的方式避免 关键词 过滤。比如在关键词中加一个空格,会让系统难以匹配。

  因此,一般背景会支持限定符{x}来限制相邻两个字符之间的可忽略文本,x为要忽略的字节数。Discuz!网站后台有明确说明,比如“a{1}s{2}s”(不带引号)可以过滤“ass”或者“axsxs”和“axsxxs”等等。

  对于汉字,如果使用GBK和Big-5版本,每个汉字相当于2个字节;如果使用UTF-8版本,每个汉字相当于3个字节。

  此外,关键词 还可以支持正则表达式将 关键词 与某些模式匹配。例如“/1\d{10}([^\d]+|$)/”(不包括引号)用于匹配手机号码。正则表达式的内容太多了。有兴趣的可以搜索学习。

  2. 用户发帖限制

  主要是限制一个用户无限制地发送评论。

  在这种情况下,您可以设置同一用户一分钟最多发送一条评论;一小时最多10条评论,一天最多30条评论。如果评论数超过评论数,会弹出一个祝酒词,“你说得太累了,请休息一下”提示。

  事实上,这个限制上线后,发现发布广告的人会继续注册新帐户以避免这个问题。您可以考虑将来添加它们。新用户注册多久可以发表评论,或者绑定手机号多久可以发表评论。这些严格的条件。

  3. 重复内容过滤

  这通常用于广告。

  比较时去掉汉字以外的符号,如“颤抖电音”、“快aabb手”,比较时使用“抖音”、“快手”;将该评论与同一用户的最后一条评论进行比较,10 如果汉字和其中一个汉字的重复率达到 70%(20, 60%; 30, 50%),则弹出“请勿发布重复内容”的祝酒词向上; 同时,该评论仅与评论库中发布的最后 50 条评论进行比较。20个以上汉字,其中一个重复率达到80%,机审不通过(30, 70%; 50, 60%);

  比较重复内容时一定要去掉一些不相关的符号。因为很多小广告喜欢加空格和逗号。他们通常还会保留几篇文案,可以与评论库中的文案进行比较;这样也可以避免改号和文案的问题。

  4. 白名单用户,黑名单用户

  白名单用户和黑名单用户需要有一个可编辑的后台,可以随时添加或删除;如果同一用户一天内有超过10条不成功的评论,他们将被自动列入黑名单。

  白名单用户不受发帖次数限制,但内容需要检查广告词、敏感词、屏蔽词。如果一天内发表评论超过10条,机器审核不通过,也会被自动拉入黑名单。黑名单用户发表评论时,会弹出吐司“暂时无法发表评论”或直接电脑审核失败。

  最后补充一点,IP其实没有限制,因为公共区域的wifi好像是同一个IP。虽然非常希望能处理垃圾评论的问题,但还是希望不要影响到普通用户。

  以上基本上是所有内容审核都需要了解的一点。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线