网站安全检测内容(看一下不同内容类型的安全检测方法,你了解多少? )
优采云 发布时间: 2022-04-16 09:35网站安全检测内容(看一下不同内容类型的安全检测方法,你了解多少?
)
在我们服务过的H5项目中,很多都有一定的UGC功能,即用户需要输入文字,或者上传图片、视频、音频等。
考虑到我国互联网环境的特殊性、网民的数量和多样性等莫名其妙的原因,用户上传的任何内容都需要进行测试,排除任何与*敏*感*词*、轰炸、政治相关的内容,因为这些内容会带来给客户带来意想不到的麻烦。
今天我们就来看看针对不同内容类型的安全检测方法。
1. 文本检测
文本检测是各种用户内容中最容易处理的,因为文本作为字符串,相对容易处理。
文本的安全检测主要分为两步,第一步是分词,第二步是查询。分词是指将用户输入的文本(通常是一段)拆解成单词。查询是指将这些词一一放入敏感词库,检查当前词是否为敏感词。
在过去,这两个步骤并不是那么容易完成的。
分词的难点在于能否结合语义。如果你一个一个地拆分单词,它会开个玩笑,例如:
...计划生育和计划外的家庭...
“计划”、“生育”、“计划生育”、“计划生育和尚”这几个字会一个一个地被取出来……这显然不是我们想要的结果。
查询的难点在于需要有足够完整的敏感词库,保证大部分敏感词都被覆盖,不会出现严重遗漏。根据目前的数据,这个词库应该收录超过 200,000 个中文单词。
因此,在云服务出现之前,中文自然语言处理和安全检测一直是个大问题。
中国有很多针对中文的自然语言处理检测服务。我们试了很多次,最后觉得腾讯云的NLP接口比较好(包括其他*敏*感*词*检测接口),处理速度够快,覆盖的敏感词够多。可能是因为腾讯社交业务被黑的次数太多(官方说法是从用户聊天记录中积累的语料)。
腾讯云NLP的原理很简单。只要将用户提交的文本内容发送到界面,就可以返回是否收录敏感词的结果。如果是,则提示用户重新进入,如果不是,则继续H5页面的处理。整个过程几乎感觉不到任何延迟。
目前腾讯云NLP的免费推广期已经结束,但是每天有50万次免费查询的免费额度,对于大部分H5来说已经足够了。超过50万次,每1万次收费27元。当然可以通过轮询多个腾讯云账号来解决,所以基本是免费的。
2. 图像检测
图像检测的原理与文本检测类似。它分解原创内容,提取数据片段,然后与特征库进行比较和分析。
图片的检测显然要复杂一些,因为程序不能直接理解图片的内容,所以需要提取图片中每个像素的值,然后根据特征库进行分析。
我们常用的图像检测接口是腾讯AI开放平台的暴力恐怖识别和图像识别两个接口。因为特征库不同,所以这两个接口是分开的。我们需要将用户上传的图片分别上传到这两个接口。每个接口都经过测试,但原理是一样的。
暴力恐怖识别会给出恐怖分子、*敏*感*词*支、鲜血等一系列识别结果,另外还会给出一个置信区间,即判断结果的可信度百分比。我们可以根据含量和百分比来设定一个判断标准。比如恐怖分子+可信度超过80%,用户的图片会被拒绝重新上传。
图片鉴黄也会给出结果,但不会识别内容本身,而是给出“正常”、“性感”和“*敏*感*词*”三个结果,每个结果还会给出一个置信区间。我们可以根据H5的目标用户群来设定判断标准。比如儿童H5,可以性感+可信度50%以上,然后拒绝用户图片,要求重新上传;对于白领H5来说,尺度可以稍微放松一下。
3.视频检测
视频检测的原理是对视频进行截图,然后用图像识别的方法进行处理。
腾讯云视频*敏*感*词*检测接口集成到视频点播功能中,用户上传的视频会被优先检测。对于时长小于 500 秒的视频,每 1 秒截屏一次进行检测;对于时长大于等于 500 秒的视频,每隔 1% 的时长截屏一次进行检测。
4.音频检测
音频检测可能是所有安全检测中最复杂的。
首先,音频数据是波形,容易收录环境音、背景音等干扰。该程序需要将敏感音频与各种波形区分开来。
其次,音频也可能是人说话的,所以需要识别人声中是否有敏感词。
因此,音频安全检测包括音频检测和音频敏感词检测。
但无论哪种音频检测,其原理都是提取声波样本,然后与海量特征库进行对比。因此,无论是哪种内容类型检测,特征库是否完善都是非常重要的一环。
腾讯云的音频识别和音频敏感词检测是同一个界面,您可以选择是否开启音频识别和音频敏感词检测(默认开启)。
如果两者都启用,音频检测将返回是否是*敏*感*词*、政治或辱骂性音频并给出置信区间;音频关键词检测会返回敏感词的个数,敏感词列表,以及每个敏感词在音频时间和结束时间的开始。
以上就是用户上传内容的安全检测原理。这部分在H5设计和制作中比较常用,但往往最容易被忽略。在制作*敏*感*词*传播的H5时,任何疏忽都可能导致不可预知的结果,安全检测变得非常重要。
众创科技是一家专注于创意变现的互动营销技术供应商。我们为您提供最全面的交互技术服务,同时也为您提供面向业务的技术方案选择和扫雷服务。