常见的手段有以下几种：文本匹配正则表达式

优采云发布时间: 2021-07-23 06:10

　　常用的信息过滤和反垃圾邮件方法如下：

　　文字匹配

　　正则表达式：主要解决过滤敏感词的问题，一般使用正则表达式匹配。但是正则表达式的效率普遍较差。

　　Trie 算法：当并发量较高时，需要更合适的方法。通常，它是 Trie 树的变体。空间复杂度和时间复杂度都比较好，比如双数组Trie算法。

　　Trie 算法的本质是确定一个有限状态自动机并根据输入数据执行状态转换。双数组 Trie 算法优化了 Trie 算法。它使用两个稀疏数组存储树结构，基数组存储Trie树的节点，校验数组进行状态检查。双数组Trie的大小需要根据业务场景和经验确定，避免数组过大或冲突过多。

　　Hash 表达式：一个更简单的实现是构造一个多级哈希表进行文本匹配。该方案处理速度较快，变形小，可以适应各种过滤场景。缺点是使用Hash表会浪费部分内存空间。如果网站敏感词数量不多，浪费部分内存也是可以接受的。

　　有时，为了绕过敏感词检查，一些输入信息被操纵，比如“阿_拉_伯”。这时需要对信息进行降噪预处理，然后进行匹配。

　　分类算法

　　网站早期，识别垃圾邮件的主要方式是人工，后端运维人员对信息进行人工审核。

　　自动化方法是使用分类算法。

　　以反垃圾邮件为例，说明分类算法的使用。首先将一批分类邮件样本输入分类算法进行训练，得到垃圾邮件分类模型，然后利用分类算法结合分类模型对待处理邮件进行识别。

　　比较简单的分类算法是贝叶斯分类算法，它是一种利用概率和统计进行分类的算法。

　　“算法-贝叶斯”

　　黑名单

　　黑名单也可用于去重信息。黑名单可以通过哈希表来实现。该方法实现简单，时间复杂度小，可以满足一般场景。但是当黑名单非常大时，Hash表需要占用大量的内存空间。

　　在过滤要求不完全准确的场景下，可以使用布隆过滤器代替哈希表。《布隆过滤器的概念和原理》布隆过滤器以其发明者Patton Bloom命名，由一个二进制列表和一组随机数映射函数实现

　　电子商务风控风险

　　账户风险：账户被黑客盗用、账户被恶意注册等

　　买家风险：黄牛利用促销活动抢购低价商品；

　　卖家风险：错货、虚假发货、信用炒作等

　　交易风险：*敏*感*词*欺诈、支付欺诈、洗钱和套现。

　　风险控制：

　　机器自动风控的技术手段主要包括规则引擎和统计模型。

　　规则引擎：

　　统计模型

　　规则引擎虽然在技术上是有监管的，但是随着规则的逐渐增多，会出现规则冲突、难以维护等问题，而且规则越多性能越差。目前，*敏*感*词*的网站更喜欢使用统计模型进行风险控制。风控领域使用的统计模型采用上述分类算法或更复杂的机器学习算法进行智能统计。

　　如图所示，根据历史交易中的欺诈交易信息训练分类算法，然后将采集处理过的交易信息输入到分类算法中，得到交易风险评分。

　　经过充分训练的统计模型准确率不低于规则引擎。分类算法的实时计算性能较好。由于统计模型采用模糊识别，不能准确匹配欺诈类型规则，对新兴交易欺诈也有一定程度的可预测性。

0

2021-07-23

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册