伪原创同义词替换( 《SEO实战密码》中总结了6种内容作弊手段 )
优采云 发布时间: 2022-04-20 19:17伪原创同义词替换(
《SEO实战密码》中总结了6种内容作弊手段
)
已知无用 伪原创 表示
《SEO实战密码》总结了6种内容作弊方式,已被百度认可。无论是同义词替换还是简单地对原来的文章进行修改,都没有收录的机会。其中,不再有用的 伪原创 方法包括:
1 更改(完全重写)标题
2 反转段落顺序
2 添加一个段落原创,比如在顶部添加一段内容摘要
3 单词的简单加减,如感叹词、修饰语
4 同义词 同义词替换
5 强行插入关键词,比如在小说中强行插入关键词
人工智能伪原创有用吗?
圈内使用伪原创的站长反馈,狂飙3上线后,收录不如一日。收录500篇,明天收录收录不到100篇,90%以上的伪原创内容被百度认可。
如下图,左边是原文,右边是AI伪原创的结果。可以看出无论是句序还是很多词都发生了变化。基本上每个句子都不一样。最近很多人都在推AI伪原创,以为可以通过百度收录获得排名。
第三代百度原创识别方式:
由于二代的方法效果不佳,百度最终推出了飓风算法(2017年7月7日推出),并在2017年3月末申请了相应的专利,所以时间点也比较一致。基本思路是用simhash算法对句子进行签名,然后用汉明距离检测原创的度数。
什么是同义词级别 simhash
看不懂也没关系,先稍微了解一下simhash算法,A简单举个例子,一张图值千言万语。
如果你是算法专家,可以访问传送门:了解simhash算法。
结论:只有违规才会违法
AI伪原创能通过百度原创吗?
基本假设
那么回到AI原创的问题,因为百度狂飙3.0是按照句子级simhash去重的,我们假设:
前提1:对于100字的句子长度,执行伪原创
前提二:对比句子的签名,伪原创后编辑距离位数小于10,汉明距离小于10,汉明相似度大于80%
判断结果:抄袭
如果不知道编辑距离,可以看汉明距离(也叫汉明距离)。
百度百科“编辑距离”:%E7%BC%96%E8%BE%91%E8%B7%9D%E7%A6%BB/8010193?fr=aladdin
百度百科《汉明距离》:%E6%B5%B7%E6%98%8E%E8%B7%9D%E7%A6%BB/4235876?fr=aladdin
你不能编程也没关系,我们会的。我们有现成的分词方法,还有停用词过滤程序,直接使用github上的程序即可。
参考:
随便找一篇网易的文章的文章,做simhash的编辑距离和汉明距离。
AI伪原创工具评估一:
最后结果:
百度原创无假设通过,编辑距离为6,汉明距离为8,相似度高达87.5%
AI伪原创工具评估2:
不要放弃,我想要另一个 AI伪原创:
最后结果:
百度原创无假设通过,编辑距离7,汉明距离10,相似度高达84.3%
AI伪原创工具评估3:
还是没有放弃,我又求了一个AI伪原创:
最后结果:
什么是他xx的破AI伪原创,编辑距离只有4,汉明距离是6,相似度高达90%!百度没有留下渣滓,孩子们不要误会好吗?
综上所述
首先,直接通过百度原创不容易伪原创
百度几千人来做开发,一个伪原创能通过百度测试吗?所以大家,请不要直接采集别人的内容,有点伪原创发给自己网站,这是要死的。
其次,反义词替换语句是没有用的
有的网站自称有几十万同义词词库,告诉你,为了压缩索引,百度的词库比你的任何一个词库都丰富得多。别人的词库仍然是分词。另外,语句的反转不会影响simhash算法的结果。
怎么办 采集over原创
AI伪原创本质上是机器训练后的同义词替换+句子反转。百度的权重判断算法是基于simhash的,与词序无关。
如果词库要删除停用词,例如“虽然”和“也许”,剩下的将不到 8 亿。其次,没有区分词性的替换,极大地破坏了句子的顺序。很多喜欢伪原创的同学都不知道DNN是什么。这个东西在文字纠错和输入法预测方面已经有了非常成熟的商业产品。百度内部对 DNN 的使用也非常广泛。所以很多同学伪原创的文章都是收录,不过没几天又被回收了。
我们如何进行 SEO 更新?
根据 关键词
内容采集
采集问答(百度懂搜狗知乎)
采集自媒体(百家号、搜狐、微信)
直接采集微信
内容处理
自动分析内容核心词,使用高智能算法获取相关内容文章,智能提取高相关段落,可根据需要直接插入文章。
内容检测
最后对内容的原创度、Simhash度、TD-IDF度、DNN平滑度进行检测和过滤。如果内容不通过,则不会发布。
影响:
收录一周17700,网站体重4
使用细节:
确定主词后,让客服导出长尾词,然后过滤掉价值较高的关键词。
那么 关键词 就是 文章 的标题。