伪原创相似度查询(搜索引擎如何去判定原创和伪原创？（一）)

优采云发布时间: 2022-03-22 23:06

　　原创和伪原创已经成为后互联网时代的一个重要话题，即如何确保“内容为王”。对于大型的门户互联网公司来说，也许他们有专业的编辑和撰稿人，但据我所知，转载别人的文章是逃不掉的。如何在原创和非原创之间取得平衡，是运营商和编辑作为网站必须控制的一点。

　　搜索引擎如何区分原创和伪原创？

　　从目前的计算机来看，真正的人工智能是不可能识别内容的。也许对英语系更好。毕竟英文系的字库有限，每一个独立英文的意思都是独立的或相关的。并且英文有一个默认习惯用“-”来区分。

　　中文显然不一样。同一个意思可以用无数的词来形容，千变万化。比如“人脸桃花”这个词有很多含义。所以计算机是无法识别的。那么搜索引擎是如何确定原创和伪原创的呢？下面是这个想法的实现。

　　首先，搜索引擎将文章的两篇文章有机地筛选出来作为对比对象。如何知道比较的文章是相关的？当然是关键字，根据文章这也是为什么文章中必须内置一定比例的关键字，至少如何区分文章中哪个是关键字，搜索引擎有自己的算法来解决它，不再。

　　取出两个文章后，电脑会分析：

　　1、设置一个标度，比如M，标有系数0.5。

　　2、A类文章按字数分为三段。B章的文章段分为三段，然后编译算法，也可以理解为加密之类的，也就是说把文字变成了符号。例如，编译一段之后，就变成了像aaacbdfbcdfsdafefasdfasd这样的字符串。当然，不必使用 ABCD 字符。这样做的好处是便于计算机比较和处理。

　　3、那么第二步处理A和B两篇文章文章，然后通过算法得到两篇文章文章的相似度有多少，（估计是这个比较算法很复杂，我只能猜测。）会得到一个值，就是一个类似于上面1中提到的M的系数。按照标准，比如高于0.5，表示相同，低于0.5，表示相同。如果相同，则使用搜索引擎爬取的其他参数来判断谁是原创，谁不是原创。

　　我们如何处理搜索引擎的原创决定？

　　路高一尺，法宝一尺高。互联网上永远不会有绝对的矛或盾。计算机不可能真正实现人工智能。因此，原创和伪原创是一个暂时而永恒的话题。要成为最强的伪原创，你可以采取以下三个步骤：

　　1、标题要改，要改得惊艳。汉字很复杂，同一个意思可以有多种表达方式。如果实在改不了，那我就告诉你一个办法，就是把标题写成20-25个字长。你一定很特别。

　　2、如果你的文字功底不错，看完别人的文章后，可以马上在草稿中形成一定的框架，然后用你的语言描述，加上图片等富文本来进行修改，“软文ah”提示绝对是伪原创文章的稀有片。比如我们的汽车市场中国网有专业的编辑，对发布的各类汽车新闻有大量的伪原创影响。

　　3、内容乱码。网上有很多垃圾箱。人们之所以能得到关键词的排名和流量，是因为采集信息经过伪原创后可以变成原创。最重要的原因之一是汉字太复杂了。程序建立词库，通过同义词匹配，基本可以做到句子的通顺，减少很多相似度。至于文章的内容究竟是想表达作者的真实形象，电脑根本看不懂。

　　原创和伪原创是一对天使和魔鬼，你不必因为做伪原创你的文章而讨厌人，最多只能怪他们人品不好. 所谓的文章拷贝。真正的高手当然是高端的。

　　更多我的文章：

　　ADR指标实用技巧

　　墨菲定律：遵循损失控制原则

0

2022-03-22

伪原创相似度查询

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

伪原创相似度查询(搜索引擎如何去判定原创和伪原创？（一）)

0 个评论

发起人