又臭又硬的"专利描述"里隐藏着最原始的信息

优采云发布时间: 2022-06-21 17:39

　　SEO说到底始终是一门玄学，这点毋庸置疑，后面解释。

　　多数人总是追逐权威，却不愿意自己研究。

　　动用一切所能运用的工具，获取一切可能得到的信息，才有可能领先别人。

　　打从我开始从事SEO到今天，在与SEO相关的内容里，依然还有"伪原创"这些字眼，导致太多新的SeoEr依然认为通过简单的修改替换、增加删除、段落更改、特殊字符可以瞒过搜索引擎，让其认为这是一篇原创的内容。

　　然而事实上，撇开小部分幸存者偏差，伪原创从始至终都逃不过搜索引擎的各种算法，搜索引擎可能会出于各种原因没有对目标网站降权处理，但是如果只是单纯的识别出一篇内容是不是重复，搜索引擎有太多算法了。

　　除了伪原创，SeoEr们还有很多错误操作其实都是可以避免的，作为一名SEO工作人员，了解搜索引擎的各种算法（不是指石榴、绿萝这类公开的惩罚算法）及工作原理是很有必要的，这相当于拿到了*敏*感*词*，可惜搜索引擎不会告诉我们，那么有什么地方可以尽可能的了解这些呢？

　　专利网站

　　一家技术公司在"发明"（很多发明其实大同小异）一种技术手段时，一般都会申请相对应的专利，在专利项里有对专利的具体描述，描述内容包括专利的目的、原理、场景、步骤、效果等

　　搜索引擎本身就是一个庞大的系统，从抓取、收录、建库、索引、查询、缓存等，会涉及到很多算法、技术手段、思路，而这些一般都会以专利的形式提交。

　　我在早年从事SEO时有一段时间，经常闲着有事没事的看这些专利，并且从中找到了不少优化的思路，有些甚至就是直白的写给你看了，你要是再犯错，就真的说不过去了。

　　我一般会在各个可以查询专利的网站上看，因为各网站之间不一定都是齐全的，作为互补，目前主要给大家推荐这两个：

　　baiten：

　　soopat：

　　其他的专利查询网站在百度上都可以搜索得到，找到觉得方便好用的即可，我对这块的性质不了解，应该都是调用有关部门的数据。

　　怎么使用这样的网站呢？比如我们想了解百度的搜索引擎技术运用了哪些手段，那就在搜索框里搜索百度，返回的结果都是百度这家公司提交的专利信息：

　　如果你查询的公司存在类似名称的情况，要先确认一下目标公司的工商全称。另外还可以使用组合查询：

　　这样你可以查询一些特定的专利信息并且限定在某个申请人里。

　　接下来我们列举些例子看看，有些是我早年保存的专利描述：

　　名称：文档检测方法及装置申请年份：2011描述：本发明提供一种文档检测方法,包括:获取与文档相应地段落特征信息;将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;根据所述比对结果判断是否具有与所述文档相似的已有文档。本发明通过段落特征信息对文档进行检测,可较为准确地进行文档之间的相似度比对,避免了对文档分段处理的作弊行为,且查询效率较高、服务器处理压力较小;将该文档检测方法用于改善在线文档版权属性检测,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力;同时,可批量的处理已有文档的版权属性检测,效率较高。

　　出于各种原因，专利描述就是这么又臭又硬，除了审核人员以外，没有人愿意去看，我们来翻译一下这段内容，看看它体现了哪些信息：本发明提供一种文档检测方法：这是一种用来检测文档的技术手段，目标是文档（搜索引擎眼里，网页就是一个文档）获取与文档相应地段落特征信息：假设这个文档是：a，获取a的段落特征（比如长度、字符、词根、位置距离、上下文等等）将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对：将a文档计算出来的段落特征信息（一般会转化成md5、哈希、向量之类的）与之前同样方式计算过的存储在数据库里的文档集合一一比对根据所述比对结果判断是否具有与所述文档相似的已有文档：怎么判断我们不管，目标是判断现有的数据库里是否有与a文档相似的文档到这里很明显，这就是一种文档查重的手段。本发明通过段落特征信息对文档进行检测,可较为准确地进行文档之间的相似度比对,避免了对文档分段处理的作弊行为：这种手段利用的是段落特征，"避免了对文档分段处理的作弊行为"这一句话很明显，这个手段就是用来识别那些对文章段落换位、修改、分段等操作的伪原创文章。将该文档检测方法用于改善在线文档版权属性检测：这里可以理解为是为了识别原创。

　　至于描述里的其他内容，说是避免了服务器压力等等，不是重要信息的我们可以忽略掉，不管这个技术手段是出于什么目的被发明出来，这不重要，重要的是我们知道它有这种手段。我们看到描述里提到了"在线文档"、"版权"，大概也可以猜出这个技术手段应该是应用在"百度文库"的，这个专利是2011申请的，而"百度文库"是2009上线的：

　　那么作为百度公司，会不会把这种手段应用到搜索引擎里去计算网页文章的重复情况，至少我们可以确定的是：在搜索引擎文章判重这个步骤里，至少有这种手段或者有比这种手段更加高级的方式来判重。

　　其实在判重领域，手段还有很多："I-Match"算法：基于单一特征抽取"Shingle"算法：基于多个特征抽取"SpotSig"算法：基于停止词"SimHash"算法：基于哈希值，是比较优秀的算法有兴趣的可以找相关文档了解一下，你会发现我们很多作弊手段在技术眼里很幼稚。早期我在判断海量标题是否存在高度相似（完全一致好判断，高度相似不好判断）时有借鉴"Shingle"算法的思维，再加上倒排索引逻辑和Python哈希数据结构，新增的标题都能在几毫秒内判断是否已有高度相似，而"词文本向量分类"有其类似的计算方式，但主要借鉴的是搜索引擎检索环节的关联性判断方式。

　　如果你知道这个信息，你还会使用那些低级的伪原创手段吗？这可是在2011年申请的专利，然而至少在几年前，低级的伪原创手段仍然是大行其道。

　　名称：搜索内容提供方法和搜索引擎申请年份：2014描述：本发明提出一种搜索内容提供方法和搜索引擎，其中搜索内容提供方法，包括：搜索引擎获取用户针对目标内容的历史搜索词和针对历史搜索词产生的搜索结果的历史操作信息；搜索引擎根据历史操作信息预测用户需求维度；搜索引擎根据用户需求维度获取每个用户需求维度对应的资源数据；以及搜索引擎接收与目标内容相关的搜索词，并按照用户需求维度展示每个用户需求维度对应的资源数据。本发明的搜索内容提供方法，能够保证为用户提供准确、优质的搜索内容，便于用户从搜索引擎提供的搜索内容中选择需要的资源，降低了用户的搜索成本，提升了用户的搜索体验。

　　这个专利涉及的很明显是针对用户的历史行为数据来排序的，当用户搜索一个关键词时，这个关键词涉及的内容在之前肯定也有人搜索过，那么之前搜索的这些人，他们还搜索了什么关联词，他们搜索了之后，对这些搜索结果是怎么点击的，浏览了多久，哪个被关闭了等等。

　　关于用户行为数据，第三代搜索引擎主要以超链分析来影响排序，第四代搜索引擎才真正以用户行为数据来影响排序。通过这个专利除了明白用户行为数据对于排序很重要之外，我们是否可以想一想：在历史搜索结果中，一个页面经常被用户关闭掉，并且在关闭之后继续查看别的搜索结果，那是不是可以说明这个页面并不能解决用户的需求？搜索引擎会不会降低这种页面的排名？这个信息非常重要！！！举一反三最重要的不仅是要有举一反三这种能力，而是要有举一反三这种意识！

　　描述：本申请公开了关键词的推送方法和装置。所述方法的一具体实施方式包括：获取关键词集合和文本集合，其中，所述关键词集合包括至少一个关键词，所述文本集合包括至少一个文本；确定第一关键词与所述文本集合中的各所述文本的关联度，其中，所述第一关键词为所述关键词集合中的任一关键词；确定所述文本集合中，与所述第一关键词的关联度超过预定关联度阈值的文本的比例；以及基于所述比例超过预定比例，向终端发送所述第一关键词。该实施方式实现了关键词精简且准确的推送。猜一猜这种技术手段可能会运用在哪种场景？

　　还有其他一些可能的应用。

　　这个专利很明显是针对竞价的，关于关键词和创意匹配度，创意就是搜索广告中的标题、描述、图片等，做竞价的都知道创意匹配度影响着点击率，和账户的整体质量度是息息相关的。像这种内容，我相信没有几个人会有雅兴去看，但是从事任何一个领域，想要有所突破就必须来钻研这些别人不愿意碰的东西。这些东西最起码可以让我们不需要去报名那些割韭菜的培训班，因为一看他的课程目录也就知道这些内容不值得你花钱。除此之外，文章想表达的还是自己要尽可能的主动获取信息，信息差造就了差距，我也是在百度官方的社区论坛里看到技术专利的相关信息，才想到要去这种地方了解，当然他们不会告诉你要从专利网站去了解他们的搜索引擎算法，所以这里举一反三的意识也很重要。这些信息都是可以公开查询的，只要你主动，它们都在那里，比如我近期在看这些：

　　最后解释一下为什么SEO说到底始终是一门玄学？SEO并非一门自然科学，它的一切知识都是由商业公司设计出来的搜索引擎功能间接体现出来的，商业公司追逐的是利益最大化，搜索引擎不过是服务于公司的工具，所以规则都是可以改的。也就是说：无论你的优化手段多么正确，无论你的网站内容多么优质，搜索引擎在法律层面和道德层面都没有任何义务要帮你的页面排到第一名。从事SEO必须要正视这个逻辑，端正自己的心态，否则随时会有炸了百度大楼的心理。

0

2022-06-21

伪原创相似度查询

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

又臭又硬的"专利描述"里隐藏着最原始的信息

0 个评论

发起人