无规则采集器列表算法( Web3.0的到来后基于互联网营销模式(组图))
优采云 发布时间: 2021-11-02 19:08无规则采集器列表算法(
Web3.0的到来后基于互联网营销模式(组图))
Web3.0到来后,基于互联网的营销模式层出不穷,seo是最热门的领域之一。我研究百度的算法跟踪近5年了。我主要从事算法反转,就是通过一些相关的指标来判断百度的排名规则。
在介绍百度算法之前,先说说百度搜索研发部不久前的博客文章《Web搜索排序中的投票模型简述》一文中的美国选举制度。这个其实就是百度的一个投票系统的雏形,我是这么认为的。用一个简单的图表来说明整个过程:
看上图相信大家应该都明白了,残差的排序应该是“主库”和百度服务器之间的一个变化。百度蜘蛛会采集返回大量内容,全部存放在主服务器中。服务器通过规则过滤后,最终将页面发布到web服务器上进行排序。事实上,“总库”已经发生了一系列的算法变化。当然,我这里解释的内容中的各种服务器和名称都是我个人定义的,但是基本逻辑应该是这样的,按照数据分析的原则:数据采集-数据处理-数据分析器-数据展示,在事实上,它可以很好地概括百度的行为。
百度虽然一方面在做推广和竞价,另一方面也希望能给用户带来良好的搜索体验。许多seoers可以恨和爱它。不过,根据各种官方文本,我们仍然认为百度搜索研发部门还是希望给用户一个。良好的检索体验。
话虽如此,还是得用一张图告诉大家什么是金字塔模型:
看了这张图,应该是有限的人有疑惑吧。这和漏斗原理很像吧!是的,它类似于漏斗原理,但是没有金字塔的灵感,每个人都希望得到金字塔的最高峰。
排序和过滤过程呢?引用一段百度搜索研发部文章的内容:
“系统有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链接、文本相关性等)。n个网页有不同的分数。如何根据这些特征投票?哪个页面最多适合放在第一位吗?
从选举的例子中,我们可以得到几个启示:
1. 在设计算法时,要避免“赢家通吃”导致的信息丢失问题。
2. 不要仅仅因为某些功能特别好而将网页排在前列,或者因为某些功能特别差而放弃一个网页。
3. 最合适的网页首先不一定是每一个功能都最好的,但应该是能兼顾所有功能,整体表现最好的。
4. 搜索引擎用户对搜索结果的点击行为可视为对搜索结果的“投票”。在选举过程中也应考虑使用此类“投票”信息。各种不合理的出现。
上面提到的各种选举方案只讨论了“一个职位多个候选人”的情况,而搜索引擎面临的问题更类似于“多个候选人排序”的情况,即:
系统中有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链接、文本相关性等)。n 个网页有不同的分数。如何根据这些特征的“投票”决定n个页面的顺序?
而这个“多候选人排名”的问题有一个“不可能民主”的理论。该理论的主要思想是,一个“合理”的民主应该满足三个条件:
1. 如果投票者认为A比B好,那么最后的结果也应该是A比B好
2. 没有“独裁者”,也就是没有这样的人。不管别人怎么排,最后的结果都会和这个人的顺序一样。
3.无关因素的独立性,即第一次投票完成后,A排在B前面,现在进行第二次投票。如果大家都没有改变他们投票中A和B的相对顺序,最后的结果也应该是A在B之前
并且通过数学证明,可以得出结论,如果某种选举方法满足条件1和3,就一定不满足2,即一定有“独裁者”。
根据“不可能的民主”理论,结合搜索引擎,搜索引擎似乎很难给出一个合理的网页排名,但搜索引擎和投票似乎是不同的。有两种观点可以破解
1. 我认为条件 3 太强了,需要削弱。
2. 也许在页面排名方面有这样的“独裁特征”。从目前来看,最合适的应该是“用户满意度”,根据用户满意度来划分。对网页进行排序是最合理的网页排名。如何衡量“用户满意度”?这是我们一直在努力的。”
相信大家看完这篇内容应该已经有了深刻的了解,百度的算法和选举系统有很多相似之处。所以我们逆向研究的方向是首先从数据呈现本身中得出数据分析原理。这是一个长期的计划,因为我们要分析数以亿计的网站,才能得出结论。,而事实证明,百度的排序规则中不仅有一个算法规则,而是有多个规则。
前期我也基于关键词开发了一个简单的分析程序:
这个工具主要是一个辅助功能。前面讨论的选举系统主要是针对外部链接的有效性,而这个工具的主要内容是针对相关性,即搜索结果末尾排序规则中的排序规则。当然,这个工具还处于粗略的状态,很多指标还没有添加。后期大家可以一起参与到本次研究中来,补充一些比较重要的指标,方便我们的研究更加完善。
如果你纯粹是一个seoer,我认为你可以停止阅读这项研究,因为事实证明,只要你得到最终排序的相关算法,你就可以完成工作。有了这个工具,你就可以轻松获得什么样的信息。在密度大的情况下,可以优先排序。如果你让关键词值几万,我觉得你可以继续往下看,因为这里我们要讲的是选举系统中的外链。
其实应该把选举制度中的外链放在第一位,因为这是一个比较民主的选举。与上面提到的内容相关性不同,内容相关性选举应该属于百度内部的选举制度。第二次选举,而外链选举是第一次选举,网站证明你同时通过外链被认可。
说到这里,我就想到了一个让站长头疼的问题,那就是什么样的外链才算真实有效?许多seo工作者应该建立了很多外部链接,但实际效果未知。
但如果通过选举制度,则可以排除以下几类候选人:
1. 被剥夺政治权利。进入百度黑名单。
2.政治低谷。该网站本身质量很低。
3.没有投票权。即不在收录的范围内。
4. 与选举无关。与选举无关是什么意思?其实这里有几层意思。一是本站内容相关性不高,二是本站没有真心选你,甚至不认识你。这也是百度最近回复中多次提到的“推荐”内容。
如果你已经了解了选举制度,相信到这里你会比较清楚,但是你要非常清楚什么样的选举是一回事?选举制度可以一次性为所有成员投票,也可以分级选举。
所以,对于外链的建设,也是有选举和被选举的规则。很有可能百度官方近期会发布外链查询工具,告诉你哪些外链有用,哪些外链没用。我也会在下一期发表。提供相应的工具或当时的判断计划。