搜索引擎优化原理(搜索引擎《-什么是搜索引擎》的编码问题)
优采云 发布时间: 2022-03-30 09:07搜索引擎优化原理(搜索引擎《-什么是搜索引擎》的编码问题)
搜索引擎是世界上最复杂的系统之一。我们只需要了解它的工作原理。真正的搜索引擎的核心技术基本没有公布。我们可以从信息检索技术中窥探它。SEO百科带来《搜索引擎工作原理介绍——什么是搜索引擎》。我希望能有所帮助。
一、文字采集
搜索引擎使用爬虫通过爬取页面上的超链接来发现新页面。如果这些页面已经 收录 没有任何更新,他们将不会采取任何行动。执行收录,如果这些页面不是收录,根据页面质量和互联网内容的重复率决定是否执行收录。
1)爬虫
不同的搜索引擎有不同的名称。百度称其为蜘蛛,谷歌称其为机器人。当然,更传统的名字叫做网络爬虫,或者干脆叫爬虫。搜索引擎的爬虫组件负责搜索引擎发现、爬取和存储在数据库中。SEOer调整使网站更受爬虫的喜欢,简化爬虫的工作量,减少蜘蛛陷阱等不利于爬取的页面设计。
2)信息来源
有了爬虫,爬虫的爬取对象是什么?一般爬虫可以爬取和爬取的信息源类型是RSS。RSS 是信息源的标准。有了这个,站长就可以轻松转载对方网站的文章了。RSS 使用的标准 XML 数据格式。
3)转换
爬虫会遇到各种问题,他们可能会遇到 html 页面、word 文档或 txt 文件。一般来说,搜索引擎会将这些转换成统一的文本格式和文档的元数据格式。在转换过程中,需要删除一些内容。另一个问题是网站 的编码。一般在中国主要使用GB2312或UTF-8字符编码规范。
4)文档数据库
爬取的页面数据需要有序存储在文档数据库中,以保证效率为前提,然后需要考虑压缩、结构化数据、超链接提取等方可存储在数据库中。
二、文字转换
1)解析器
搜索引擎中的解析器主要负责处理文档中的文本词素序列,其中涉及到中文分词和英文分词的问题,以便更好地理解单词和短语的含义。提到“苹果”这个词,很多人首先想到的就是一种可以吃的水果,但很多人会想到苹果出品的“iPhone”手机。这是解析器需要弄清楚的,以澄清提到 Apple 的 文章 是在写水果还是 iPhone。
这种文档结构通常是 HTML 或 XML 结构。HTML主要定义网页的结构,XML是数据的存储。而这两种结构的文档都是标签语言,比如HTML中的a标签。
2)停用词删除
句子中有一些词只是让句子更流畅,并没有起到很重要的功能作用,如英语中的“to”、“of”、“on”、“的”、“地”、“地”等汉语“有”等。当然,也可能有实际值。例如,“earth”中的“earth”是一个具有一定值的词,不能作为停用词去除。
3)词干
对于英文来说,需要提取词干,比如“fishing”来提取fish,但是中文几乎不需要这个,因为做不到。
4)超链接的提取与分析
在文档解析中提取超链接非常方便。毕竟很容易识别出来,然后这些也会被记录在文档数据库中,然后往往会通过搜索引擎算法计算出大量的超链接,这会给一些页面非常高的信任度可能还惩罚恶意使用超链接作弊的页面,包括站内和站外。
5)信息提取
搜索引擎需要提取页面信息,包括哪些词与页面相关、发布时间、发布者、来源等。
6)分类组件
类别组件页面标有归属标签,例如体育、IT 或娱乐。
三、索引创建
1)文档统计
文档统计简单地总结和记录单词、特征和文档的统计数据。比如我们在搜索引擎上搜索后,搜索框下方会出现多少相关的结果。
2)加权前向索引
权重对于搜索引擎的排名非常重要。它是搜索引擎识别和处理页面后的初始权重,反映了文档中某些词的相对重要性,这个加权结果是由搜索引擎检索模型决定的。. SEOer 熟知的一种加权方法称为 TF-IDF。这种方法有很多变体,但都是基于被索引项在文档中出现的次数或频率(词频-TF)以及被索引项在整个文档集合中出现的频率。(逆文档频率 - IDF)。简单来说,当这个索引项在整个文档集合(搜索引擎数据库)中出现的次数较少时,反向文档出现的频率就会很小,并且这样的页面更容易排名;文档中词频越大,页面权重越大。
3)倒排索引
倒排索引组件是搜索引擎的核心组件。它将多个索引项对应的文档形式转换为多个文档对应的索引项形式。这种做法称为建立倒排索引。
4)索引调度
索引分配是将索引分配给多台计算机,理论上是多个网络节点。分布式结构可以提高效率,减少其他节点出现问题造成的延迟。
四、用户交互
1)查询输入
查询输入组件提供用户界面和解析器。用户输入搜索后,解析查询内容,也可以理解为分词处理。
2)查询转换
查询转换包括很多内容,比如分词技术、停用词的去除和词干的提取等,然后生成可以查询的索引词。
在这里,我们通常看到的常见搜索引擎都会尝试纠正拼写错误的单词。例如,“博人转”会自动显示“博人转”。输入拼音“cuowu”通常会显示“错误”的相关搜索,而不是“误解”。还有一些相关的建议,比如下拉词和相关搜索词的存在。
3)结果输出
结果输出页面会将得到的排序页面展示给用户,例如这些页面的标题、摘要、图片展示等。
五、索引排序
1)查询处理
查询处理组件会使用排序算法根据检索模型计算这些文档的分数,也相当于二次加权处理。这里的索引排序算法就是我们平时听到的,比如百度的璐璐算法,谷歌的企鹅算法等等。
2)性能优化
优化索引排序算法和索引表设计,可以减少系统响应时间,提高查询吞吐量。
3)分布式
由于索引可以分布式给出,排序也可以分布式给出,这样也提高了效率,节省了时间。
六、评估与调整
1)日志
搜索引擎的点击日志对于调整和提高搜索引擎系统的效果和效率是非常有价值的信息来源。通过用户对与搜索引擎交互的信息的查询,可以调整搜索算法的不足。很明显,SEOer 经常说要提高用户友好性。方法是增加用户在网站的停留时间和打开的页数。时间和数字越大,这个网站的用户友好性就越好。排名越高,这样的页面的排名就越高,有利于提高搜索友好度,对搜索引擎也有很大的好处。
2)订单分析
得到日志后,需要分析现有排名。比如给一个初始排名比较高但没有点击的页面,或者点击跳出率非常高的页面,这些页面的排名就会降低。翻了几页后,如果点击次数多,用户的行为很好,就会提高这类页面的排名。当然,如果这样的页面很多,对整个网站的排名也会有很好的影响。
3)性能分析
性能分析是对网络中各个节点的搜索响应、吞吐量和使用情况进行分析,从而更好地优化搜索引擎的性能。