seo优化全解第1版-搜索引擎入门详解( 《这就是搜索引擎:核心技术:架构与算法》搜索引擎)

优采云 发布时间: 2021-11-21 15:14

  seo优化全解第1版-搜索引擎入门详解(

《这就是搜索引擎:核心技术:架构与算法》搜索引擎)

  

  编辑推荐

  《这就是搜索引擎:核心技术详解》适合所有对搜索引擎技术感兴趣的人,尤其是相关领域的学生、对搜索引擎核心技术感兴趣的技术人员、从事搜索的相关人员引擎优化,以及中小型网站站长等有更多参考价值。

  作者的其他作品《大数据日常知识记录:架构与算法》

  简单的介绍

  搜索引擎作为互联网发展中的重要应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中少有的以核心技术为命脉的领域。搜索引擎的各个子系统是如何设计的?这已成为广大技术人员和搜索引擎优化者关注的内容。

  《这就是搜索引擎:核心技术详解》的特点是内容新颖、全面、通俗易懂。对实际搜索引擎中涉及的各种核心技术进行了全面详细的介绍。搜索系统除了以网络爬虫、索引系统、排名系统、链接分析和用户分析为核心外,还包括网页反作弊、缓存管理、网页等。重复数据删除技术等实际搜索引擎必须关注的技术,同时用相当篇幅阐述了云计算和云存储的核心技术原理。此外,本书还关注了搜索引擎开发的前沿技术:Google' s caffeine系统和新的云计算技术如Megastore、百度的暗网爬取技术阿拉丁计划、内容农场作弊、机器学习排序等。很多新技术在相关章节有详细的讲解,同时,未来对社交搜索、实时搜索、上下文搜索等搜索引擎的发展方向进行了技术展望。为了加深读者的理解,书中引入了大量生动的图片来讲解算法的原理。相信读者会发现,原来搜索引擎的核心技术比原先想象的要容易理解得多。相关章节详细讲解了许多新技术,同时对社交搜索、实时搜索、上下文搜索等搜索引擎的未来发展方向进行了技术展望。为了加深读者的理解,书中引入了大量生动的图片来讲解算法的原理。相信读者会发现,原来搜索引擎的核心技术比原先想象的要容易理解得多。相关章节详细讲解了许多新技术,同时对社交搜索、实时搜索、上下文搜索等搜索引擎的未来发展方向进行了技术展望。为了加深读者的理解,书中引入了大量生动的图片来讲解算法的原理。相信读者会发现,原来搜索引擎的核心技术比原先想象的要容易理解得多。书中通过大量生动的图片来讲解算法的原理。相信读者会发现,原来搜索引擎的核心技术比原先想象的要容易理解得多。书中通过大量生动的图片来讲解算法的原理。相信读者会发现,原来搜索引擎的核心技术比原先想象的要容易理解得多。

  关于作者

  张君林是技术著作《这就是搜索引擎:核心技术详解》的作者,现任畅捷通智能平台总监。在此之前,张君林曾任阿里巴巴风潮广告平台、百度商业搜索部、新浪微博搜索部和数据系统部高级技术专家,新浪微博技术委员会委员,负责方向算法策略。张君林也是智能信息聚合网站“玩聚网”的联合创始人之一。他的研发兴趣集中在:搜索技术、推荐系统、社交挖掘、自然语言处理和大数据算法架构等,并在上述领域拥有多年的工业实践经验。张君林毕业于天津大学管理学院。1999年至2004年在中国科学院软件研究所直接攻读博*敏*感*词*。他的研究领域是信息检索理论和自然语言处理。学习期间,在ACL/COLING/IJCNLP等顶级国际会议上发表多篇文章。学术论文。此外,他在此期间设计的搜索系统赢得了17个国际高水平研究团队的激烈竞争,并在美国国防部DARPA主办的第二届TREC高精度检索系统评估中名列第一。名的优秀成绩。张君林毕业于天津大学管理学院。1999年至2004年在中国科学院软件研究所直接攻读博*敏*感*词*。他的研究领域是信息检索理论和自然语言处理。学习期间,在ACL/COLING/IJCNLP等顶级国际会议上发表多篇文章。学术论文。此外,他在此期间设计的搜索系统赢得了17个国际高水平研究团队的激烈竞争,并在美国国防部DARPA主办的第二届TREC高精度检索系统评估中名列第一。名的优秀成绩。张君林毕业于天津大学管理学院。1999年至2004年在中国科学院软件研究所直接攻读博*敏*感*词*。他的研究领域是信息检索理论和自然语言处理。学习期间,在ACL/COLING/IJCNLP等顶级国际会议上发表多篇文章。学术论文。此外,他在此期间设计的搜索系统赢得了17个国际高水平研究团队的激烈竞争,并在美国国防部DARPA主办的第二届TREC高精度检索系统评估中名列第一。名的优秀成绩。直接在中国科学院软件研究所攻读博*敏*感*词*。他的研究领域是信息检索理论和自然语言处理。学习期间,在ACL/COLING/IJCNLP等顶级国际会议上发表多篇文章。学术论文。此外,他在此期间设计的搜索系统赢得了17个国际高水平研究团队的激烈竞争,并在美国国防部DARPA主办的第二届TREC高精度检索系统评估中名列第一。名的优秀成绩。直接在中国科学院软件研究所攻读博*敏*感*词*。他的研究领域是信息检索理论和自然语言处理。学习期间,在ACL/COLING/IJCNLP等顶级国际会议上发表多篇文章。学术论文。此外,他在此期间设计的搜索系统赢得了17个国际高水平研究团队的激烈竞争,并在美国国防部DARPA主办的第二届TREC高精度检索系统评估中名列第一。名的优秀成绩。他在此期间设计的搜索系统赢得了17个国际高水平研究团队的激烈竞争,并在美国国防部DARPA主办的第二届TREC高精度检索系统评估中排名第一。名的优秀成绩。他在此期间设计的搜索系统赢得了17个国际高水平研究团队的激烈竞争,并在美国国防部DARPA主办的第二届TREC高精度检索系统评估中排名第一。名的优秀成绩。

  内容

  第一章搜索引擎及其技术架构

  1.1 为什么搜索引擎很重要

  1.1.1 互联网的发展

  1.1.2 商业搜索引擎公司的发展

  1.1.3 搜索引擎的重要地位

  1.2搜索引擎技术的历史

  1.2.1 史前时代:分类目录的产生

  1.2.2 第一代:文本检索的产生

  1.2.3 第二代:链接解析的生成

  1.2.4 第三代:以用户为中心的一代

  1.3 搜索引擎的3个目标

  1.4 搜索引擎的3个核心问题

  1.4.13个核心问题

  1.4.2 与技术发展的关系

  1.5 搜索引擎技术架构

  第 2 章网络爬虫

  2.1 通用爬虫框架

  2.2 优秀爬虫的特点

  2.3 评价爬虫质量的标准

  2.4 爬取策略

  2.4.1 广度优先遍历策略(BreathFirst)

  2.4.2 部分 PageRank 策略(PartialPageRank)

  2.4.3OCIP策略(OnlinePageImportanceComputation)

  2.4.4大站点优先策略(LargerSitesFirst)

  2.5网页更新策略

  2.5.1 历史参考策略

  2.5.2用户体验策略

  2.5.3 聚类采样策略

  2.6DeepWebCrawling(DeepWebCrawling)

  2.6.1 查询组合问题

  2.6.2 在文本框中填写问题

  2.7 分布式爬虫

  2.7.1个主从分布式爬虫(Master-Slave)

  2.7.2 点对点(PeertoPeer)

  本章小结

  本章参考资料

  第 3 章搜索引擎索引

  3.1 索引基础

  3.1.1 字——文档矩阵

  3.1.2 倒排索引的基本概念

  3.1.3 倒排索引的简单例子

  3.2词词典

  3.2.1 哈希加链表

  3.2.2树结构

  3.3PostingList

  3.4创建索引

  3.4.1 两遍文档遍历方法(2-PassIn-MemoryInversion)

  3.4.2Sort-basedInversion(Sort-basedInversion)

  3.4.3 Merge-basedInversion

  3.5动态索引

  3.6 索引更新策略

  3.6.1 完整重建策略(CompleteRe-Build)

  3.6.2 重新合并策略(Re-Merge)

  3.6.3 就地更新策略(In-Place)

  3.6.4 混合策略(Hybrid)

  3.7查询处理

  3.7.1 一次一个文件 (DocataTime)

  3.7.2 一次一个字 (TermataTime)

  3.7.3 跳过指针(SkipPointers)

  3.8 多字段索引

  3.8.1多索引法

  3.8.2倒排表法

  3.8.3 扩展列表方法(ExtentList)

  3.9 词组查询

  3.9.1位置索引(PositionIndex)

  3.9.2 二字索引(NextwordIndex)

  3.9.3 PhraseIndex(词组索引)

  3.9.4 混合方法

  3.10 分布式索引(ParallelIndexing)

  3.10.@​​>1 按文档划分(DocumentPartitioning)

  3.10.@​​>2 按词划分(TermPartitioning)

  3.10.@​​>3 两种方案的比较

  本章小结

  本章参考资料

  第四章 索引压缩

  4.1 字典压缩

  4.2倒排列表压缩算法

  4.2.1 评价指标压缩算法指标

  4.2.2 一元编码和二进制编码

  4.2.3EliasGamma 算法和 EliasDelta 算法

  4.2.4Golomb 算法和 Rice 算法

  4.2.5 变长字节算法(VariableByte)

  4.2.6SimpleX 系列算法

  4.2.7PForDelta 算法

  4.3 DocIDReordering(DocIDReordering)

  4.4 静态索引修剪(StaticIndexPruning)

  4.4.1 以词为中心的索引剪裁

  4.4.2 以文档为中心的索引裁剪

  本章小结

  本章参考资料

  第 5 章搜索模型和搜索排序

  5.1BooleanModel

  5.2 向量空间模型(VectorSpaceModel)

  5.2.1 文档表示

  5.2.2 相似度计算

  5.2.3 特征权重计算

  5.3概率检索模型

  5.3.1 概率排序原则

  5.3.2 二进制独立模型(BinaryIndependentModel)

  5.3.3BM25 型号

  5.3.4BM25F 型号

  5.4 语言模型方法

  5.5 机器学习排名(LearningtoRank)

  5.5.1 机器学习排序的基本思想

  5.5.2 单文档方法(PointWiseApproach)

  5.5.3 文档配对方法(PairWiseApproach)

  5.5.4 文档列表方法(ListWiseApproach)

  5.6 搜索质量评价标准

  5.6.1准确率和召回率

  5.6.2P@10个指标

  5.6.3MAP 指标(MeanAveragePrecision)

  本章小结

  本章参考资料

  第六章链路分析

  6.1网络图片

  6.2两个概念模型和算法的关系

  6.2.1RandomSurferModel (RandomSurferModel)

  6.2.2 子集传播模型

  6.2.3 链接分析算法之间的关系

  6.3PageRank算法

  6.3.1 从链内数到PageRank

  6.3.2PageRank计算

  6.3.3 链接陷阱(LinkSink)和远程跳转(Teleporting)

  6.4HITS 算法(HypertextInducedTopicSelection)

  6.4.1Hub页面和Authority页面

  6.4.2 相互增强的关系

  6.4.3HITS算法

  6.4. 4HITS 算法的问题

  6.4.5HITS算法与PageRank算法对比

  6.5SALSA 算法

  6.5.1 确定计算对象集

  6.5.2 链接关系传播

  6.5.3权限权重计算

  6.6 主题敏感PageRank(TopicSensitivePageRank)

  6.6.1 主题敏感的PageRank和PageRank的区别

  6.6.2 主题敏感的PageRank计算过程

  6.6.3 使用主题敏感的PageRank构建个性化搜索

  6.7Hilltop 算法

  6.7. 1Hilltop 算法的一些基本定义

  6.7.2Hilltop 算法

  6.8 其他改进算法

  6.8.1IntelligentSurferModel(智能冲浪模型)

  6.8.2 偏向冲浪模型(BiasedSurferModel)

  6.8.3PHITS 算法(ProbabilityAnalogyofHITS)

  6.8.4BFS 算法(BackwardForwardStep)

  本章小结

  本章参考资料

  第七章云存储与云计算

  7.1 云存储和云计算概述

  7.1.1 基本假设

  7.1.2 理论基础

  7.1.3 数据模型

  7.1.4 基本问题

  7.1.5Google 的云存储和云计算架构

  7.2谷歌文件系统(GFS)

  7.2.1GFS 设计原则

  7.2.2GFS整体架构

  7.2.3GFS主控服务器

  7.2.4 系统交互行为

  7.3Chubby 锁服务

  7.4BigTable

  7.4.1BigTable的数据模型

  7.4. 2BigTable整体结构

  7.4.3BigTable的管理数据

  7.4.4 主服务器(MasterServer)

  7.4.5 分表服务器(TabletServer)

  7.5Megastore系统

  7.5.1 实体组切分

  7.5.2 数据模型

  7.5.3数据读写与备份

  7.6Map/Reduce 云计算模型

  7.6.1 计算模型

  7.6.2 整体逻辑流程

  7.6.3 应用实例

  7.7 *敏*感*词*系统-过滤器

  7.7.1 事务支持

  7.7.2 观察/通知架构

  7.8Pregel 图计算模型

  7.9Dynomo 云存储系统

  7.9.1 数据分区算法(PartitioningAlgorithm)

  7.9.2 数据备份(复制)

  7.9.3数据读写

  7.9.4数据版本控制

  7.10PNUTS 云存储系统

  7.10.@​​>1PNUTS整体架构

  7.10.@​​>2 存储单元

  7.10.@​​>3 分表控制器和数据路由器

  7.10.@​​>4 雅虎通讯社

  7.10.@​​>5 数据一致性

  7.11HayStack 存储系统

  7.11.1HayStack 整体架构

  7.11.2 目录服务

  7.11.3HayStack 缓存

  7.11.4HayStack 存储系统

  本章小结

  本章参考资料

  第八章 网络反作弊

  8.1 内容作弊

  8.1.1 常见的内容作弊方法

  8.1.2内容农场(ContentFarm)

  8.2 链接作弊

  8.3页隐藏作弊

  8.4Web2.0 作弊方法

  8.5 反作弊技术总体思路

  8.5.1 信任传播模型

  8.5.2 不信任传播模型

  8.5.3 异常发现模型

  8.6 种万能链接反作弊方法

  8.6.1TrustRank算法

  8.6.2BadRank 算法

  8.6.3SpamRank

  8.7 专用链接防作弊技术

  8.7.1 识别链接场

  8.7.2 识别谷歌轰炸

  8.8 识别内容作弊

  8.9 反隐藏作弊

  8.9.1 识别页面隐藏

  8.9.2 识别网页重定向

  8.10 搜索引擎反作弊综合框架

  本章小结

  本章参考资料

  第九章用户查询意图分析

  9.1搜索行为及其意图

  9.1.1 用户搜索行为

  9.1.2 用户搜索意图分类

  9.2 搜索日志挖掘

  9.2.1查询会话(QuerySession)

  9.2.2 点击图(ClickGraph)

  9.2.3查询图(QueryGraph)

  9.3 相关搜索

  9.3.1 基于查询会话的方法

  9.3.2 基于点击图的方法

  9.4检查纠错

  9.4.1EditDistance(编辑距离)

  9.4.2 噪声通道模型(NoiseChannelModel)

  本章小结

  本章参考资料

  第 10 章 Web 重复数据删除

  10.@​​>1 通用去重算法框架

  10.@​​>2Shingling算法

  10.@​​>3I-Match算法

  10.@​​>4SimHash算法

  10.@​​>4.1 文档指纹计算

  10.@​​>4.2 搜索类似文档

  10.@​​>5SpotSig 算法

  10.@​​>5.1 特征提取

  10.@​​>5.2 搜索类似文档

  本章小结

  本章参考资料

  第11章搜索引擎缓存机制

  11.1搜索引擎缓存系统架构

  11.2缓存对象

  11.3 缓存结构

  11.4缓存消除策略(EvictPolicy)

  11.4.1动态策略

  11.4.2 混合策略

  11.5缓存更新策略(RefreshPolicy)

  本章小结

  本章参考资料

  第十二章搜索引擎发展趋势

  12.1个性化搜索

  12.2社交搜索

  12.3实时搜索

  12.4手机搜索

  12.5 位置感知搜索

  12.6 跨语言搜索

  12.7 多媒体搜索

  12.8情况搜索

  前言

  互联网产品多样化,以产品为导向,以营销为导向,以技术为导向。但是,擅长技术的互联网产品占比相对较小。搜索引擎是目前互联网产品中具有技术含量的产品,如果不是唯一的,至少也是其中之一。

  经过十多年的发展,搜索引擎已经成为互联网的重要门户之一。Twitter联合创始人埃文威廉姆斯提出“域名已死理论”:令人难忘的域名不再重要,因为人们会通过搜索网站进入。搜索引擎排名对于中小网站流量非常重要。了解搜索引擎简单界面背后的技术原理,其实对很多人来说都是非常重要的。

  为什么会有这本书

  写搜索引擎技术书的最初想法是两年前诞生的。当时的场景是对团队成员进行搜索技术培训,但是我搜索了相关书籍,却没有找到一本非常合适的搜索技术入门书籍。当时市场上的书籍,要么是信息检索理论的专着,理论性太强,不易理解,真正讲搜索引擎技术的章节也不多;或者它们是太实用的书籍,例如 Lucene 代码分析,例如搜索引擎。这种充满算法的应用直接分析开源系统代码并不是一种非常高效的学习方式。所以当时就诞生了写一本通俗易懂的搜索引擎书籍,适合没有相关技术背景的人,并且更全面,并融合了新技术。但我开始写作是一年前。

  在写这本书之前,我为自己设定了几个目标。首先,内容要全面,即全面覆盖搜索引擎相关技术的主要方面。不仅要收录倒排索引、检索模型、爬虫等常用内容,还要详细讲解链接分析、网页反作弊、用户搜索意图分析、网页云存储和去重甚至搜索引擎缓存都是有机的一个完整的搜索引擎的组成部分,但详细介绍其原理的书籍并不多。我希望尽可能全面。

  第二个目标很容易理解。我希望没有任何相关技术背景的人可以从阅读本书中学到一些东西,不了解技术的学生可以大致理解。这个目标看似简单,但实际上并不容易实现。我不敢说这本书达到了这个目标,但我已经尽力了。具体措施包括以下三个方面。

  一是尽可能减少数学公式的数量,除非公式没有列出。尽管数学公式具有简单之美,但大多数人实际上对数学符号存在恐惧和回避。多年前我也有类似的心理,所以尽可能不要使用数学公式。

  一是尽量多举例,特别是在一些比较难理解的地方。需要举例来加深理解。

  还有更多的绘图。就我个人的经验而言,虽然算法或技术很抽象,但如果深入理解原理,把复杂的东西化简,绝对可以把算法变成一幅生动的图画。如果你无法在脑海中形成算法的直观图形表示,则说明你对其原理没有透彻的理解。这是我判断自己是否对算法有深刻理解的私人标准。鉴于此,本书在讲解算法的地方,使用了大量的算法*敏*感*词*。全书收录300多幅算法原理解释图。相信这对读者深入理解算法有很大的帮助。

  第三个目标是强调新现象和新技术,比如谷歌的caffeine系统和Megastore等云存储系统,Pregel云图计算模型,暗网爬取技术,Web2.0网页作弊,机器学习排序,上下文搜索、社交搜索等在相关章节中有解释。

  第四个目标是强调原理,不纠结技术细节。对于新手来说,一个简单的问题是他们喜欢挖掘细节,只见树木不见森林,懂一个公式却不懂背后的基本思想和出发点。我接触过很多技术人员,他们七八点就会有这个特点。有一个问题“道家哪个好?” 什么是“道”?什么是“*敏*感*词*”?比如《孙子兵法》就是道,《三十六计》就是战术。“道”是宏观的、有原则的、恒久的基本原则,而“技”是遵循基本原则的具体方法和措施,是变化无常的。技术也是如此。算法本身的细节就是“技巧”,算法所体现的基本思想就是“道”。知“道”、学“技”,虽然两者不可忽视,但如果要择优选择,毫无疑问,我会先选择“道”再选择“术”。

  以上四点是写本书之前设定的目标。现在写完了,很多地方可能达不到原先的期待,不过尽力就好了。写书的过程很辛苦,至少比我想象的要难。因为工作忙,每天只能早起,加上周末和节假日。也许书中有这样的缺点,但我可以说我是真诚地写这本书的。

  这本书是给谁的

  如果您是以下人士之一,那么本书适合您。

  1.对搜索引擎核心算法感兴趣的技术人员

  搜索引擎的整体框架是怎样的?收录哪些核心技术?

  网络爬虫的基本结构是什么?常见的爬取策略有哪些?什么是暗网爬行?如何构建分布式爬虫?百度的阿拉丁计划是什么?

  什么是倒排索引?如何对倒排索引进行数据压缩?

  搜索引擎如何对搜索结果进行排序?

  什么是向量空间模型?什么是概率模型?BM25型号是什么?什么是机器学习排序?它们之间有什么相同点和不同点?

  PageRank和HITS算法有什么关系?有哪些相同点和不同点?什么是 SALSA 算法?什么是山顶算法?各种链接分析算法之间的关系是什么?

  如何识别搜索用户的真实搜索意图?用户可以搜索多少个类别?什么是点击图表?什么是查询会话?如何进行相关搜索?

  为什么我们需要去重复网页?如何去重复网页?哪种算法效果更好?

  搜索引擎缓存有多少层结构?核心战略是什么?

  什么是上下文搜索?什么是社交搜索?什么是实时搜索?

  搜索引擎的发展趋势是什么?

  如果你对三个以上的问题感兴趣,那么这本书就是为你而写的。

  2.对云计算、云存储感兴趣的技术人员

  CAP的原理是什么?ACID原理是什么?它们之间有什么相同点和不同点?

  谷歌整个云计算框架都收录了哪些技术?Hadoop系列和谷歌的云计算框架有什么关系?

  Google 的三驾马车 GFS、BigTable 和 MapReduce 是什么意思?有什么关系?

  谷歌*敏*感*词*系统的基本原理是什么?

  Google 的 Pregel 计算模型和 MapReduce 计算模型有什么区别?

  谷歌的Megastore云存储系统和BigTable是什么关系?

  亚马逊的Dynamo系统是什么?

  雅虎的PNUTS系统是什么?

  Haystack仓储系统适用于哪些地方?

  如果你对以上问题感兴趣,相信你可以在书中找到答案。

  3.从事搜索引擎优化的网络营销人员和中小型网站站长

  搜索引擎的反作弊策略是什么?如何优化以避免被认为是作弊?

  搜索引擎如何对搜索结果进行排序?链接分析和内容排名有什么关系?

  什么是内容农场?什么是链接农场?他们是什么关系?

  什么是 Web 2.0 作弊?常用的方法有哪些?

  什么是垃圾邮件等级?什么是信任等级?什么是坏排名?他们是什么关系?

  *敏*感*词*系统如何影响页面排名?

  近期,一批针对搜索引擎优化的电商网站,结果被谷歌认定为黑帽SEO,导致搜索排名权降低。如何避免这种情况?相关行业的营销人员和网站站长应该对反作弊搜索引擎的基本策略和方法,甚至页面排名算法等搜索引擎的核心技术有深入的了解。SEO技术归根结底其实很简单。尽管它在不断变化,但许多原则和策略总是相似而密不可分的。深入了解搜索引擎相关技术原理,将形成您所在行业的竞争优势。

  4.作者本人

  我的记忆力不是很好,一段时间学到的技术往往几年后就模糊了,所以这本书也是给自己写的,作为技术参考手册。沉力也参与了本书的部分编写。

  谢谢

  感谢博文的编辑傅锐。没有她,这本书就不会出版。傅主编在审稿过程中提出的一丝不苟的改进点,对我帮助很大。

  特别感谢我的妻子。在将近一年的写作过程中,我几乎把所有的空闲时间都花在了本书的写作上。她承担了所有的家务,以免分散我的注意力。是时候陪伴她了,这本书的诞生,也算是送给她的礼物吧。

  对我来说,这本书的写作是一个辛苦而快乐的过程。就像一个远行的旅人,涉水翻山越岭,从远处仰望,总能看到我所忽略的美景。如果你正在阅读这本书,在这个过程中能有这样的体验是我的荣幸。

  张俊林

  2011 年 6 月

  获取正版《这就是搜索引擎:核心技术详解》

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线