seo优化全解第1版-搜索引擎入门详解(搜索引擎和搜索引擎优化人员密切关注的内容--搜索引擎著ISBN)
优采云 发布时间: 2021-09-04 07:20seo优化全解第1版-搜索引擎入门详解(搜索引擎和搜索引擎优化人员密切关注的内容--搜索引擎著ISBN)
--
这是搜索引擎:核心技术详解
作者:张俊林
ISBN 978-7-121-14865-1
2012 年 1 月发布
定价:45.00元
16 开
320 页
口号:改变全世界人们生活方式的“信息之门”
内容介绍
搜索引擎作为互联网发展中至关重要的应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中少有的以核心技术为命脉的领域。搜索引擎的各个子系统是如何设计的?这已成为广大技术人员和搜索引擎优化者关注的内容。
本书最大的特点是内容新颖、全面、通俗易懂。对实际搜索引擎中涉及的各种核心技术进行了全面详细的介绍。除了以网络爬虫、索引系统、排名系统、链接分析和用户分析为核心的搜索系统外,还包括网页反作弊、缓存管理、网页重复数据删除技术等实际搜索引擎必须具备的技术。关注,同时在相当大的篇幅中讲解了云计算和云存储的核心技术原理。此外,本书还密切关注搜索引擎开发的前沿技术:谷歌的*敏*感*词*系统和Megastore等新的云计算技术、百度的暗网爬虫技术阿拉丁计划、内容农场作弊、机器学习排序等。许多新技术在相关章节中有详细的讲解,同时对社交搜索、实时搜索、上下文搜索等搜索引擎未来的发展方向给出了技术展望。为了加深读者的理解,书中引入了大量生动的图片来讲解算法的原理。相信读者会发现,对原创搜索引擎核心技术的理解比原先想象的要简单得多。
本书适合所有对搜索引擎技术感兴趣的人,尤其是相关领域的学生、对搜索引擎核心技术感兴趣的技术人员、从事搜索引擎优化的相关人员、中小网站站长等,有参考价值。
作者介绍
张俊林:毕业于天津大学管理学院,获学*敏*感*词*。 2004年直接获得博*敏*感*词*。中科院软件所毕业,留校从事科研工作。研究方向为搜索引擎和自然语言处理。 2005年在CSDN博客上发表了《搜索引擎设计实战教程:以百度为例》系列博文,在网络上被广泛转载,享有盛誉。 2006年,作为联合创始人,创立智能信息聚合网站“玩聚网”。曾任阿里巴巴搜索技术中心高级搜索技术研究员,石家庄首席研究员。现在在新浪微博工作,从事微博搜索。以及语义分析与推荐的研发工作。
前言
互联网产品种类繁多,以产品为导向,以营销为导向,以技术为导向,但精通技术的互联网产品比例相对较小。搜索引擎是目前互联网产品中技术含量最高的产品,如果不是唯一的,至少也是其中之一。
经过十多年的发展,搜索引擎已经成为互联网的重要入口之一。 Twitter联合创始人埃文威廉姆斯提出“域名理论”:令人难忘的域名不再重要,因为人们会通过搜索进入网站。搜索引擎排名对于中小网站流量非常重要。了解搜索引擎简单界面背后的技术原理,对很多人来说其实很重要。
为什么会有这本书
写搜索引擎技术书籍的最初想法是两年前诞生的。当时的场景是对团队成员进行搜索技术培训,但是我搜索了相关书籍,却没有找到一本非常合适的搜索技术入门书籍。当时市场上的书籍,要么是信息检索理论的专着,理论性太强,不易理解,真正讲搜索引擎技术的章节也不多;或者它们是太实用的书,比如 Lucene 代码分析,比如搜索引擎。这种充满算法的应用直接分析开源系统代码并不是一种非常高效的学习方式。所以当时就诞生了写一本通俗易懂,适合没有相关技术背景的人阅读,比较全面,融合最新技术的搜索引擎书籍。但我是在一年前开始写作的。
在写这本书之前,我为自己设定了一些目标。首先,内容要全面,即全面覆盖搜索引擎相关技术的主要方面。不仅要收录倒排索引、检索模型、爬虫等常见内容,还要详细讲解链接分析、网页反作弊、用户搜索意图分析、云存储、网页去重甚至搜索引擎缓存等。一个完整搜索引擎的所有有机组成部分,但详细介绍其原理的书籍并不多。我希望尽可能全面。
第二个目标很容易理解。我希望没有任何相关技术背景的人可以从阅读本书中学到一些东西,最好是不了解技术的学生能够大致了解。这个目标看似简单,但实际上实现起来并不容易。我不敢说这本书达到了这个目标,但我已经尽力了。具体措施包括以下三个方面。
一是尽可能减少数学公式的数量,除非公式没有列出。虽然数学公式具有简单之美,但实际上大多数人对数学符号都有恐惧和回避。多年前我也有类似的心理,所以尽可能不要使用数学公式。
· 一是尽量多举例,尤其是一些比较难理解的地方。需要举例来加深理解。
· 还有一个多图。就我个人的经验而言,虽然算法或技术很抽象,但如果深入理解原理,把复杂的东西化简,绝对可以把算法变成一幅生动的图画。如果你无法在脑海中形成算法的直观图形表示,则说明你对其原理没有透彻的理解。这是我判断自己是否对算法有深刻理解的私人标准。鉴于此,本书在讲解算法的地方,使用了大量的算法*敏*感*词*。全书收录300多幅算法原理解释图。相信这对读者深入理解算法有很大帮助。
· 第三个目标是强调新现象和新技术,比如谷歌的*敏*感*词*系统和Megastore等云存储系统、Pregel云图计算模型、暗网爬取技术、Web2.0网络作弊、机器学习排序、上下文搜索、社交搜索等在相关章节中有说明。
· 第四个目标是强调原则,而不是停留在技术细节上。对于新手来说,一个容易解决的问题是他们喜欢挖掘细节,只见树木不见森林,懂一个公式却不懂背后的基本思想和出发点。我接触过很多技术人员,他们七八点就会有这个特点。有一个问题“道家哪个好?” “道”是什么?什么是“*敏*感*词*”?比如《孙子兵法》就是道,《三十六计》就是战术。 “道”是宏观的、有原则的、经久不衰的基本原则,而“技术”是遵循基本原则的具体方法和措施,是变化无常的。技术也是如此。算法本身的细节就是“技巧”,算法所体现的基本思想就是“道”。知“道”、学“技”,虽然两者不能偏,但如果要选择优先级,毫无疑问我会先选择“道”再选择“术”。
以上四点是写书之前设定的目标。现在写完了,可能很多地方都达不到当初的期待,但是我会努力的。写书的过程很辛苦,至少比我想象的要难。因为工作忙,每天只能早起,加上周末和节假日。也许书中有这样的缺点,但我可以说我是真诚地写这本书的。
这本书是给谁看的?
如果您是以下其中一种,那么这本书适合您。
1.对搜索引擎核心算法感兴趣的技术人员
· 搜索引擎的总体框架是什么?收录哪些核心技术?
· 网络爬虫的基本结构是什么?常见的爬取策略有哪些?什么是暗网爬行?如何构建分布式爬虫?百度的阿拉丁计划是什么?
·什么是倒排索引?如何对倒排索引进行数据压缩?
· 搜索引擎如何对搜索结果进行排序?
· 什么是向量空间模型?什么是概率模型?什么是BM25型号?什么是机器学习排序?它们之间有什么异同?
· PageRank和HITS算法有什么关系?有哪些相同点和不同点?什么是 SALSA 算法?什么是山顶算法?各种链接分析算法之间的关系是什么?
· 如何识别搜索用户的真实搜索意图?用户可以搜索多少个类别?什么是点击图表?什么是查询会话?相关搜索是如何完成的?
· 为什么我们需要去重复网页?如何去重复网页?哪种算法效果更好?
· 搜索引擎缓存有多少层结构?核心战略是什么?
· 什么是上下文搜索?什么是社交搜索?什么是实时搜索?
·搜索引擎的发展趋势是什么?
如果您对以上三个问题感兴趣,那么这本书就是为您而写的。
2.对云计算和云存储感兴趣的技术人员
· CAP的原理是什么? ACID的原理是什么?它们之间有什么异同?
·谷歌的云计算框架包括哪些技术? Hadoop系列和谷歌的云计算框架有什么关系?
·Google 的三驾马车 GFS、BigTable 和 MapReduce 是什么意思?有什么关系?
·谷歌*敏*感*词*系统的基本原理是什么?
·Google 的 Pregel 计算模型和 MapReduce 计算模型有什么区别?
·谷歌的Megastore云存储系统和BigTable是什么关系?
·亚马逊的Dynamo系统是什么?
·雅虎的PNUTS系统是什么?
·Facebook 的 Haystack 存储系统适用于哪些场合?
如果你对以上问题感兴趣,相信你可以在书中找到答案。
3.从事搜索引擎优化和中小网络营销人员网站站长
· 搜索引擎的反作弊策略是什么?如何优化以避免被认为作弊?
· 搜索引擎如何对搜索结果进行排序?链接分析和内容排名有什么关系?
· 什么是内容农场?什么是链接农场?他们是什么关系?
· Web 2.0 作弊是什么?常用的方法有哪些?
· 什么是 SpamRank?什么是信任等级?什么是坏排名?他们是什么关系?
·*敏*感*词*系统如何影响页面排名?
最近一批电商网站针对搜索引擎优化,结果被谷歌认定为黑帽SEO,导致搜索排名权降低。如何避免这种情况?相关行业的营销人员和网站webmasters应该对反作弊搜索引擎的基本策略和方法,甚至页面排名算法等搜索引擎的核心技术有深入的了解。 SEO技术归根结底其实很简单。尽管它在不断变化,但许多原则和策略总是相似而密不可分的。深入了解搜索引擎相关技术原理,将形成您所在行业的竞争优势。
4.作者本人
我的记忆力不是很好,一段时间内学到的技术往往几年后就模糊了,所以这本书也是给自己写的,作为技术参考手册。沉力也参与了本书的部分编写。
谢谢
感谢博文的编辑傅锐。没有她,这本书就不会出版。傅主编在审稿过程中提出的一丝不苟的改进点,对我帮助很大。
感谢打开这本书的读者。如果您在阅读本书的过程中发现一些遗漏或错误,或提出意见或建议,希望您能告诉我,我将站在这个邮箱,期待您的来信,如果您在微博,也很受欢迎。
特别感谢我的妻子。在将近一年的写作过程中,我几乎把所有的空闲时间都花在了这本书的写作上。她承担了所有的家务,以免分散我的注意力。没时间陪她也没关系,这本书的诞生也算是送给她的礼物。
对我来说,写这本书是一个辛苦而快乐的过程。就像一个远行的旅人。当你从水和山上仰望时,你总能看到你所忽视的美丽景色。如果您在阅读本书,我很荣幸能有这样的体验。
张俊林
2011 年 6 月
转载于: