seo优化全解第1版-搜索引擎入门详解( 这就是搜索引擎:核心技术详解张俊林著ISBN-7-121-14865)

优采云 发布时间: 2022-01-17 14:01

  seo优化全解第1版-搜索引擎入门详解(

这就是搜索引擎:核心技术详解张俊林著ISBN-7-121-14865)

  

  这是搜索引擎:核心技术解释

  张俊林

  国际标准书号 978-7-121-14865-1

  2012 年 1 月出版

  定价:45.00元

  16 开放

  320 页

  口号:改变世界各地人们生活方式的“信息之门”

  简单的介绍

  作为互联网发展的重要应用,搜索引擎已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中少有的以核心技术为命脉的领域。搜索引擎的各个子系统是如何设计的?这已成为广大技术人员和SEO人员密切关注的内容。

  本书最大的特点是内容新颖、全面、通俗易懂。对实际搜索引擎中涉及的各种核心技术都有全面详细的介绍。除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析和用户分析之外,还包括网页防作弊、缓存管理、网页去重技术等实际搜索引擎必须的技术关注,同时以相当篇幅解释了云计算和云存储的核心技术原理。此外,本书还关注搜索引擎开发的前沿技术:谷歌的×××系统和Megastore等新的云计算技术,百度暗网爬取技术阿拉丁计划、内容农场作弊、机器学习排序等。很多新技术在相关章节中详细讲解,并对社交搜索、真实搜索等搜索引擎未来发展方向做出技术展望时间搜索和上下文搜索。为了加深读者的理解,全书引入了大量的图片来解释算法的原理。相信读者会发现,对原搜索引擎核心技术的理解比原来想象的要简单得多。并对社交搜索、实时搜索、上下文搜索等搜索引擎的未来发展方向进行了技术展望。为了加深读者的理解,全书引入了大量的图片来解释算法的原理。相信读者会发现,对原搜索引擎核心技术的理解比原来想象的要简单得多。并对社交搜索、实时搜索、上下文搜索等搜索引擎的未来发展方向进行了技术展望。为了加深读者的理解,全书引入了大量的图片来解释算法的原理。相信读者会发现,对原搜索引擎核心技术的理解比原来想象的要简单得多。

  本书适合所有对搜索引擎技术感兴趣的人,特别是相关领域的学生、对搜索引擎核心技术有好奇心的技术人员、从事搜索引擎优化的相关人员、中小网站站长等参考价值。

  关于作者

  张俊林:毕业于天津大学管理学院,获学*敏*感*词*。2004年直接获得中科院软件所博*敏*感*词*,留校从事科研工作。研究方向为搜索引擎和自然语言处理。2005年,他在CSDN博客上发表了一系列博文《搜索引擎设计实用教程:以百度为例》,被广泛转载,在互联网上享有盛誉。2006年,作为联合创始人,创立了智能信息聚合网站“玩巨网”。曾任阿里巴巴搜索技术中心高级搜索技术研究员、房价网首席研究员。他目前在新浪微博工作,

  前言

  互联网产品形态各异,有的以产品为导向,有的以营销为导向,有的以技术为导向,但以技术为导向的互联网产品比例相对较小。搜索引擎是目前互联网产品中技术含量最高的产品,如果不是唯一的,至少也是其中之一。

  经过十多年的发展,搜索引擎已经成为互联网的重要入口之一。Twitter联合创始人埃文·威廉姆斯提出“域名已死”:一个好记的域名不再重要,因为人们会搜索输入网站。搜索引擎排名对于中小型 网站 流量至关重要。了解搜索引擎简单界面背后的技术原理对许多人来说实际上很重要。

  为什么这本书

  写这本关于搜索引擎技术的书的想法诞生于两年前。当时的场景是对团队成员进行搜索技术培训,但是我搜索了相关书籍,但没有找到一本非常合适的搜索技术入门书籍。当时市场上的书籍要么是信息检索理论的专着,理论性太强,难以理解,搜索引擎技术的章节也不多;或者是像Lucene代码分析之类的太实用的书,像搜索引擎一样,对于充满算法的应用来说,直接分析开源系统代码并不是一种非常高效的学习方式。所以在当时,一本通俗易懂,适合没有相关技术背景的人,比较全面的搜索引擎书籍,

  在写这本书之前,我给自己定了几个目标。首先,内容要全面,即全面涵盖搜索引擎相关技术的主要方面,不仅包括倒排索引、检索模型、爬虫等常见内容,还包括链接分析、网页反作弊、用户搜索意图分析、云存储和网页去重,甚至搜索引擎缓存,这些都是一个完整搜索引擎的有机组成部分,但详细介绍其原理的书籍不多,希望能全面尽可能。

  第二个目标是易于理解。我希望没有任何相关技术背景的人阅读本书也能有所收获,最好是不懂技术的同学都能大致了解。这个目标看似简单,实则不易实现。我不敢说这本书达到了这个目的,但我已经尽我所能去做了。具体措施包括以下三个方面。

  一种是尽量减少数学公式的出现次数,除非你必须列出它们。尽管数学公式具有简单的美感,但大多数人实际上对数学符号感到恐惧和回避。很多年前我也有类似的心态,所以只要有可能,尽量不要使用数学公式。

  · 一是尽可能多举例,特别是一些难于理解的地方,需要举例提高理解。

  · 另一个是多画图。就我个人的经验而言,虽然算法或技术很抽象,但如果深入理解其原理并加以简化,绝对可以将算法转化为图像的图像。如果您无法在脑海中形成算法的直观图形表示,那么您就无法彻底了解它的工作原理。这是我判断我是否深入了解算法的私人标准。有鉴于此,在解释算法的地方,使用了大量的算法*敏*感*词*。全书收录300多幅算法*敏*感*词*。相信这对读者深入理解算法会有很大帮助。

  · 第三个目标是强调新现象和新技术,如谷歌的×××系统和Megastore等云存储系统、Pregel云图计算模型、暗网爬虫技术、Web2.0作弊、机器学习排序、上下文搜索、社交搜索等在相关章节中有说明。

  · 第四个目标是强调原则,而不是纠缠于技术细节。新手常犯的错误是喜欢钻研细节,只见树木不见森林,想出公式却不了解其基本思想和出发点。我接触过很多技术人员,十分之七有这个功能。有一个“道教哪个好”的问题,“道”是什么?什么是“艺术”?比如《孙子兵法》就是道,《三十六计》就是艺术。“道”是指宏观的、有原则的、持久的基本原则,“技术”是指基于基本原则的具体手段和措施,是易变的。技术也是如此。算法本身的细节就是“技巧”,算法所体现的基本思想就是“道”。知“道”,学“技”,二者虽不可忽视,但若要择优,毫无疑问,我会先选“道”,再选“技”。

  以上四点是写书前设定的目标。既然写完了,可能很多地方都达不到当初的预期,但是尽力而为就好了。写一本书的过程非常艰难,至少比我想象的要难。因为工作繁忙,我只能每天早起,再加上周末和节假日来完成。或许这本书还有一些不足之处,但我可以坦诚地说,我是带着诚意写这本书的。

  这本书是为谁写的?

  如果你是以下人群之一,这本书适合你。

  1. 对搜索引擎核心算法感兴趣的技术人员

  · 一个搜索引擎的整体框架是什么?包括哪些核心技术?

  · 网络爬虫的基本架构是什么?常见的爬取策略有哪些?什么是暗网抓取?如何构建分布式爬虫?百度的阿拉丁计划是什么?

  · 什么是倒排索引?如何为倒排索引压缩数据?

  搜索引擎如何对搜索结果进行排名?

  · 什么是向量空间模型?什么是概率模型?BM25型号是什么?什么是机器学习排序?它们之间有什么相同点和不同点?

  · PageRank和HITS算法有什么关系?有哪些相同点和不同点?什么是萨尔萨算法?什么是山顶算法?各种链接分析算法之间有什么关系?

  如何识别搜索用户的真实搜索意图?用户搜索的目的是什么?什么是点击地图?什么是查询会话?相关搜索是如何完成的?

  · 为什么要对网页进行重复数据删除?如何对网页进行重复数据删除?哪种算法效果更好?

  · 搜索引擎缓存有多少级?核心战略是什么?

  · 什么是上下文搜索?什么是社交搜索?什么是实时搜索?

  · 搜索引擎的发展趋势是什么?

  如果您对其中三个以上的问题感兴趣,那么本书适合您。

  2. 对云计算和云存储感兴趣的技术人员

  · CAP原理是什么?ACID的原理是什么?它们之间有什么相同点和不同点?

  · 谷歌整个云计算框架包括哪些技术?Hadoop家族和谷歌的云计算框架有什么关系?

  · Google 的三驾马车 GFS、BigTable 和 MapReduce 是什么意思?有什么关系?

  · Google的×××系统的基本原理是什么?

  · Google 的 Pregel 计算模型和 MapReduce 计算模型有什么区别?

  Google的Megastore云存储系统和BigTable是什么关系?

  · 什么是亚马逊的 Dynamo 系统?

  · 什么是雅虎的 PNUTS 系统?

  · Facebook 的 Haystack 存储系统适用于哪些地方?

  如果您对以上问题感兴趣,相信您可以在书中找到答案。

  3. 从事搜索引擎优化的互联网营销人员和网站管理员网站

  · 搜索引擎的反作弊策略是什么?如何优化才能避免被认为作弊?

  · 搜索引擎如何对搜索结果进行排名?链接分析和内容排名有什么关系?

  · 什么是内容农场?什么是链接农场?它们有什么关系?

  · 什么是Web2.0作弊?常用的方法有哪些?

  · 什么是 SpamRank?什么是信任等级?什么是 BadRank?它们有什么关系?

  · ×××系统如何影响页面排名?

  近日,一批针对搜索引擎优化的电商网站,结果被谷歌视为黑帽SEO,导致搜索排名下降。如何避免这种情况?从事相关行业的营销人员和网站站长应该对搜索引擎反作弊的基本策略和方法,乃至页面排名算法等搜索引擎的核心技术有深入的了解。SEO技术说到底其实很简单。尽管它在不断变化,但许多原则策略总是相似且保持不变。深入了解搜索引擎相关技术原理,将形成您的行业竞争优势。

  4. 作者本人

  我的记忆力不是很好,一段时间了解的技术往往几年后就模糊了,所以这本书也是给自己写的,作为技术参考手册。沉力也参与了本书的部分写作。

  谢谢

  从博客的角度感谢傅睿编辑。没有她,这本书就不会出版。傅总在审稿过程中提出的细致改进点对我很有帮助。

  感谢翻开本书的读者,如果您在阅读本书的过程中发现一些瑕疵或错误,或提出意见和建议,希望您能告诉我,我会通过这个邮箱等待您的来信。我的微博也很受欢迎。

  特别感谢我的妻子。在将近一年的写作过程中,我几乎把所有的业余时间都花在了这本书的写作上。为了不分散我的注意力,她承担了所有的家务。有时间陪她,这本书的诞生也算是送给她的礼物。

  对我来说,写这本书是一个艰难而快乐的过程。犹如行者远行,跋山涉水时仰望远方。在这个过程中能有这样的经历是我的荣幸。

  张俊林

  2011 年 6 月

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线