搜索引擎优化书籍(推广得4本书，有两本书让我印象蕞深刻！)

优采云发布时间: 2022-02-06 22:13

　　最近看了4本关于推广的书，印象最深的有两本书，一本是《走进搜索引擎》，另一本是《SEO搜索引擎优化：技巧、策略与实战案例》。两本书的特点是前者用21万字详细讲解了搜索引擎的原理，后者穿插一些实际案例讲解具体的优化技术，所以在一定程度上，看完这两本书，如果你说如果你不知道怎么做搜索引擎优化，或者你仍然被切断，那么对不起，你可以远离这个行业。

　　但是第一本书唯一的缺点就是有一定的包容性，对小白新手真的不是很友好，因为这本书要和医生分享。书中穿插了很多公式，所以降维命中相当厉害。

　　本书将搜索引擎分为4个部分，下载系统、分析系统、索引系统、查询系统。还是老规矩，我干脆就4个部分做个总结。

　　一、下载系统

　　其实下载系统其实就是我们可以说的各种类型页面的下载。说到下载系统，爬虫系统肯定少不了。这部分主要讲他如何抓取页面以及抓取策略的介绍。我直接举个例子，在下载系统中，根据域名分解抓取任务的任务是由一个dispatcher模块来处理的。通过域名分解，将不同的网页分派给不同的爬虫进行爬取。

　　(1）调度程序通过更新规则从 URL 请求一个 URL 获取任务。

　　(2）调度器计算出URL，分配给0号爬虫进行爬取。

　　（3）爬虫0实际上是抓取了网页，并存储在Page库中。

　　（4）Crawler 0 在从网页获取其他链接后反馈给调度程序。

　　(5）调度器判断网页类型，设置初始更新时间等，存入URL库，继续传输(1)，一次又一次。

　　二、分析系统

　　分析系统实际上是信息提取和网页信息结构化。这句话怎么理解？实际上，爬虫对抓取到的 URL 中的页面信息进行分析和处理。在这一部分中，我们需要注意称为标签树的东西。在这个过程中，需要标签分析堆栈。在这个过程中，实际上是提取了代码块中的文本。这是一个例子：

　　测试 1

　　测试 2

　　测试 3

　　...

　　分析系统只将Test 1、Test 2、Test 3等文本信息从栈中提取到栈中，那么如何判断是哪些文本信息呢？这里我们需要使用投票的方式通过不同的规则来得分。分数越高，该部分为文本部分。怎么理解？例如，如果我们得到一个文本长度小于 10 个词的文本块，则得分为 0，10-50 个词得分 5，以此类推。同理，文本块文本会在左边加5点，右边加0，中间加10。也就是说，如果分数较高，则判断为文本，如果分数较低，则判断为广告或无效信息。，那么百度在判断内容的时候，也是根据内容来判断的。

　　说到分析，肯定有页面检查。这也是决定页面是否为收录的关键因素。这部分使用最多的方法是l-Match算法和Shingle算法。

　　这两种算法的区别在于，前者通过对单词进行排序去除高频词和低频词得到字符串，使用签名算法得到字符串的签名。如果存在其他签名值相同的文档，则判断为相似。

　　后者采用绘制瓦片的方法，将一个文档转换为一组字符串（每个元素为一个Shingle），因此判断两个文档的相似度转换为一组字符串的相似度。（我知道你不明白，我举个例子）

　　例如，这里有两句话：

　　第一段：据新浪体育报道，在米卢德的带领下，华夏足球队首次晋级世界杯决赛圈。

　　第二段：米路带领华夏足球队首次闯入世界杯决赛，搜狐体育

　　l-匹配算法

　　瓦算法

　　一般来说，网页重复检查至少需要以下 3 个主要步骤：

　　(1）特征提取

　　(2）相似度计算和评估类似。

　　(3）删除重复

　　PS：判断内容来自互联网还是基于时间戳和爬虫爬取的页面顺序。

　　到达这一步后，会进行分词。其实市面上有很多分词软件。我不会在这里介绍它。分词基本上是基于字典分词和统计分词。我在这里举个例子：

　　进入搜索引擎

　　分词后，最终的实际结果是进入/搜索引擎，不要问为什么？

　　这里提到了一个 PR 模型，也就是我们常说的网络投票。从实际应用来看，我们需要对页面的内部链接进行处理。

　　综上所述：

　　三、索引系统

　　索引系统是一个复杂的工作流程，涉及到倒排索引、倒排表、临时倒排文件和最终倒排文件。这里我们将讲讲系统如何将页面处理成单据编号，然后通过一系列计算形成正向和反向列表。

　　四、查询系统

　　在四个系统中，只有查询系统是为用户服务的。对于信息的量化，我们需要知道“信息后代”（shang）的概念。另外，用户提交查询，但是对于搜索引擎来说，需要作为搜索词来处理。这部分将使用布尔检索模型。举个例子：比如用户搜索引擎系统这个词构成，那么下面有3段：

　　(1）在传统的搜索引擎架构中，搜索引擎由四个系统组成，分别是下载系统、分析系统、索引系统和查询系统。

　　（2）在机械行业，小挖一般简称为小挖。小挖由5个系统组成，分别是......。要详细了解这些术语，可以用谷歌搜索搜索引擎。

　　(3）搜索引擎有4个主要功能模块，分别是下载系统、分析系统、索引系统和查询系统。这4个系统是搜索引擎的核心，而查询系统是唯一的搜索引擎之一——直接面向客户的系统。

　　很明显，用户在查询搜索引擎的系统组成，而百度在检索搜索引擎和系统组成，那么上面三个页面中的1、2就收录了这两个词，尤其是第一个，直观地说， 1相关性较好，但布尔检索模型只解决yes and no问题，没有解决好坏问题。

　　因此，引入了向量空间模型。该模型计算文本的向量相似度，向量化过程根据关键词的维度对文档进行向量化。比如你走进一个搜索引擎，学习搜索引擎，那么分词后的结果就是，走进（1），学习（1），搜索引擎（2），那么这个短句的向量化计算就是 (2,1,1）。

　　根据刚才的搜索结果，其实是搜索不到的（3），所以需要经典的TF/publisher会员账号F权重计算方法。（TF/publisher会员账号F参考相关资料））

　　那么页面是如何排序的呢？该算法通过计算文档向量与查询向量的夹角余弦得到向量相似度（一个可以量化的值），并按照数字之间的关系进行排序。

　　由于搜索结果海量，用户几乎没有耐心阅读所有搜索结果。一项调查显示，大多数用户在使用搜索引擎进行查询时，在得到搜索结果页面后不会拒绝该页面，而只是感谢创作者对搜索结果第一页的支持。

　　综上所述：

　　所谓页面在查询系统中的排名，其实是根据相关性、页面重要性等因素来决定的。这就是为什么有人认为同样是一个文章，为什么别人的页面排名比你的，原因是因为其他人的页面被投票的频率更高。（本页投票可能是外链投票，也可能是内链投票）

　　读完这两本书，感触颇深。这两本书的含金量远高于其他SEO书籍。至少在我目前读过的书中，我还没有找到与这两本书相媲美的东西。

　　我相信这个行业有从业者。书中除了采集和quicksort之外，还有很多很多人不知道或者不熟悉的东西，所以如果你对这方面感兴趣，建议你好好看看，至少它可以避免被割韭菜，也可以变相提高知识。

　　比如花几千块钱学TDK？还是花几千学个基础的东西，拉下来，这TM是在割韭菜。

0

2022-02-06

搜索引擎优化书籍

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化书籍(推广得4本书，有两本书让我印象蕞深刻！)

0 个评论

发起人