搜索引擎优化书籍(推广得4本书,有两本书让我印象蕞深刻!)

优采云 发布时间: 2022-02-06 22:13

  搜索引擎优化书籍(推广得4本书,有两本书让我印象蕞深刻!)

  最近看了4本关于推广的书,印象最深的有两本书,一本是《走进搜索引擎》,另一本是《SEO搜索引擎优化:技巧、策略与实战案例》。两本书的特点是前者用21万字详细讲解了搜索引擎的原理,后者穿插一些实际案例讲解具体的优化技术,所以在一定程度上,看完这两本书,如果你说如果你不知道怎么做搜索引擎优化,或者你仍然被切断,那么对不起,你可以远离这个行业。

  但是第一本书唯一的缺点就是有一定的包容性,对小白新手真的不是很友好,因为这本书要和医生分享。书中穿插了很多公式,所以降维命中相当厉害。

  本书将搜索引擎分为4个部分,下载系统、分析系统、索引系统、查询系统。还是老规矩,我干脆就4个部分做个总结。

  一、下载系统

  其实下载系统其实就是我们可以说的各种类型页面的下载。说到下载系统,爬虫系统肯定少不了。这部分主要讲他如何抓取页面以及抓取策略的介绍。我直接举个例子,在下载系统中,根据域名分解抓取任务的任务是由一个dispatcher模块来处理的。通过域名分解,将不同的网页分派给不同的爬虫进行爬取。

  (1)调度程序通过更新规则从 URL 请求一个 URL 获取任务。

  (2)调度器计算出URL,分配给0号爬虫进行爬取。

  (3)爬虫0实际上是抓取了网页,并存储在Page库中。

  (4)Crawler 0 在从网页获取其他链接后反馈给调度程序。

  (5)调度器判断网页类型,设置初始更新时间等,存入URL库,继续传输(1),一次又一次。

  二、分析系统

  分析系统实际上是信息提取和网页信息结构化。这句话怎么理解?实际上,爬虫对抓取到的 URL 中的页面信息进行分析和处理。在这一部分中,我们需要注意称为标签树的东西。在这个过程中,需要标签分析堆栈。在这个过程中,实际上是提取了代码块中的文本。这是一个例子:

  测试 1

  测试 2

  测试 3

  ...

  分析系统只将Test 1、Test 2、Test 3等文本信息从栈中提取到栈中,那么如何判断是哪些文本信息呢?这里我们需要使用投票的方式通过不同的规则来得分。分数越高,该部分为文本部分。怎么理解?例如,如果我们得到一个文本长度小于 10 个词的文本块,则得分为 0,10-50 个词得分 5,以此类推。同理,文本块文本会在左边加5点,右边加0,中间加10。也就是说,如果分数较高,则判断为文本,如果分数较低,则判断为广告或无效信息。,那么百度在判断内容的时候,也是根据内容来判断的。

  说到分析,肯定有页面检查。这也是决定页面是否为收录的关键因素。这部分使用最多的方法是l-Match算法和Shingle算法。

  这两种算法的区别在于,前者通过对单词进行排序去除高频词和低频词得到字符串,使用签名算法得到字符串的签名。如果存在其他签名值相同的文档,则判断为相似。

  后者采用绘制瓦片的方法,将一个文档转换为一组字符串(每个元素为一个Shingle),因此判断两个文档的相似度转换为一组字符串的相似度。(我知道你不明白,我举个例子)

  例如,这里有两句话:

  第一段:据新浪体育报道,在米卢德的带领下,华夏足球队首次晋级世界杯决赛圈。

  第二段:米路带领华夏足球队首次闯入世界杯决赛,搜狐体育

  l-匹配算法

  瓦算法

  一般来说,网页重复检查至少需要以下 3 个主要步骤:

  (1)特征提取

  (2)相似度计算和评估类似。

  (3)删除重复

  PS:判断内容来自互联网还是基于时间戳和爬虫爬取的页面顺序。

  到达这一步后,会进行分词。其实市面上有很多分词软件。我不会在这里介绍它。分词基本上是基于字典分词和统计分词。我在这里举个例子:

  进入搜索引擎

  分词后,最终的实际结果是进入/搜索引擎,不要问为什么?

  这里提到了一个 PR 模型,也就是我们常说的网络投票。从实际应用来看,我们需要对页面的内部链接进行处理。

  综上所述:

  三、索引系统

  索引系统是一个复杂的工作流程,涉及到倒排索引、倒排表、临时倒排文件和最终倒排文件。这里我们将讲讲系统如何将页面处理成单据编号,然后通过一系列计算形成正向和反向列表。

  四、查询系统

  在四个系统中,只有查询系统是为用户服务的。对于信息的量化,我们需要知道“信息后代”(shang)的概念。另外,用户提交查询,但是对于搜索引擎来说,需要作为搜索词来处理。这部分将使用布尔检索模型。举个例子:比如用户搜索引擎系统这个词构成,那么下面有3段:

  (1)在传统的搜索引擎架构中,搜索引擎由四个系统组成,分别是下载系统、分析系统、索引系统和查询系统。

  (2)在机械行业,小挖一般简称为小挖。小挖由5个系统组成,分别是......。要详细了解这些术语,可以用谷歌搜索搜索引擎。

  (3)搜索引擎有4个主要功能模块,分别是下载系统、分析系统、索引系统和查询系统。这4个系统是搜索引擎的核心,而查询系统是唯一的搜索引擎之一——直接面向客户的系统。

  很明显,用户在查询搜索引擎的系统组成,而百度在检索搜索引擎和系统组成,那么上面三个页面中的1、2就收录了这两个词,尤其是第一个,直观地说, 1相关性较好,但布尔检索模型只解决yes and no问题,没有解决好坏问题。

  因此,引入了向量空间模型。该模型计算文本的向量相似度,向量化过程根据关键词的维度对文档进行向量化。比如你走进一个搜索引擎,学习搜索引擎,那么分词后的结果就是,走进(1),学习(1),搜索引擎(2),那么这个短句的向量化计算就是 (2,1,1) 。

  根据刚才的搜索结果,其实是搜索不到的(3),所以需要经典的TF/publisher会员账号F权重计算方法。(TF/publisher会员账号F参考相关资料))

  那么页面是如何排序的呢?该算法通过计算文档向量与查询向量的夹角余弦得到向量相似度(一个可以量化的值),并按照数字之间的关系进行排序。

  由于搜索结果海量,用户几乎没有耐心阅读所有搜索结果。一项调查显示,大多数用户在使用搜索引擎进行查询时,在得到搜索结果页面后不会拒绝该页面,而只是感谢创作者对搜索结果第一页的支持。

  综上所述:

  所谓页面在查询系统中的排名,其实是根据相关性、页面重要性等因素来决定的。这就是为什么有人认为同样是一个文章,为什么别人的页面排名比你的,原因是因为其他人的页面被投票的频率更高。(本页投票可能是外链投票,也可能是内链投票)

  读完这两本书,感触颇深。这两本书的含金量远高于其他SEO书籍。至少在我目前读过的书中,我还没有找到与这两本书相媲美的东西。

  我相信这个行业有从业者。书中除了采集和quicksort之外,还有很多很多人不知道或者不熟悉的东西,所以如果你对这方面感兴趣,建议你好好看看,至少它可以避免被割韭菜,也可以变相提高知识。

  比如花几千块钱学TDK?还是花几千学个基础的东西,拉下来,这TM是在割韭菜。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线