SEO搜索引擎优化:技巧、策略与实战案例》总结

优采云 发布时间: 2021-08-20 05:27

  SEO搜索引擎优化:技巧、策略与实战案例》总结

  最近我读了 4 本关于促销的书。其中两个让我印象最深刻。一个是“进入搜索引擎”,另一个是“SEO搜索引擎优化:技巧、策略和实践案例”。这两本书的特点是,前者用21万字详细讲解了搜索引擎的原理,后者穿插了一些实际案例,讲解了具体的优化技巧。所以在一定程度上,你看完这两本书后,如果你不会做搜索引擎优化,你还是切韭菜,那不好意思,你可以远离这个行业。

  开明网:如何做好seo优化排名? seo大师的常用技巧、方法和注意事项

  但是第一本书唯一的缺点就是有一定的专业性。对新手小白真的不是很友好,因为这本书的作者是博士。书中穿插了很多公式,降维打击还是挺厉害的。

  本书将搜索引擎分为4个部分:下载系统、分析系统、索引系统、查询系统。还是老规矩,我简单总结为4个部分。

  

  一、下载系统

  下载系统其实就是我们所说的下载各种类型的页面。说到下载系统,爬虫系统肯定是少不了的。这部分主要讲他抓取页面的方式以及抓取策略的介绍。 ,我直接举个例子来说明。在下载系统中,根据域名对任务进行分解和抓取的工作由调度模块处理。通过域名分解,将不同的网页分派给不同的爬虫进行爬取。

  (1)调度器通过更新规则向URL请求URL爬取任务。

  (2)dispatcher 计算出 URL 并分配给 0 号爬虫进行爬取。

  (3)攀虫0实际抓取的网页保存在Page库中。

  (4)攀虫0从抓取到的网页中提取其他链接并反馈给调度员。

  (5)调度器判断网页类型,设置初始更新时间等,并存入URL库,然后继续传输(1),周和周。

  )

  开明网:如何做好seo优化排名? seo大师的常用技巧、方法和注意事项

  

  二、分析系统

  分析系统实际上是信息提取和网络信息结构化。你怎么理解这句话?实际上,蜘蛛会分析和处理抓取到的 URL 中的页面信息。在这部分,我们需要注意一个叫做标签树的东西。在这个过程中,需要一个标签分析栈。在这个过程中,其实就是提取代码块中的文本。这里我们举个例子:

  测试 1

  测试 2

  测试 3

  ...

  分析系统从stacking到unstacking后,只会提取test 1、test 2、test 3等文本信息。那么如何判断哪些是文本信息呢?这里需要使用投票的方式,根据不同的规则来得分。分数越高的文字部分,你是怎么理解的?例如,我们得到一个文本长度小于 10 个单词的文本块,得分为 0,10-50 个单词的得分为 5,以此类推。同理,文本块文本左边加5点,右边加0,中间加10。也就是说,得分越高,将被判定为文字,得分越低,将被判定为广告或无效信息。 ,那么百度在判断内容的时候,也是根据内容来判断的。

  说到分析,网页检查绝对是必不可少的。这也是决定页面是否为收录的关键因素。该部分的实现中使用最多的是l-Match算法和Shingle算法。

  这两种算法的区别在于前者通过排序去除高频和低频词汇得到字符串,使用签名算法得到字符串的签名。如果还有其他文档的签名值相同,则判断它们是相似的。

  后者采用瓦片抽取的方法,将一个文档转换为一组字符串(每个元素是一个Shingle),因此判断两个文档的相似度转化为字符串集合的相似度。 (我知道你不明白,我给你举个例子)

  开明网:如何做好seo优化排名? seo大师的常用技巧、方法和注意事项

  例如,这里有两段:

  第一段:中国足球队在米卢的带领下首次晋级世界杯决赛圈,新浪体育报道。

  第二段:搜狐体育报道,米卢首次率领中国队打进世界杯决赛圈

  l-Match 算法

  

  Shingle 算法

  

  一般来说,网页重复检查至少需要以下3个主要步骤:

  (1)特征提取

  (2)similarity计算,相似度评价。

  (3)消重

  PS:判断内容原创degree还是根据时间戳和爬虫爬取页面的顺序,也就是说爬虫先爬,时间早,基本判断是原创。

  到达这一步后,就会进行分词。其实市面上的分词软件很多,这里就不一一介绍了。分词基本上是基于字典分词和统计分词方法。我给你举个例子:

  进入搜索引擎

  分词后的最终实际结果是进入/搜索引擎,不要问为什么?

  这是一个公关模型,也就是我们常说的网络投票。从实际应用来看,我们需要对页面进行内链处理。

  开明网:如何做好seo优化排名? seo大师的常用技巧、方法和注意事项

  总结:

  

  三、索引系统

  索引系统是一个复杂的工作流程,涉及倒排索引、倒排表、临时倒排文件,最后是倒排文件。这里大概会讲一下系统是如何将每一页处理成单据编号的。然后通过一系列的计算形成一个正向表和一个倒置表。

  四、查询系统

  四个系统中,只有查询系统面向用户。对于信息的量化,我们需要知道“信息”(shang)的概念。另外,用户提交的是一个查询,但是对于搜索引擎来说,它需要处理一个搜索词。这部分将使用布尔搜索模型。举个例子:比如用户搜索引擎系统构成词,那么下面有3段:

  (1)传统搜索引擎架构中,搜索引擎由4个系统组成,分别是下载系统、分析系统、索引系统和查询系统。

  (2)在机械行业,小矿一般简称小矿。小矿由5个系统组成,它们是...,要详细了解这些术语,可以使用谷歌搜索引擎搜索。

  (3)搜索引擎有4个主要功能模块,分别是下载系统、分析系统、索引系统和查询系统。这4个系统是搜索引擎的核心,查询系统是搜索的唯一直接方面引擎到客户的系统。

  显然,用户在询问搜索引擎系统的组成,而百度则在搜索搜索引擎和系统组成。那么上面3页中的1、2就收录了这两个词,尤其是第一个,直观上讲,1比较相关,但是布尔检索模型只解决有问题和没有问题的问题,并没有解决问题有好有坏。

  所以我们必须引入一个向量空间模型。该模型计算文本的向量相似度。矢量化过程根据关键词 维度对文档进行矢量化。比如走进搜索引擎,了解搜索引擎。那么分词后的结果就是,走进(1),学习(1),搜索引擎(2))),那么这个词组的向量化计算就是(2,1,1).

  根据刚才的搜索结果,其实是搜索不到(3),所以需要经典的TF/IDF权重计算方法。(TF/IDF参考相关资料)

  那么页面是如何排序的?该算法通过计算文档向量与查询向量的夹角的余弦,得到向量相似度(一个可量化的值),并按照这个数的大小关系进行排序。

  由于搜索结果海量,用户几乎没有耐心阅读所有搜索结果。一项调查显示,大多数用户在使用搜索引擎查询时,在得到搜索结果页面后并不会翻页,而只会关注搜索结果的第一页。

  开明网:如何做好seo优化排名? seo大师的常用技巧、方法和注意事项

  总结:

  查询系统中所谓的页面排序,其实就是根据相关性、页面重要性等因素进行排序。这就是为什么有些人认为它是相同的文章,为什么其他人的页面排名高于您的页面。原因是其他人的页面被更频繁地投票。 (本页投票可以是外部投票也可以是内部投票)

  看完这两本书,印象很深。这两本书的含金量远高于其他SEO书籍。至少在我目前读过的书中,我找不到可以与这两本书相媲美的东西。向上。

  相信业内的从业者,除了采集和快排,书中的很多东西可能很多人都不是很了解或者不熟悉,所以如果你对这方面有兴趣,我建议你拿好看。至少可以避免被割韭菜,还可以变相提高知识。

  比如花几千去学TDK?就是说,花几千学了一个基础的东西,就让它掉下来,这个TM就是在割韭菜。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线