seo优化搜索引擎工作原理(诺亚SEO教程分享继续,干货多多的!(组图))
优采云 发布时间: 2022-02-25 08:01seo优化搜索引擎工作原理(诺亚SEO教程分享继续,干货多多的!(组图))
诺亚SEO教程分享继续,干货多多!
一、搜索引擎如何抓取网页?
搜索引擎有一个称为机器人或蜘蛛的程序。这种程序通过网页上的超链接进入另一个网页,从而发现更多的网页。因此,每个网页都是一个点,网页和网页依靠超链接组成一个网络,所以在网页上爬行的程序称为蜘蛛(spider),非常贴切。
二、搜索引擎是如何工作的?
1、 爬网
每个独立的搜索引擎都有自己的网络爬虫(蜘蛛)。蜘蛛跟随网页中的超链接,不断地爬取网页。抓取的网页称为网页快照。
2、处理网页
搜索引擎抓取网页后,需要提取关键词并创建索引文件。它还包括去除重复网页、分词(中文)、判断网页类型、分析超链接以及计算网页的重要性/丰富度。
3、提供检索服务
用户输入关键词进行检索,搜索引擎从索引库中找到与关键词匹配的网页;为方便用户,除网页标题和网址外,还将提供网页摘要等信息。
三、分词和索引
搜索引擎爬取了一个网站之后,接下来要做的就是将网页中的单词分离到索引库中。此时将应用分词。所谓分词其实很简单,就是用来分隔单词。
英文分词比较容易处理,因为英文中的每个词都用空格隔开,基本上只有一些虚词、介词,还有一些词的单复数、屈折词等。但是中文分词要复杂得多。一个句子中的每一个词都是联系在一起的。有时即使是由人来判断,仍然存在歧义。中文分词的方法很多,比较容易理解,比如正向切分法、反向切分法等,网上有很多相关资料。