输入关键字 抓取所有网页(搜索对seo的基本原理三大阶段:排序、索引、抓取)
优采云 发布时间: 2021-12-20 19:20输入关键字 抓取所有网页(搜索对seo的基本原理三大阶段:排序、索引、抓取)
搜索引擎优化的基本原则是三个阶段:排序、索引和爬行。SEO搜索引擎的工作原理非常复杂,我们从几个方面来介绍。
一、获取
搜索引擎会抛出一种叫做“机器人、蜘蛛”的软件,按照一定的规则扫描互联网上的网站,并按照网页的链接从一个页面到另一个页面,从一个网站去另一个网站获取页面的HTML代码并存入数据库。为了采集获取最新信息,我们会继续访问已爬取的网页。
二、索引
分析索引系统程序对采集的网页进行分析,提取相关网页信息,并按照一定的关联算法进行大量复杂的计算,得到每个网页相对于页面文本中每个关键词的相关性和超链接度,然后利用这些相关信息来构建网页索引数据库。
三、排序
当用户输入关键词进行搜索时,搜索系统程序会从网页索引数据库中查找所有与关键词匹配的相关网页。因为这个关键词的所有相关网页的相关度已经计算出来了,所以只需要按照已有的相关度值进行排序即可。相关性越高,排名越高。最后还给了用户。
搜索引擎的工作原理大致分为三个步骤:爬行和爬行-索引-排序。
爬行:主要是数据采集。
索引/预处理:提取文本-中文分词-去除停用词-去除噪音-去除重复-索引。
排序:搜索词处理-匹配文件-初始子集选择-相关性计算-过滤、调整-排名显示。