搜索引擎(SearchEngine)的基本工作原理及基本原理
优采云 发布时间: 2021-03-28 20:08搜索引擎(SearchEngine)的基本工作原理及基本原理
搜索引擎是指在组织和处理信息之后,根据某些策略并使用特定的计算机程序从Internet采集信息。一种为用户提供搜索服务并向用户显示有关用户搜索的相关信息的系统。
一、搜索引擎如何工作
搜索引擎的基本工作原理包括以下三个过程:首先在Internet上发现并采集网页信息;然后提取并整理信息以建立索引库;最后,搜索者将根据用户输入的查询关键词为搜索关键词建立索引。快速检查库中的文档,评估文档和查询的相关性,对要输出的结果进行排序,然后将查询结果返回给用户。
1.抓取网页
每个独立的搜索引擎都有自己的网络采集器蜘蛛。爬网程序会跟踪网页中的超链接,从此网站爬网至另一个网站,然后通过超链接分析不断访问并获取更多网页。爬网的网页称为网页快照。由于超链接在Internet中的应用非常普遍,因此从理论上讲,从一定范围的网页开始,可以采集绝大多数网页。
2.正在处理网页
搜索引擎捕获网页后,仍需要做大量预处理工作才能提供检索服务。其中,最重要的是提取关键词,建立索引库和索引。其他包括删除重复的网页,分词(中文),判断网页类型,分析超链接以及计算网页的重要性/丰富度。
3.提供检索服务
用户输入关键词进行搜索,搜索引擎从索引数据库中找到与关键词匹配的网页;为了方便用户,除页面标题和URL外,还将提供页面摘要和其他信息。
二、国内搜索引擎
搜索引擎包括四个部分:搜索器,索引器,搜索器和用户界面。搜索器的功能是漫游Internet,查找和采集信息。索引器的功能是了解搜索者搜索到的信息,从中提取索引项,并用其表示文档并生成文档库的索引表。检索器的功能是根据用户查询在索引数据库中快速签出文档,评估文档和查询的相关性,对输出结果进行排序,并实现一定的用户相关性反馈机制。用户界面的作用是输入用户查询,显示查询结果并提供用户相关性反馈机制。
目前,常用的搜索引擎包括百度,36 0、搜狗,神马,头条等。