最好用国外网页视频抓取工具软件(6.搜索引擎大致由哪三个部分组成(搜索引擎)。)
优采云 发布时间: 2021-11-17 18:02最好用国外网页视频抓取工具软件(6.搜索引擎大致由哪三个部分组成(搜索引擎)。)
6. 搜索引擎大致由哪三部分组成()。多项选择题
6abc
7 美国广播公司
8 美国广播公司
9 abcd
10 bcd
11 美国广播公司
12 美国广播公司
13 abcd
9 不确定,可能是BCD
搜索引擎的三个组成部分是什么以及它们各自的功能。
一个搜索引擎一般由四部分组成:搜索器、索引器、搜索器和用户界面。
①搜索者:其功能是在互联网中漫游,查找和采集信息;
②索引器:它的作用是理解搜索器搜索到的信息,从中提取索引项,并用它来表示文档,生成文档库的索引表;
③检索器:其作用是根据用户查询快速检索索引库中的文档,进行相关性评估,对输出结果进行排序,根据用户查询需求合理反馈信息;
④用户界面:其功能是接受用户查询,展示查询结果,提供个性化的查询项目。
搜索引擎的组成部分是什么?
蜘蛛负责抓取网页信息。一般情况下,字切割器和分度器一起使用。他们负责对爬取的网页内容进行分词和自动索引,建立索引数据库。查询器根据用户的查询条件检索索引数据库,对检索到的结果进行排序和集合操作,如并集、交集等,然后提取简单的网页摘要信息反馈给查询用户。
谷歌搜索引擎在功能上也分为三个部分:网页抓取、图书馆索引和用户查询。网页爬虫主要负责网页的爬取。它由 URL 服务器、爬虫、存储、分析器和 URL 解析器组成。爬虫是这部分的核心;索引库主要负责分析网页内容和标记文档。引用和存储在数据库中,由索引器和分类器组成,该模块涉及到很多文件和数据,桶的操作是这部分的核心;用户查询主要负责分析用户输入的搜索表达式并匹配相关文档,将搜索结果返回给用户,由查询器和网页级评估器组成,
示例:SOPI搜索引擎系统的组成
SOPI是一个小型搜索引擎系统,功能类似于百度和GOOGLE。适用于中小型网站和企业信息搜索向用户展示服务。本网站中的所有内容均通过本系统自动获取。系统性能参数如下:
平台:1U兼容服务器,双至强2.8G,1G内存
索引库大小:5G
数据库:SqlServer2005
运行环境:Microsoft .NET Framework SDK v2.0
平均内存使用:600-900M
CPU使用率:10%-80%
文章和每日新增图片数量:100,000
搜索时间:5G内容搜索结果0.3-1秒
SOPI由五部分组成,分别是:信息采集系统(SpiderSystem)、信息分析系统(AnalysisSystem)、指标系统(IndexSystem)、管理系统(AdminSystem)、网站平台(WebSystem)、结构如下:
搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序会每隔一定时间自动启动并读取网址服务器上的网址列表(像谷歌一般是28天),根据深度优先或者广度优先算法,catch 取每个URL指定的网站,为爬取的网页分配一个唯一的文档ID(DocId),存储到文档数据库中。通常,在存储到文档数据库之前进行一定量的压缩。并将当前页面的所有超链接保存到URL服务器。抓取时,分词器和索引器对抓取的网页文档进行分词处理,并根据词在网页上出现的位置和频率计算权重,然后将分词结果存入索引数据库。整个爬取索引工作完成后,更新整个索引库和文档库,方便用户查询最新的网页信息。
搜索引擎的类型有哪些?
搜索引擎分类
搜索引擎按其工作方式可分为全文搜索引擎、搜索索引/目录和元搜索引擎三种。
■ 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎。国外的代表有谷歌、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度。它们都是基于从互联网上提取的每个网站的信息(主要是网页文本),检索出符合用户查询条件的相关记录,然后将结果返回给用户,所以它们是真正的搜索引擎。
从搜索结果的来源来看,全文搜索引擎可以细分为两种,一种是有自己的搜索程序(Indexer),俗称“蜘蛛”程序或“机器人”程序,另一种是自有搜索程序(Indexer)。内置网页数据库,搜索结果直接从自己的数据库中调用,比如上面提到的7个引擎;另一种是租用其他引擎的数据库,按照自定义格式排列搜索结果,比如Lycos引擎。
■ 目录索引
目录索引虽然有搜索功能,但严格意义上它并不是真正的搜索引擎,它只是一个按目录分类的网站链接列表。用户无需搜索关键词(Keywords),仅依靠分类目录即可找到自己需要的信息。最具代表性的目录索引是大名鼎鼎的雅虎。其他著名的还有开放目录计划(DMOZ)、LookSmart、About等,国内搜狐、新浪、网易搜索也属于这一类。
■ 元搜索引擎(META Search Engine)
当元搜索引擎接受用户的查询请求时,它会同时在多个其他引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表)。在中文元搜索引擎中,有一个搜索引擎叫星星。在搜索结果排列方面,有的直接按照源引擎排列搜索结果,比如Dogpile,也有的按照自己的规则重新排列组合结果,比如Vivisimo。
除了以上三类引擎外,还有以下几种非主流形式:
1、集成搜索引擎:如HotBot于2002年底推出的搜索引擎。该引擎与META搜索引擎类似,但不同的是它不是同时调用多个引擎进行搜索,用户从提供的四个引擎中进行选择,因此将其称为“集体”搜索引擎更为准确。
2、门户搜索引擎:AOL Search和MSN Search虽然提供搜索服务,但没有目录和网页数据库,搜索结果完全来自其他引擎。
3、Free For All Links (FFA):这类网站一般只是简单的滚动排列链接条目,少数分类简单,但规模比雅虎和其他目录索引要小得多。
由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将它们统称为搜索引擎。