输入关键字 抓取所有网页(【初中英语】Google搜索引擎的工作原理及使用方法汇总)

优采云 发布时间: 2022-03-27 14:12

  输入关键字 抓取所有网页(【初中英语】Google搜索引擎的工作原理及使用方法汇总)

  摘要:在网络时代,信息检索主要通过互联网搜索引擎进行。Internet 提供了多种不同的检索工具。用户最重要的是熟悉这些工具的性能,掌握检索技巧,提高检索的命中率。从搜索引擎的工作原理入手,介绍了谷歌搜索引擎的使用,包括关键词的选取以及逻辑检索、通配符检索等几种检索技术,可以获得更快、更更准确的结果。需要的信息。

  关键词:网络;谷歌; 搜索引擎; 信息检索

  CLC 编号:TP392 文件识别码:B

  文章号码:1004-373X(2010)02-093-03

  谷歌搜索引擎理论与应用

  李艳

  (西安繁易学院, 西安, 710105)

  摘要:在互联网时代,信息检索,主要是通过互联网搜索引擎来搜索信息。互联网为用户提供了种类繁多的搜索工具,最重要的是熟悉这些工具的表现,掌握搜索技巧,增加检索到的命中百分比。介绍了搜索引擎的工作原理和谷歌搜索引擎的使用方式,包括词的选择和几种搜索技术,如搜索逻辑、通配符搜索等,可以快速准确地获取所需信息.

  关键词:网络;谷歌;搜索引擎;信息检索

  0 前言

  随着信息技术的飞速发展,互联网已经渗透到人们生活的方方面面,改变着人们的生活方式和思维方式,促进了全球信息资源的共享。网络信息呈爆炸式增长,其资源几乎涵盖所有领域,已成为知识和信息的集合。目前全球有超过 100 亿个网页,每天都有数百万个新网页增加。电子信息像爆炸一样丰富。

  在互联网上浏览和搜索就像进入了世界上最大的图书馆,而这个图书馆里的书籍、杂志、广告、新闻和各种形式的文学信息都是排列不规则的,没有中央目录。整理这些信息。在如此浩瀚的海洋中寻找信息就像“大海捞针”。正因为互联网资源丰富、分散、无序,人们很难在互联网上找到自己需要的信息。这时,为了满足人们对信息检索的需求,搜索引擎应运而生。目前2.1亿网民使用搜索引擎的比例为72.4%,即1.52亿人受益于搜索引擎,净增30 .

  1 搜索引擎的工作原理

  搜索引擎是指在WWW(万维网)环境下,能够响应用户提交的搜索请求并返回相应查询结果信息的技术和系统。工具 [2]。它包括信息采集、信息整理和用户查询三个部分。

  常见的搜索引擎有谷歌、百度、雅虎、搜狐等。搜索引擎的工作原理可以简单概括为:从互联网上抓取网页,建立索引库,在索引库中搜索排序[3 ]。

  1.1 从互联网上抓取网页

  使用Spider系统程序,可以自动从互联网采集网页,自动访问互联网并沿着任何网页中的所有URL(Uniform Resource Locators)爬到其他网页,重复这个过程,采集所有被访问的网页。爬行。

  1.2 建立索引数据库

  分析索引系统程序对采集到的网页进行分析,提取相关网页信息(包括网页所在的URL、编码类型、页面内容中收录的关键词、关键词位置、生成时间、大小等信息)网页链接关系等),根据一定的相关性算法进行大量复杂的计算,得到每个网页对于每个关键词中的相关性(或重要性)页面内容和超链接,然后利用这些相关信息构建网页索引数据库。

  1.3 在索引数据库中搜索排序

  当用户输入搜索关键词时,搜索系统程序会从网页索引数据库中查找与关键词匹配的所有相关网页。由于关键词的所有相关网页的相关性都已经计算过了,只需要根据已有的相关性值进行排序即可。相关性越高,排名越高。最后,页面生成系统将搜索结果的链接地址和页面内容摘要整理后返回给用户。

  2 谷歌搜索引擎

  1990年以前,没有人能够实现上网搜索的功能。1994年4月,雅虎超级目录索引成功使搜索引擎的概念深入人心。从此,搜索引擎进入了高速发展时期。1998 年 9 月,斯坦福大学的两名博士生拉里·佩奇 (Larry Page) 和谢尔盖·布林 (Sergey Brin) 开发了现在世界上最大的搜索引擎 Google。Google Inc. 成立于 1999 年。通过管理超过 20 亿个网页,Google 可以在 0.5 秒内为全球用户提供正确的搜索结果。现在,谷歌每天需要为全球用户提供1.5亿的查询服务[4]。

  Google 的成功得益于其强大的功能和独特的功能。目前各大引擎都在竞相模仿谷歌的功能和特性,比如网页快照、偏好等。谷歌已经成为许多搜索引擎的“领导者”[5]。谷歌不是中国本土公司,但支持中文搜索。其中文搜索引擎是亚洲采集网站最多的搜索引擎之一。在中国使用其独立搜索引擎的人数正在迅速增长。

  2.1 关键词 的选择

  Google 搜索中使用的 关键词 可以是单词、单词、短语、短语或句子。用谷歌搜索很简单,只要在搜索框中输入关键词,然后点击下方的“谷歌搜索”按钮(或者直接回车),结果就会出来。单个关键词搜索获取的信息量巨大,会带出大量无关信息。通常,单词用作 关键词 进行检索。

  对于复杂的主题检索,应在主题分析后进行正确的选词。使用谷歌不同的关键词选择会决定检索结果排列方式不同,选词不准确,无法发挥谷歌强大的检索功能,影响检索效率[6]。

  如果要检索学术信息,尤其是科技信息,建议选择关键词时注意以下几点:

  2.1.1 选择特定的词

  关键词特异性是影响准确率的重要因素之一。如果选择了特异性强的关键词,则检测到的网站的针对性更强,准确率更高。更高。选择反映重要研究成果的词,例如查找有关“网络搜索工具的历史”的信息,选择词时使用“搜索引擎”一词,准确率会高于“搜索工具”一词。

  2.1.2 多角度选词

  关键词 的确定必须基于对搜索主题的适当分析。对于复杂的主题关键词,应提取反映该主题所有主要方面的词汇,以提高文献的召回率[7]。例如,查找“搜索引擎发展史”,因为搜索引擎的历史与互联网早期的文档检索工具“Archie”有关。此外,搜索引擎还有一个核心程序叫“蜘蛛”,最早形成的搜索引擎是“Lycos”,“雅虎”是优秀搜索引擎的代表。因此,除了选择“Search Engine”和“History”,还要选择“Archie”、“Spider”、“Lycos”、“Yahoo”等词,

  2.1.3 选择限制主题的词

  关键词确定后,使用检索技术并不能保证检索到的信息令人满意,有时查询结果太多太笼统。由于 Google 只搜索收录 关键词 的网页,因此除了添加 关键词 表示主题外,还可以添加限制词作为 关键词 以排除冗余信息。例如:输入“红旗_汽车”会找到关于红旗但不收录“汽车”的网页[8]。

  2.2 检索技能

  为了充分、准确地表达检索需求,提高检索的准确性,在正确选择关键词之后,还需要理解和应用各种谷歌检索语法和技术。

  2.2.1 逻辑搜索

  Google 使用空格进行逻辑“与”操作,使用减号“-”进行逻辑“否”操作。“A_B”是指搜索收录A但不收录B的网页(如上面的“红旗_汽车”示例)。Google 使用大写的“OR”来表示逻辑“或”运算。搜索“A OR B”是指在搜索到的网页中,A、B或A和B都存在。

  2.2.2 通配符搜索

  许多搜索引擎都支持通配符,例如“*”代表一系列字符,“?” 对于单个字符等。为了提供最准确的信息,Google 不使用“词干”,也不支持“通配符”(*) 搜索 [9]。也就是说,Google 只会搜索与输入完全一致的 关键词 字词。例如:搜索“googl”或“googl*”将不会返回“googler”或“googlin”之类的结果。

  2.2.3 词组检索

  Google 的 关键词 可以是单词或短语。使用短语作为关键字时,必须加英文双引号,否则空格会被用作“与”运算符。双引号中的单词(如“自然与文化遗产”)会在查询的文档中作为一个整体出现。这种方法在查找名言或专有名词时特别有用。

  2.2.4 个字符被搜索引擎忽略并强制搜索

  谷歌对互联网上出现频率非常高的单词或一些英文单词没有意义,如“i”、“com”、“www”、“的”等,以及“*”等一些符号, “.”等,做忽略处理。如果要强制搜索被忽略的关键字,则需要在关键字前添加明文“+”号。另一种强制搜索的方法是将上述关键字用英文双引号括起来。例如,检索“互联网上www的历史”,检索公式为:+www+互联网历史。再比如,在“History of www”中,“de”实际上是一个被忽略的词,但是因为被英文双引号包围,所以搜索引擎被迫搜索这个特定的词组。笔记:

  2.2.5 使用元词搜索

  大多数搜索引擎都支持“元词”功能。用户可以把元词放在关键词前面,告诉搜索引擎你要检索的内容的具体特征是什么[10]。例如,在搜索引擎中输入“标题:清华大学”,可以在网页标题中找到带有清华大学的网页。其他元词包括:图像,用于检索图片;链接,用于检索链接到选定 网站 的页面;URL,用于检索地址中带有特定 关键词 的网页。

  要完成有效的检索,首先要确定要检索的主题,选择合适的检索工具,提取合适的关键词。为了避免搜索结果可能出现的冗余,需要尽可能限制查询范围,正确构造检索公式。同时,应利用逻辑条件限制和模糊或精确查询功能,确保能够真正检索到所需的网络信息资源。

  3 结论

  互联网提供了多种不同的检索工具,每一种都有自己的数据库、语言、检索功能和显示方式。用户最重要的是熟悉这些工具的性能,掌握检索技巧,提高检索命中率[11]。总之,只要掌握一定的方法和技巧,并经常练习,就可以利用搜索引擎从网上获取大量有价值的信息。

  综上所述,搜索引擎在不断扩大覆盖范围的同时,也在向个性化、智能化、专业化、多媒体化、多语言搜索和实用模糊检索方向发展,取得了长足的进步,但还需要进一步的完善和细化。不断采用新技术和新策略,让搜索更方便、更快捷、更准确是搜索引擎的发展方向。

  参考

  [1] 梁斌. 进入搜索引擎[M]。北京:电子工业出版社,2007.

  [2] 吴泽新. 搜索引擎优化导论与进阶[M].北京:人民邮电出版社,2008.

  [3] 陆良. 搜索引擎原理、实践与应用[M]. 北京:电子工业出版社,2007.

  [4] 西蒙斯·罗。世界最强搜索引擎谷歌[M]. 上海:上海财经大学出版社,2007.

  [5] 顾权.中文搜索引擎比较研究[D].苏州:苏州大学,2006.

  [6] 陈刚. 搜索引擎优化集[M].北京:清华大学出版社,2009.

  [7] 林忠. 关键词谷歌搜索引擎检索[J]. 中国信息导报, 2003 (3):110-112.

  [8] 周元兴.谷歌介绍与实例教程[M].北京:电子工业出版社,2007.

  [9] 张媛媛. 基于用户兴趣的个性化搜索引擎分析研究[D].秦皇岛:燕山大学,2006.

  [10] 王涛. 基于行业的个性化搜索引擎应用[D]. 北京:华北理工大学,2008.

  [11] 万胜林,王祖荣.搜索引擎的类型及其功能分析[J]. 中国信息导报, 2003 (5):123-124.

  关于作者 李艳女,1980年出生,陕西西安人,助教。主要从事计算机教学和研究工作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线