华南理工大学网页设计培训中心官方网站:什么是搜索引擎
优采云 发布时间: 2021-05-26 07:22华南理工大学网页设计培训中心官方网站:什么是搜索引擎
作者:华南理工大学官方Web设计培训中心网站:第1章:基本搜索引擎第1节:什么是搜索引擎? 1. 1. 1.如果您必须列出搜索引擎的角色,搜索引擎可以做什么,恐怕没人能给出完整的答案。当前网站的大多数用户都是通过搜索引擎输入的。如果用户想购买产品,但不知道要购买哪个在线商店,则将进行搜索。我们的搜索引擎是为了满足用户。这些需求。众所周知,互联网上存在大量垃圾邮件,我们搜索引擎的作用是在页面前面对效果较好的网站和高质量的网站进行排名,以便用户可以快速通过引擎找到了它们的东西,这应该是引擎的功能。 1. 1. 2.搜索引擎的定义很难定义搜索引擎。有人认为搜索引擎是百度,有人认为搜索引擎是谷歌,有人认为搜索引擎是雅虎。让我们看一下Microsoft百科全书(MSNEncarta)如何定义搜索引擎:所谓的搜索引擎(Search Engines)是可以主动搜索信息(搜索网页上的单词和简短的特定内容描述)的引擎,以及自动搜索信息的引擎。索引Web 网站,其索引内容存储在可供检索的大型数据库中,并建立了索引和目录服务。它是网站,可为您提供信息“检索”服务。它使用某些程序对Internet上的所有信息进行分类,以帮助人们在广阔的网络中找到所需的信息。
第2部分:搜索引擎的工作原理1. 2. 1搜索蜘蛛和机器人。搜索引擎需要派人去采集Internet上的新事物。每天都会产生新的。网站内容有更新,网站的生成量和网站的更新内容具有爆炸性。不可能手动完成此任务。因此,搜索引擎的发明者设计了一个计算机程序并发送给他们。检测器有很多名称,也称为“爬行器”,“蜘蛛”和“机器人”。这些图像的名称是为了描述由搜索引擎在互联网上爬行以检测新信息而发送的蜘蛛机器人。谷歌称其检测器为Googlebot,百度称其为Baiduspider,雅虎称其为Slurp。不管他们叫什么,他们都是人。编译的计算机程序允许他们日夜访问网站,检索网站的内容,标签,图片等,然后根据搜索引擎的算法为其自定义索引。网络蜘蛛通过网页的链接地址搜索网页。从网站中的某个页面(通常是主页)开始,读取网页的内容,在网页中找到其他链接地址,然后通过这些链接地址找到下一个网页。这一直循环直到此网站的所有网页都已被爬网。如果将整个Internet视为网站,则网络蜘蛛可以使用此原理来爬网Internet上的所有网页。
对这些网页进行爬网之后,分析索引系统程序分析采集的网页并提取相关的网页信息(包括网页的URL,编码类型以及页面内容中收录的所有关键词和关键词位置) ,生成时间,大小,与其他网页的链接关系等),根据某种相关性算法,以及页面文本中每个关键词的每个网页的相关性(或重要性),都会执行大量复杂的计算和超链接),然后使用这些相关信息来构建网络索引数据库。建立Web索引数据库后,当用户输入关键词进行搜索时,搜索系统程序将从Web索引数据库中找到与关键词匹配的所有相关网页。因为已经计算了所有与此关键词相关的网页的相关性,所以仅需要根据现有的相关性值对它们进行排序。相关性越高,排名越高。最后,搜索者组织搜索结果的链接地址和页面的内容摘要,并将其返回给用户。 1. 2. 2.如何识别搜索引擎机器人的身份搜索引擎将其搜索机器人发送给其访问并为网站的内容建立索引,并且网站管理员还默认并欢迎他们访问。但是,由于搜索引擎将使机器人进行访问会在一定程度上影响网站的性能,因此并非所有的机器人都是无害的。一些非法的机器人装扮成主流的搜索引擎机器人,它们经过大量的网站而没有遵循。robots.txt规范会严重降低网站的性能,而没有其他好处。因此,网站管理员需要验证每个机器人的身份是否合法。
在服务器日志文件中,您可以看到每次访问的路径和相应的IP地址。如果是机器人访问,则用户代理将显示搜索引擎机器人的名称,例如Googlebot或MSNBot。每个搜索引擎都有自己的用户代理,但这还不足以证明该机器人的合法性,因为许多垃圾邮件发送者也可能将其机器人命名为Googlebot,变相输入网站并挖掘内容。目前,主流搜索引擎建议网站管理员使用此方法来识别真实的机器人身份:通过DNS反向查询找出与搜索引擎机器人的IP地址相对应的主机名;使用主机名查找IP地址以确认主机。名称与IP地址匹配。首先,使用反向DNS查找来查找与机器人IP地址相对应的主机名Yahoo:该主机名应包括在域名中,例如:。最后,执行DNS查询,并使用主机名查找IP地址(转发DNS查找)以确认主机名与IP地址匹配。这证明该机器人是合法的。现在,如果您发现一个伪装成合法搜索引擎机器人的机器人,则可以通过服务器上的设置来阻止非法机器人。
第3节:SiteMap简介1. 3. 1.什么是SiteMap Sitemaps协议使您可以将可进行爬网的URL通知搜索引擎网站。最简单的方法是使Sitemaps协议的Sitemap成为一个XML文件,该XML文件列出某个网站的所有URL。该协议可以高度扩展,因此可以应用于各种大小网站。它还使网站管理员能够提供有关每个URL的其他信息(上次更新时间,更改频率,与网站中其他URL相比的重要性等),以便搜索引擎可以更聪明地抓住网站 。当用户无法通过可浏览的界面访问网站的所有区域时,站点地图特别有用。 (通常,它是指用户无法通过跟踪链接访问网站的特定页面或区域。)例如,那些只能通过搜索表单访问某些页面的网站将创建站点地图并将其提交给搜索引擎。 。该文件说明了Sitemaps文件的格式,并说明了在何处发布Sitemaps文件,以便搜索引擎可以检索到它。请注意,Sitemaps协议是对搜索引擎用来发现URL的基于爬网的机制的补充而不是替代。通过向搜索引擎提交一个Sitemap(或多个Sitemap),它可以帮助搜索引擎更好地抓取您的网络。即使Google和Yahoo 收录已经使用过Google和Yahoo 收录,仍然有必要使用SiteMap。为什么?主要原因有两个:SiteMap帮助搜索引擎使网站与收录更加友好。不要让网站的收录出现漏洞,或者收录不完整。
有了SiteMap,它可以在这方面起到很好的作用。将SiteMap提交到搜索引擎后,以后可以方便您进行下一步,例如更好地调整网站的外部链接和内部链接错误,这些都使用SiteMap的提交功能。因此,不能忽略SiteMap的整个角色。如果网站处于以下情况,则使用SiteMap将特别有用:网站有些页面不容易找到,例如收录很多AJAX Flash内容的页面。 网站上页面的相对重要性。如果您的网站遇到上述情况,则需要创建一个SiteMap 1. 3. 2. Sitemap文件的位置Sitemap文件的位置确定了可收录在URL中的URL集。网站地图。站点地图中的文件可以收录任何以开头的URL,但不能收录以开头的URL。如果您有权更改,则还应该能够提供有关带有前缀的URL的信息。被认为有效的URL的示例包括:; user = 3453被认为无效的URL包括:; user = 3453被认为无效的URL。
强烈建议将Sitemaps放置在Web服务器的根目录中。例如,如果Web服务器位于,则Sitemap索引文件应位于。在某些情况下,您需要为不同的路径创建相应的站点地图,例如,如果在您的组织中,安全权限对应于不同的目录以划分上传权限。 1. 3. 3. XML Sitemaps格式Sitemaps协议格式由XML标签组成。 Sitemap中的所有数据值都应转义为实体。文件本身应为UTF-8编码。以下是仅收录一个URL并使用所有可选标记的Sitemap的示例。可选标记用斜体表示。 urlsetxmlns =“”>优先级> 0. 8
站点地图以开始标记开始,以结束标记结束。每个URL都收录一个条目作为父标记。每个父标签都收录一个子标签条目。 XML标签定义下面描述了可用的XML标签。必需的。封装此文件并提供当前协议标准作为参考。必需每个URL条目都有一个父标记。其余标签是此标签的子标签。必填页面的URL。如果您的Web服务器需要URL,则URL应以协议开头(例如:http),并以斜杠结尾。此值应少于2048个字符。可选文件的上次修改日期。该日期应为W3C日期时间格式。如果需要,此格式允许省略时间部分,并且仅使用YYYY-MM-DD。可选页面的更改频率。此值是搜索引擎提供的一般信息,可能与搜索引擎抓取页面的频率不完全相关。有效值是:从不应该使用值``始终''来描述每次访问时都会更改的文档。值“从不”应用于描述存档的URL。请注意,此标记的值被视为提示而不是命令。尽管搜索引擎爬网程序在做出决定时会考虑此信息,但标记为“每小时”的页面的爬网频率可能少于每小时一次,标记为“每年”的页面的爬网频率可能比每年一次更高。抓取者还可以定期抓取标记为“从不”的页面,以便他们可以处理对这些页面的意外更改。
可选该URL的优先级与网站上其他URL的优先级相关。有效范围为0. 0 1. 0。此值不会影响您的网页与网站上的其他网页之间的比较。它只是告诉搜索引擎您认为哪个网页最重要,这样就可以按照您喜欢的方式对搜索引擎的网页进行排序。网页的默认优先级为0. 5。请注意,您为页面指定的优先级不会影响您的URL在搜索引擎结果页面上的排名。在同一网站中的不同URL之间进行选择时,搜索引擎会使用此信息,因此您可以使用此标记来增加相对重要的URL出现在搜索索引中的可能性。另外,请注意,为网站中的所有URL分配高优先级不会带来任何好处。由于优先级是相互关联的,因此只能用于在您自己的网站网页之间进行选择;您网页的优先级将不会与其他网站页的优先级进行比较。实体转义我们要求您的Sitemap文件采用UTF-8编码(通常可以在保存文件时完成)。对于所有XML文件,任何数据值(包括URL)都应为下表中列出的字符使用实体转义码。字符转义代码和单引号“双引号”大于>小于,则所有URL(包括您的站点地图URL)都应进行编码,以便它们可以被转义URL的Web服务器定位和识别。您使用任何脚本,工具或日志文件生成URL(手动输入以外的任何方法),通常这部分已经为您完成。如果您提交错误消息,表明Sitemaps Google找不到某些URL,请检查并确保您的网址遵循RFC-3986 URI标准,RFC-3987IRI标准和XML标准。以下是使用非ASCII字符()和需要实体转义(&)的URL的示例:以下是ISO-编码为8859-1(用于在使用此编码的服务器上托管),并使用与该URL相同的URL进行转义:%FCmlat.html&q = name以下是采用UTF-8编码的相同URL(用于在使用以下编码的服务器上托管)此编码),然后转义网址:%C3%BCmlat.html&q = name以下是与转义的实体相同的URL:%C3%BCmlat.html&q = name XML Sitemaps示例以下示例显示XML格式的Sitemap。该示例中的Sitemaps收录几个URL,每个URL均由XML标记标识。在此示例中,为每个URL提供了一组不同的可选参数。 2005-01-01每月
0. 8