网页搜索引擎优化(微软大百科全书(MSNEncarta)是怎么定义出来的?(组图))
优采云 发布时间: 2021-09-06 16:20网页搜索引擎优化(微软大百科全书(MSNEncarta)是怎么定义出来的?(组图))
作者:华南理工大学官网设计培训中心网站:第一章:基本搜索引擎第一节:什么是搜索引擎1.1.1.搜索引擎功能如果你有列举一下搜索引擎能做什么,恐怕没有人能给出完整的答案。目前大多数网站 用户是通过搜索引擎进入的。如果用户想要购买产品,他不知道该购买哪个在线商店,他会搜索。我们的搜索引擎是为了让用户满意。这些需要。我们都知道现在网络上垃圾邮件很多,我们搜索引擎的作用就是把更好的网站和优质的网站排在页面前面,让用户快速通过引擎找到了他们的东西,这应该是引擎的功能。 1.1.2.搜索引擎定义很难定义一个搜索引擎。有些人认为搜索引擎是百度,有些人认为搜索引擎是谷歌,有些人认为搜索引擎是雅虎。我们来看看微软百科全书(MSNEncarta)是如何定义搜索引擎的:所谓的搜索引擎(Search Engines)就是那些能够主动搜索信息(搜索网页上的词和简短的具体内容描述)并自动进行搜索的引擎。 indexed Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。是一个为您提供信息“检索”服务的网站。它利用一定的程序对互联网上的所有信息进行分类,帮助人们在茫茫网海中找到自己需要的信息。
第 2 部分:搜索引擎的工作原理 1.2.1 探索蜘蛛和机器人。搜索引擎需要派人去采集互联网上的新事物。每天都会产生新的网站。网站内容更新,网站和更新的网站内容爆炸式增长。手动完成此任务是不可能的。因此,搜索引擎的发明者设计了一个计算机程序并派他们执行这项任务。检测器有很多名称,也称为爬虫、蜘蛛和机器人。这些图像的名称是描绘搜索引擎发送的蜘蛛机器人在互联网上爬行以检测新信息。谷歌称其检测器为 Googlebot,百度称其为百度蜘蛛,雅虎称其为 Slurp。不管他们叫什么,他们都是人。编译好的电脑程序让他们日夜访问每一个网站,检索网站的内容、标签、图片等,然后根据搜索引擎的算法为他们定制索引。网络蜘蛛通过网页的链接地址查找网页。从某个页面网站(通常是首页)开始,阅读网页内容,找到网页中的其他链接地址,然后通过这些链接地址找到下一个网页。这会一直循环,直到这个网站 的所有网页都被抓取。如果把整个互联网看作一个网站,那么网络蜘蛛就可以利用这个原理来抓取互联网上的所有网页。
分析索引系统程序抓取这些网页后,对采集到的网页进行分析,提取相关网页信息(包括网页的网址、编码类型,以及页面内容中收录的所有关键词、关键词位置),生成时间、大小、与其他网页的链接关系等),根据一定的相关性算法进行大量复杂的计算,将相关性(或每个关键词在页面文本和每个超链接中的重要性)网页获取) ),然后利用这些相关信息建立网页索引数据库。网页索引库建立后,当用户输入关键词搜索时,搜索系统程序会从网页索引库中找到与关键词匹配的所有相关网页。因为这个关键词的所有相关网页的相关度已经计算出来了,所以只需要按照已有的相关度值进行排序即可。相关性越高,排名越高。最后,搜索者整理搜索结果的链接地址和页面的内容摘要,返回给用户。 1.2.2. 如何识别搜索引擎机器人的身份 搜索引擎派自己的搜索机器人访问并索引网站内容。 网站管理员也默认,欢迎访问。但是由于搜索引擎派机器人访问会在一定程度上影响网站的性能,并不是所有的机器人都是无害的。一些非法机器人冒充主流搜索引擎机器人大量遍历网站,不遵循robots.txt规范,会严重拖慢网站性能,没有其他好处。所以网站administrators 需要验证每个机器人的身份是否合法。
在您的服务器日志文件中,您可以看到每次访问的路径和对应的 IP 地址。如果是机器人访问,user-agent 会显示搜索引擎机器人的名称,例如 Googlebot 或 MSNBot。每个搜索引擎都有自己的用户代理,但这还不足以证明这个机器人的合法性,因为很多垃圾邮件发送者还可能将自己的机器人命名为Googlebot,变相输入网站进行欺骗,疯狂挖掘内容。目前主流搜索引擎推荐网站管理员使用这种方式识别真实机器人身份:通过DNS反向查询,找出搜索引擎机器人IP地址对应的主机名;使用主机名查找IP地址,确认主机名与IP地址匹配。首先使用Reverse DNS Lookup,找出机器人IP地址对应的主机名Yahoo:主机名应该收录在域名中,例如:。最后做一个DNS查询,使用主机名查找IP地址(Forward DNS Lookup),确认主机名与IP地址匹配。这证明机器人是合法的。现在,如果您发现机器人冒充合法的搜索引擎机器人,您可以通过服务器上的设置阻止非法机器人。
第三部分:SiteMap 简介1.3.1. 什么是SiteMap Sitemaps 协议使您可以将网站 中可供抓取的URL 告知搜索引擎。最简单的方法是将 Sitemaps 协议的 Sitemap 做成一个 XML 文件,其中列出了某个 网站 的所有 URL。该协议具有高度可扩展性,因此可以应用于各种大小的网站。它还可以让网站administrators 提供每个URL 的附加信息(上次更新时间、更改频率、与网站中其他URL 相比的重要性等),以便搜索引擎可以更聪明地抓住网站 当用户无法通过可浏览界面访问网站 的所有区域时,站点地图尤其有用。 (通常是指用户无法通过跟踪链接访问网站的特定页面或区域。)例如,那些只能通过搜索表单访问部分页面的网站会创建Sitemaps并提交他们对搜索引擎的好处。该文件说明了站点地图文件的格式,并说明了站点地图文件的发布位置,以便搜索引擎可以检索到它。请注意,站点地图协议是对搜索引擎用于发现 URL 的基于爬网的机制的补充而不是替代。通过向搜索引擎提交一个站点地图(或多个站点地图),它可以帮助搜索引擎更好地抓取您的网络。即使谷歌和雅虎收录已经获得谷歌和雅虎收录的认可,仍然需要使用SiteMap。为什么?主要有两个原因:SiteMap有助于搜索引擎对网站收录更加友好,不要让网站的收录有漏洞或者收录不完整。
有了SiteMap,就可以在这方面起到很好的作用。 SiteMap提交到搜索引擎后,方便您进行下一步的操作,例如更好地调整网站的外链、内链错误等。这些都用到了SiteMap的提交功能。因此,SiteMap 的整个作用不容忽视。如果你的网站属于以下情况,那么使用SiteMap会特别有用:网站有不容易找到的页面,比如大量的AJAX Flash内容丰富的页面。 网站 上每个页面的相对重要性。如果你的网站有上述情况,那么你需要创建一个SiteMap 1.3.2.Sitemaps 文件的位置 Sitemap文件的位置决定了可以收录在站点地图。位于站点地图中的文件可以收录以 开头的任何 URL,但不能收录以 开头的 URL。如果您有权更改,您还应该能够提供有关以 为前缀的 URL 的信息。被视为有效的 URL 示例包括: 被视为无效的 URL 包括:被视为无效的 URL 将不被考虑。
强烈建议将站点地图放置在 Web 服务器的根目录中。例如,如果 Web 服务器位于 ,则站点地图索引文件应位于。在某些情况下,您需要为不同的路径创建相应的 Sitemap,例如,如果在您的组织中,安全权限对应不同的目录来划分上传权限。 1.3.3.XML 站点地图格式站点地图协议格式由 XML 标签组成。 Sitemap 中的所有数据值都应该是实体转义的。文件本身应该是 UTF-8 编码的。以下是仅收录一个 URL 并使用所有可选标记的站点地图示例。可选标记为斜体。 urlsetxmlns="">优先级>0.8
站点地图以开始标记开始,以结束标记结束。每个 URL 都收录一个条目作为父标记。每个父标签都收录一个子标签条目。 XML 标签定义 下面描述了可用的 XML 标签。必需的。封装这个文件,提供当前的协议标准作为参考。必需 每个 URL 条目都有一个父标记。其余标签是该标签的子标签。必需 页面的 URL。如果您的 Web 服务器需要 URL,则 URL 应以协议开头(例如:http)并以斜杠结尾。此值应少于 2048 个字符。可选 上次修改文件的日期。此日期应采用 W3C 日期时间格式。如果需要,此格式允许省略时间部分并且仅使用 YYYY-MM-DD。可选 页面可能更改的频率。该值是搜索引擎提供的一般信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为: never 值“always”应该用于描述每次访问时都会更改的文档。值“从不”应该用于描述存档的 URL。请注意,此标记的值被视为提示而不是命令。虽然搜索引擎爬虫在做出决定时会考虑这些信息,但它们对标记为“每小时”的页面的抓取频率可能低于每小时一次,而标记为“每年”的页面可能会比每年抓取一次的频率更高。抓取工具还可能会定期抓取标记为“从不”的页面,以便处理对这些页面的意外更改。
可选 这个网址的优先级和你网站上其他网址的优先级有关。有效值范围从0.0 1.0。这个值不会影响你的网页和其他网站网页的对比,只是告诉搜索引擎你认为哪个网页最重要,这样他们对你网页的抓取就可以按照你喜欢的方式排序。网页的默认优先级为0.5。请注意,您为页面指定的优先级不会影响您的 URL 在搜索引擎结果页面上的排名。搜索引擎在同一网站的不同网址之间进行选择时会使用此信息,因此您可以使用此标签来增加相对重要的网址出现在搜索索引中的可能性。另外请注意,为网站 中的所有 URL 分配高优先级对您没有任何好处。因为优先级是相互关联的,所以只用于在自己的网站网页之间进行选择;您的网页的优先级不会与其他网站 页面的优先级进行比较。实体转义 我们要求您的站点地图文件采用 UTF-8 编码(通常可以在保存文件时完成)。对于所有 XML 文件,任何数据值(包括 URL)都应为下表中列出的字符使用实体转义码。字符转义码和单引号“双引号”大于> 小于,所有 URL(包括您的站点地图 URL)都应进行编码,以便它们被转义 URL 的网络服务器定位和识别。但是,如果您使用任何脚本、工具或日志文件来生成网址(手动输入以外的任何方法),通常这部分已经为您完成。如果您提交的错误信息是 Google 无法找到 Sitemaps 的某些网址,请检查并确保您的 URL 遵循 RFC-3986 URI 标准、RFC-3987IRI 标准和 XML 标准。以下是使用非 ASCII 字符 () 和需要实体转义 (&) 字符的 URL 示例:以下是 ISO- 8859-1 编码(用于在使用此编码的服务器上托管)和转义 URL 的相同 URL: %FCmlat.html&q=name 以下是使用 UTF-8 编码的相同 URL(用于托管在使用此编码的服务器上)此编码)并且 URL 被转义:%C3%BCmlat.html&q =name 以下是实体转义后的相同 URL: %C3%BCmlat.html&q=name XML 站点地图示例 以下示例显示 XML 格式的站点地图。示例中的站点地图收录几个 URL,每个 URL 都由 XML 标记标识。在此示例中,为每个 URL 提供了一组不同的可选参数。 2005-01-01 月刊
0.8