seo搜索引擎优化基础教程 胡宝介(您的Web站点会错过机会吗?SEO成功的关键一步)
优采云 发布时间: 2021-10-09 16:05seo搜索引擎优化基础教程 胡宝介(您的Web站点会错过机会吗?SEO成功的关键一步)
有关其他白帽 SEO 最佳实践,请参阅参考资料中的 Google 对网络管理员的要求。本系列的第 3 部分和第 4 部分将讨论其他 SEO 问题和解决方案。
第三部分:让网页进入搜索引擎索引
网络搜索是一个热点,而且越来越流行。四分之三的网络用户经常搜索,64% 的网络用户将搜索作为他们查找信息的主要方法(参见参考文献中相关研究的链接)。这些用户会找到您的网站吗?您的网站会错过机会吗?
在本系列的前两部分中,Jennette Banks 概述了搜索营销(第 1 部分)以及 关键词 规划和优化的基础知识(第 2 部分)。
在第 3 部分中,我们将重点介绍将 Web 站点的页面放入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 等搜索引擎在用户执行搜索时使用的数据库。如果一个网页没有被搜索引擎索引,那么引擎就不会找到它,所以将页面加入索引是SEO成功的关键一步。
我网站上有多少页面进入了索引?
如果你想知道你网站上有多少页面进入了索引,那么先做一个简单的测试。转到 Google 或您最喜欢的搜索引擎并搜索您公司的名称。如果公司名称是通用名称(例如 AAA Plumbing 或 Acme Industries),则添加地区(AAA Plumbing Peoria)或公司最著名的产品(Acme Industries 钣金)以查看是否找到您的站点。
如果您发现某个网站根本没有收录在搜索索引中,通常有两个原因:
如果幸运的话,当您在搜索引擎中输入公司名称时,您至少会在您的网站上找到一个页面。通常情况下,任何特定的搜索引擎只索引了您的某些页面,但如果几乎所有页面都被索引会更好。未编入索引的页面越多,您网站的潜在访问者就越有可能转向您的竞争对手(如果他们的页面已编入索引)。
收录率
首先计算收录率,即被搜索引擎收录的页面占总页面数的百分比。当然,理想的收录率是100%,但低一点也可以。如果搜索索引中收录的页面少于 50%,则必须认真对待。
要计算收录率,请将搜索引擎索引中的页面数除以您网站上的总页面数。如果您的网站相当小,估计网站上的页面总数可能很容易,但对于大型网站,有时很难找出有多少页面。对于大型站点,可以使用几种方法来估计页面数:
在估计了网站的大小之后,有必要找出网站上有多少页面被索引。谷歌、雅虎!Search 和 MSN Search 都提供了“site:”操作符,它会报告您需要知道的信息。输入site:后跟你的域名(如site:),查看返回的结果。一个更方便的工具是 Marketleap 的免费工具 Saturation Reporting Tool(请参阅参考资料),它显示任何站点的每个搜索索引中的页面数。
履带路径
如果计算收录率的结果不好,我们该怎么办?首先,让我们回顾一下搜索引擎如何索引页面。搜索引擎使用专门设计的称为蜘蛛程序或爬虫程序的程序来检查站点上的页面。
爬虫采集每个页面的HTML,并记录到其他页面的链接,以便日后采集这些页面的HTML。你可以想象,经过足够长的时间,爬虫最终会找到网络上的每一个页面(至少每一个链接到其他页面的页面)。获取页面,找到页面上的所有链接,然后获取链接到的那些页面。此过程称为“在 Web 上爬行”。
因为爬虫是这样工作的,创建到每个页面的链接可以简化将站点编入索引的任务——我们称这些技术为蜘蛛路径。您的站点已经收录路径,并且您可能已经拥有最重要的爬虫路径类型:站点地图。如果站点只收录几个页面,那么站点地图可以列出并链接到站点上的每个页面。
但是,站点地图的链接不应超过 100 个,因此必须将较大的站点地图链接到类别页面,然后将这些页面链接到站点上的其他页面。最大的网站通常被划分为每个国家的子站点,这需要一个称为国家地图的特殊站点地图,其中列出了每个国家的名称和每个国家站点的主页链接。爬虫非常喜欢这种技术。(请参阅参考资料中的大型站点地图示例。)
只有当爬虫到达您的网站时,站点地图才会有效,但有更主动的方法来索引页面。谷歌和雅虎!提供专门用于索引页面的收录程序。Google 的测试版程序称为站点地图(请参阅参考资料)。它是免费的,并提供了多种方式来通知 Google 抓取工具页面的位置。您甚至可以要求 Google 更频繁地更新您的某些网页。雅虎!提供付费的收录程序 SiteMatch(请参阅参考资料),它承诺在 48 小时内重新索引您的页面。(谷歌没有对时间做出承诺。)
RSS 提要提供了另一种在页面发布时快速索引页面的方法。使用 Ping-O-Matic!(请参阅参考资料)通知搜索引擎 RSS 提要中有新条目,这些条目通常在一两天内被编入索引。
清理爬虫路径
徒步团队必须让开拓者探索并标记前进的道路,但开拓者必须经常清理这些路径,以免路径被破坏或遗弃。爬虫路径相同;除非经常检查,否则很可能会被阻止。
如果忽略爬虫的工作原理,爬虫路径很容易成为爬虫陷阱。对人们有益的页面可能会阻碍爬虫。爬虫是自动的,所以它不会像人类访客一样填写注册表。如果链接到站点页面所需的操作不仅仅是遵循 HTML 锚标记,则该链接可能对爬虫隐藏。
这意味着 JavaScript、Flash、框架和 cookie 也会导致问题。如果没有这些技术,您的网页根本无法显示,那么该网页将不会被爬虫编入索引。此外,如果用户需要这些技术来使用链接,那么爬虫将无法跟踪链接。
爬虫只能查看 HTML 代码,就像视障用户使用的屏幕阅读器一样。要了解爬虫所看到的内容,您可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持,或者使用文本模式的 Lynx 浏览器或 Lynx 查看器(请参阅参考资料)。如果可以使用 Lynx 完整显示页面,则它们很可能会被编入索引。根本没有显示或显示不完整的页面是不容易被搜索引擎找到的。
即使你避免使用这些麻烦的技术,你仍然可能会阻碍爬虫。爬虫对 HTML 代码的正确性有非常严格的要求——浏览器要宽容得多。在浏览器中看起来不错的页面可能会阻碍爬虫,这会使爬虫不可见或误解整个页面或页面的一部分。HTML 检查服务(请参阅参考资料)和 Firefox 浏览器可以发现这些错误。
您还必须注意爬虫对每个页面的内容大小的限制。大多数爬虫只索引页面中的前 100,000 个字符。这个数字听起来很大,但如果你在页面中添加 JavaScript 程序和样式表,或者把整个用户手册放到一个 PDF 文件中,你很快就会达到这个限制。因此,您可以考虑将手册分成每个章节的 PDF,并将所有 JavaScript 和样式表代码转移到一个外部文件中。
欢迎爬虫
清除爬虫路径后,必须确保爬虫流行。最明显的建议是确保站点正在运行并且能够在爬虫到达时做出响应。因为您不知道爬虫什么时候会访问您的站点,所以频繁关闭(即“维护时间窗口”)是有风险的。如果在站点宕机时爬虫来了,它会认为该站点无效并移动到其他站点。网站去。
如果站点的响应速度很慢,几乎和完全失败一样糟糕,因为爬虫正在按计划运行。对于速度较慢的站点,它们索引的页面较少并且访问频率较低,因为它们可以在相同的时间内在其他地方处理更多的页面。
即使您的网站通常是不间断且快速的,由于机器人指令编程不正确,仍有可能将爬虫拒之门外。robots.txt文件可以用来让爬虫避开某些页面、目录或者整个站点,所以如果站点的指令写错了,爬虫可能会被赶走。此外,每个页面都可以有一个 robots 标签,该标签指示爬虫是否会索引该页面以及是否跟踪其中的链接(请参阅参考资料)。
保留爬虫
即使您的网站欢迎爬虫,也不能保证它将来不会放弃该网站。
可能阻碍爬虫的一个问题是对页面使用长动态 URL。许多动态 URL 需要参数来选择要显示的内容,例如加拿大目录中产品 2372 的法语描述。爬虫对这些动态站点很反感,因为参数组合几乎是无限的——爬虫不想在站点中迷路。当爬虫看到超过 1,000 个字符或超过两个参数的 URL 时,他们往往会跳过这些页面。
如果你的网站有这些有问题的网址,你必须参考网络服务器的文档,研究如何改变网址格式以满足爬虫。例如,Apache 使用“mod_rewrite”函数(请参阅参考资料)来修改 URL,其他 Web 服务器也有类似的功能。
所谓的“会话标识符”也可以吓跑爬虫。一些程序员在 URL 中创建一个参数来捕获有关当前访问者的信息(通常由“id=”加上唯一的字母数字代码标识)。爬虫者讨厌这种技术,因为它会导致数百个不同的 URL 显示相同的内容。程序员应该将此信息存储在 Web 应用程序服务器的会话层或 cookie 中。(但是,如前所述,显示页面不应需要 cookie,否则爬虫无法对其进行索引。)
分析完动态页面后,还要注意另一个可能给页面带来麻烦的问题。重定向是一种告诉浏览器和爬虫请求的 URL 已更改的技术。例如,如果您的公司更名,它也可能更改网站的域名,因此重定向可以将所有访问者从旧 URL 重定向到新 URL。但是,对于爬虫来说,只有一种有效的重定向方法:服务器端重定向,也称为 301 重定向(请参阅参考资料)。其他重定向技术对浏览器有效,例如元刷新重定向和 JavaScript 重定向,但爬虫无法遵循这些重定向路径,这会阻止重定向的页面被索引。
第 4 部分:改进大型网站的搜索营销
你的网站有多大?几千页?几百万页?如果页面数超过几千,就会在搜索引擎优化中遇到一些小网站所没有的特殊问题。我们来谈谈如何对大型网站进行成功的SEO。
大型网站对搜索引擎优化提出了一些新的挑战。如果您可以将整个 Web 团队聚集在一个会议室中,那么您的站点就不会太大。您可能拥有一家非常成功的企业,但您的问题与我们的四部分 SEO 系列中讨论的问题不同。
在第 1 部分和第 2 部分中,Jennette Banks 概述了搜索营销和 关键词 规划和优化的基础知识。在第 3 部分中,我们重点介绍了如何将页面放入搜索索引中。在这三个文章中,您已经看到所有网站(无论规模大小)都必须做什么才能吸引Google等互联网搜索引擎的注意。但是,大型网站确实不同。如果您的网站由数千甚至数百万个页面组成,您将遇到这些特殊的 SEO 挑战。
在第 4 部分中,我们将解决特定于大型 Web 站点的问题。我们将讨论为什么维护大型 Web 站点的大型 Web 团队会导致搜索营销出现问题。我们还将讨论全球化网站和具有许多动态网页的网站的技术挑战。
说服大型组织关注搜索问题
大型网站的 SEO 问题在于,需要许多不同的群体采取适当的措施来使 SEO 取得成功(请参阅参考资料)。无论你如何组织你的网站和网络团队,他们都会被分成几个组,而这些组会引起问题。根据站点的不同,您可能会遇到以下问题或其中一些问题:
尽管看起来令人生畏,但可以在整个网站上组织多个 Web 组,使它们像搜索营销团队一样工作。可以让各个团体采取协调一致的行动,以免分心。正如本系列前面的 文章 所解释的那样,每个网站所有者都必须采取一些重要措施来确保搜索营销能够成功,但大型网站需要采用更有条理的方法:
当然,这种组织变革会造成一定的压力。但是,如果您将整个 Web 团队组织在一起并采用正确的做法,那么您的大型站点将由于良好的声誉(使搜索者愿意点击您的页面)、高质量的内容(使其他站点愿意链接到您的页面)网站)和更高的营销预算(允许投资于更好的设计和技术)。有关组织团队的更多信息,请参阅资源。
成功的关键是说服。计算增加的网站流量将带来多少好处,以说明搜索改进的价值。告诉所有人您的竞争对手在搜索结果中的排名比您的公司高多少,并让他们有紧迫感。请团队作为搜索者亲身体验,以便他们了解为什么搜索改进如此重要。请记住,没有人会故意破坏您的搜索改进计划——他们只是没有意识到这些任务的重要性。越充分地向他们解释这些任务的作用,让他们融入其中,他们就越早看到结果。
说服团队
我们必须在这方面更加努力。您知道在您的公司中推广新想法的最佳方式吗?您的组织可以发布电子邮件新闻公告吗?开会?博客?播客?网络研讨会?或者您需要更个性化的方法?如果需要,可为每个区域办事处制作 PowerPoint 幻灯片。确保可靠地发送和接收消息,从而改变团队的工作方式。
得到团队成员的理解,他们在工作中考虑了SEO原则,之后他们可能面临两大挑战:如何在全球范围内进行搜索营销以及如何处理动态网站。
覆盖全球受众
在一个国家用一种语言进行搜索营销是很困难的。随着一个网站涉及的国家和语言数量的增加,问题会成倍增加。我们首先讨论国家问题,然后是语言问题。
搜索者通常希望将搜索结果限制在某个国家/地区,尤其是当他们计划在线购物时:他们希望在自己的国家/地区找到一家使用本国货币进行交易的公司。这很简单,不是吗?不完全的。为了进行有机搜索,不能仅仅依靠搜索引擎的猜测来判断每个页面的正确国家/地区。
那么,Google 和其他搜索引擎如何猜测页面所在的国家/地区?他们使用站点域名 ("") 的 IP 地址来确定站点 Web 服务器所在的国家/地区(请参阅参考资料)。如果泰语页面实际上在泰国,那么没问题。如果为了省钱,*敏*感*词*的所有页面都放在中国,搜索引擎会误认为这些泰国页面是中国的。
事实上,搜索引擎比这更聪明一点,但只是一点点。除了看服务器所在的国家,他们还要看顶级域名(.com、.de等)来确定国家。无论页面位于何处,在 URL 中使用国家顶级域(如“de”代表德国)的页面(如“”)将被视为属于该国家/地区的页面。
不幸的是,大多数全球化网站的每个页面都使用“.com”顶级域名。例如IBM的德国主页是“”,除非页面放在德国,否则搜索引擎不会意识到这个页面来自德国。这个问题很重要,因为如果搜索者将结果限制为来自德国的页面,他们将无法找到来自 IBM 的此页面。
幸运的是,有经验的搜索者已经习惯了搜索引擎的这个缺点,所以他们经常搜索用德语(而不是来自德国)写的页面来找到他们想要的页面。从长远来看,搜索引擎可能会变得更聪明,并认识到 IBM 的德国主页属于德国。到那时,搜索者不需要如此有经验。
语言问题
Google 和 Yahoo!™ 都是美国的大型搜索引擎,但世界其他地方呢?谷歌实际上在许多国家占据第一,但也关注在一两个国家占据市场主导地位的本地搜索引擎(参见参考资料)。请务必参考搜索引擎观察报告(参见参考资料)了解搜索引擎在各个国家市场的份额分布,以便您可以为合适的搜索引擎执行 SEO 工作,并衡量来自合适搜索引擎的流量。
搜索引擎不容易确定页面所在的国家/地区,但它们在检测页面语言方面要好得多。搜索引擎通常使用三个标志来确定页面的语言:它的语言元标记,如日语;它的字符编码,例如;和内容分析。由于页面上所写的语言和字符编码通常不正确,因此只有在搜索引擎无法通过分析页面上的单词模式来识别语言时才会使用此信息(请参阅参考资料)。
在大多数情况下,搜索引擎会正确检测页面的语言,而无需您采取任何操作。但是,对于单词很少的页面,在页面上正确编写语言和字符集元标记很重要;否则,当搜索者查找以特定语言编写的页面时,搜索引擎将不会收录您的页面。
然而,让搜索引擎正确检测页面的语言只是一个开始。如果您用英语执行所有 SEO 任务并简单地将结果翻译成其他语言,您将遇到问题。假设您为您的产品选择了最流行的英语关键词,然后将它们翻译成德语:这并不能保证您选择了最流行的德语单词。翻译后的词在语言上是正确的,但对于搜索来说不一定是最佳的。如果选择关键词 含义正确但在德国SEO 工作中不常用,效果会大打折扣(参见参考资料)。
即使英文版的页面经过精心处理以收录正确的关键词,并且每个页面使用了适量的关键词,也不要指望标准的翻译流程能保持英文优化的结果. 德语页面必须以与英语页面相同的方式进行优化,以获得类似的 SEO 结果。
在进行全球搜索营销活动时,请记住这些关于语言和国家的提示,以便您在竞争中保持领先。
如何处理动态网站?
大型网站通常加载动态页面——它们使大型网站更容易维护新颖的内容和设计。但是,动态页面的优化难度更大。
Google 以相同的方式处理动态和静态页面的内容,因此本系列前面 文章 中讨论的所有内容优化技术也适用于动态页面。
对于静态页面,文本编写者只需编辑收录页面内容的 HTML 文件——例如,将 关键词 添加到页面标题。动态页面并不是那么简单。因为动态页面是由程序动态生成的,所以页面的内容来自两种不同的来源:
为了优化动态页面上的内容,首先要弄清楚内容来自哪里,然后才能对其进行修改。内容由负责更新数据库的团队管理——它可能是内容管理系统的文本编写者,也可能是产品目录的数据条目。
另一方面,模板通常由 Web 开发人员控制。在某些情况下,模板是一个易于更新的单独文件——大多数内容管理系统都使用这种方法。在其他时候,HTML 存储在软件本身中,因此程序员必须修改软件才能更改 HTML。
与修改静态页面相比,修改动态页面往往需要更多的精力和时间来说服团队。这是个坏消息。好消息是,如果团队被说服修改一个动态页面,他们通常会修改所有动态页面。对于静态页面,修改一页只影响一页。使用数据库中的内容通常还可以简化质量控制,因为与使用 HTML 编辑器检查静态页面相比,数据输入程序可以更轻松地检查输入。
结束语
SEO 非常具有挑战性,在大型网站上,挑战将呈指数级增长。有很多团队同时参与站点的管理,很难让他们朝着同一个方向努力。此外,多个国家和动态页面也增加了复杂性。
但是,如果您之前认为 SEO 在大型网站上不可行,那么您现在应该知道它是可行的,并且您应该知道如何去做。
参考
学习