网页搜索引擎优化(就是动态网页很难被搜索引擎的SPIDER原因是什么??)
优采云 发布时间: 2021-09-16 03:02网页搜索引擎优化(就是动态网页很难被搜索引擎的SPIDER原因是什么??)
编者:凯伦
动态生成的网页:
对于那些动态生成的网页,我们的实际访问者可以用肉眼看到它们。但对于大多数搜索引擎来说,爬行器程序通常是不可见的,这就是为什么搜索引擎的爬行器很难检索动态网页的原因。因此,如果您希望您的动态网页出现在搜索引擎的搜索结果中,只需确保您的网站内容对搜索引擎可见,即搜索引擎的蜘蛛程序可以看到您的网站内容
所谓动态网页,一般是指由ASP、PHP、ColdFusion、CGI等程序动态生成的网页。网页的大部分内容都来自与数据库连接的数据库网站. 此网页在网络空间中不存在。只有在收到用户的访问请求后,才会生成并传输到用户的浏览器。此外,由于访问者可以实时获得他们想要的数据,动态网页通常很容易给人留下深刻印象。此外,动态网页还具有易于维护和更新的优点。例如,对于新产品或价格调整网站管理员只需要对数据库进行简单更改,而不需要修改每个单独的静态页面
我们可以看到,从用户的角度来看,动态网页真的很棒。但从搜索引擎的角度来看,结论是不同的
动态网页的问题:
问题是这些动态网页实际上并不存在于网络空间中。只有在用户在变量区域中输入值后,才会生成它们。众所周知,无论搜索引擎的蜘蛛有多聪明,它只是一个搜索程序。他们不能像真人一样选择变量和输入值
该查询还可以合并到主页上的链接中,使该链接成为预定义网站目录的查询。用户可以在搜索表中键入查询条件进行查询。通常,动态脚本需要一些信息来返回页面内容,例如Cookie数据、sessionid或环境变量。但是对于搜索引擎的蜘蛛程序来说,他们不可能知道如何使用你的搜索功能或者问什么问题。因此,spider对网站的检索常常不得不在动态站点前停止
此外,动态页面的URL收录问号(?)和百分号(%)。在动态页面的URL中还经常可以看到诸如&、%、+和$等符号。这样的URL称为“环境变量”(querystring)。但是,大多数爬行器无法解释符号“”后的字符。例如,对于这样的URL,大多数爬行器只能读取符号“”前的字符。URL中的“”是他们的“停止标记”,因此他们最终检索的URL只能是:
显然,由于这个URL实际上并不存在,所以它们什么也得不到。因此,如果您的网站或网站网页大部分是动态生成的,那么您需要修改网站以便于蜘蛛阅读您的网站内容
其他搜索引擎通常拒绝检索CGI bin目录中的静态页面(即保存为静态页面的动态页面)URL。例如,它们不提供以下两个URL的检索:
为什么搜索引擎不读取符号“”后的内容
搜索引擎的爬行器不愿意阅读放置在CGI bin目录中的网页,或者URL收录符号的字符”。原因是,如果CGI中提供了“无限”数量的URL,爬行器往往会因为检索这些“无限”URL而陷入死循环“网页。这就是所谓的蜘蛛陷阱。数据库程序也可以为spider创建类似的情况。因此,为了避免可能的陷阱,spider不会读取带有符号的URL中“?”之后的字符
如果爬行器被您的服务器捕获,这不仅对爬行器本身有害,而且爬行器对您的网站页面的重复访问请求将导致您的服务器系统完全瘫痪
动态网页的优化方案:
例如,我们可以从其URL中看到网站提供了与天然减肥产品相关的内容。不幸的是,因为spider不支持动态页面生成,所以搜索引擎无法对动态页面上的相关内容编制索引。假设有一个竞争对手的网页内容与天然减肥产品相似,但由于他的网页是静态网页,他可以获得搜索引擎的索引。可以想象,那些搜索“天然减肥产品”的用户最终会访问他们的网站网站. 如果网站上提供的具体内容比竞争对手更好呢?正因为它不能出现在搜索引擎的搜索结果中,它只能给竞争对手提供在线销售的好机会
这个问题的解决方案可以遵循一个想法:更改动态网页的URL,使该URL不再收录“?”“=”符号和其他类似符号,并且看起来像一个静态URL
针对不同程序开发的动态页面的不同解决方案:
•CGI/Perl
如果在网站中使用CGI或Perl,则可以使用脚本拾取环境变量之前的所有字符,然后将URL中的剩余字符分配给变量。这样,就可以在URL中使用变量
路径信息(或脚本名称)是动态应用程序中的一个变量,它收录完整的URL地址和环境变量信息。这样,脚本从path信息变量中获取环境变量之前的字符,并将剩余字符替换为变量
但是,对于那些内置了一些SSI(服务器端收录)内容的网页,主搜索引擎可以提供索引支持。那些网页上有。Shtml后缀也被解析为SSI文件,相当于普通文件。HTML文件。但是,如果这些页面在其URL中使用CGI bin路径,则搜索引擎可能不会为它们编制索引
•ASP
基于Microsoft的Web服务器采用ASP(Active Server Pages:Web服务器端动态网页开发技术)。使用ASP开发网页,一般后缀为。ASP。ASP以其简单的功能和实用性受到广大朋友的喜爱,再加上微软的大力支持,可以说ASP是目前最流行的网页开发语言之一。只要URL中避免使用“?”符号,大多数搜索引擎都可以支持使用ASP开发的动态网页
带“”的URL如何?为了解决这个问题,一家名为“exception digital enterprise solutions”的公司推出了他们的解决方案xqasp。这是一个升级软件。它允许URL中的符号“”转换为“/“通过网络服务器。有关更多信息,请访问:有一些相对便宜的解决方案,如asppiperbait和portal页面过滤器
•冷融合
如果您使用的是ColdFusion,则需要在服务器上重新配置它。使用ColdFusion开发的Web页面通常具有。CFM文件扩展名。通常,数据库使用符号“?”检索网页。您可以重新配置ColdFusion设置,以便它可以将环境变量中的符号“?”替换为符号“/”,并将替换后的值传递给URL。这样,最后到达浏览器的就是一个静态URL页面。也就是说,对于URL,返回到浏览器的最后一件事是,当搜索引擎检索转换的文件时,它将不会遇到“?”,因此它可以继续索引整个动态页面,以便搜索引擎仍然可以读取您的动态网页
•Apache服务器
Apache是最流行的HTTP服务器软件之一。它有一个名为mod_uu;Rewrite module的模块,可以将收录环境变量的URL转换为搜索引擎支持的URL类型。但是mod_uuwrite不是Apache软件安装中的默认模块,因此您应该与托管公司协商,看看您的服务器上是否有此模块
仍然使用上面的URL作为示例:使用mod_uu重写模块后,URL将变成以下格式:有关模块的更多信息,请访问
可通过付费收录计划直接提交动态网页:
直接向Altavista提交动态网站可以增加您获得收录的网站机会。如果您通过Altavista或inktomi的付费收录程序提交,您可以保证收录的网站
文件扩展名:
现在,您的文件名后缀是什么。对于搜索引擎来说,这不再是一个问题。即使您的网页上没有。HTML或。HTM扩展名,只要URL中不收录符号“”,仍然可以获取索引。相比之下,搜索引擎northern night则特别灵活。它可以为任何文件编制索引。HTML,。HTM,。Shtml,。STM,。ASP,。Phtml,。CFM,。PHP3,。PHP,。JSP,。Jhtml,。ASC,。文本和。TXT扩展名。但是,它仍然不支持带有后缀的文件。CGI。如果您在网站上有一个不支持的扩展名文件,它将在网站提交期间通知您
结论:
问问自己,你真的需要使用动态网页吗?数据库通常用作页面生成工具。您可以使用它来创建静态页面,特别是对于那些在“网站”上不经常更改的区域,您可以考虑使用数据库生成静态页面内容。为了保证搜索引擎的索引,还可以考虑为动态内容
创建镜像静态网页。
大多数搜索引擎仍然不习惯为动态网页编制索引,现在也是如此。这是因为检索动态生成的网页可能会导致搜索引擎的蜘蛛落入死循环的“陷阱”,无法逃脱。但是