搜索引擎优化策略(动态网站的搜索引擎优化策略(spidertraps)的脚本错误)
优采云 发布时间: 2022-02-03 04:20搜索引擎优化策略(动态网站的搜索引擎优化策略(spidertraps)的脚本错误)
动态 网站 搜索引擎优化策略
摘要:动态网站丰富了网站的功能,但对于搜索引擎来说,情况就不同了。动态页面是在用户“输入内容”或“选择”时动态生成的,但搜索引擎的“搜索机器人”无法“输入”和“选择”。此外,搜索引擎应避免“蜘蛛陷阱”脚本错误。
一、动态网站的出现及优势
互联网刚出现时,网站内容以 HTML 静态页面的形式存储在服务器上,访问者浏览的页面就是这些实际的静态页面。随着技术的发展,特别是数据库和脚本技术PERL、ASP、PHP和JSP的发展,越来越多的网站开始采用动态页面发布方式。比如我们在GOOGLE.COM上搜索一个内容时,得到的搜索结果页面文件“本身”在GOOGLE服务器上并不存在,而是我们在输入搜索内容时调用后台数据库的程序实时生成的,也就是说,这些结果页面是动态的。
静态页面的站点只涉及文件的传输,而动态站点则复杂得多,用户与站点之间的交互很多,网站不再只是内容发布,而是一种“应用” “(应用)”是软件产业向互联网的扩展,从软件的角度来看,动态站点是逻辑应用层和数据层的分离,数据库负责站点数据的存储和管理而ASP、PHP、JSP则负责处理网站的逻辑应用,除了增加很多交互功能之外,这样做的好处更重要的是,网站的维护、更新、升级也方便很多可以说,没有动态的网站技术,今天在互联网上这些非常大的网站是不可能的。
二、搜索引擎在抓取动态网站页面时面临的问题
从用户的角度来看,动态的网站很好,丰富了网站的功能,但是对于搜索引擎来说,情况就不同了。(关于搜索引擎和分类的区别,以及搜索引擎的工作原理,请看“了解搜索引擎”)
根本问题在于“输入”和“选择”,动态页面是在用户“输入”或“选择”时动态生成的,但搜索引擎的“搜索机器人”却不能“输入”和“选择”。比如我们要在当当书店网站上查看冯英健的《网络营销基础与实践》一书,介绍页面是动态生成的,URL地址为:
这里,“?”后面的product_id参数值 需要输入。“搜索机器人”可以通过链接找到页面,但是不能在“?”后面输入product_id参数值,所以无法爬取页面文件。
此外,搜索引擎在技术上可以使用“?”来抓取此类页面。通过链接,但一般情况下,搜索引擎都会选择不爬取,以避免出现一种“蜘蛛陷阱”的脚本错误,导致搜索机器人陷入死循环,无法退出,浪费时间。
三、动态网站 搜索引擎策略
动态网站要被搜索引擎抓取,可以使用内容发布系统软件将动态站点转换为静态页面。这种方式比较适合发布后页面变化较少的网站,比如一些新闻网站(比如新浪新闻中心:)。
一般动态网站可以通过以下方式被搜索引擎抓取:
首先,我们需要让动态页面看起来像没有“?”的“静态页面”。在动态页面的 URL 地址中。看看下面的页面,明明是动态页面,但是 URL 看起来像是“静态页面”。对于不同的动态技术,可以使用以下技术:
·为使用ASP技术的动态页面提供一个名为XQASP()的工具,可以代替“?” 和 ”/”。
·对于使用ColdFusion技术的站点,需要在服务器上重新配置ColdFusion,并用“/”代替“?” 将参数传输到 URL。有关更多详细信息,请参阅网站。
·对于使用Apache服务器的站点,可以使用重写模块将带参数的URL地址转换成搜索引擎支持的形式。默认情况下,模块 mod_rewrite 未安装在 Apache 服务器中。详情请看。
对于其他动态技术,也可以找到相应的方法来改变URL的形式。
然后,创建一些指向这些动态页面的静态页面(带有更改 URL 的链接)。
如前所述,搜索引擎机器人不会自己“输入”参数,所以为了让这些动态页面被搜索引擎抓取,我们还需要告诉机器人这些页面的地址(即参数)。我们可以创建一些静态页面,在网络营销中一般称为“网关页面”(入口页面),这些页面有很多指向这些动态页面的链接。
将这些入口页面的地址提交给搜索引擎,这些页面和链接的动态页面(以URL形式改变)就可以被搜索引擎抓取。
四、搜索引擎对动态网站 支持的改进
随着我们使动态网站适应搜索引擎,搜索引擎也在不断发展。到目前为止,大多数搜索引擎不支持动态页面的爬取,但是GOOGLE、HOTBOT等以及国内的百度已经开始尝试爬取动态网站页面(包括?“?”页面)。这就是我们现在在这些搜索引擎上搜索时,结果中会出现动态链接的原因。
这些搜索引擎在抓取动态页面时,为了避免“搜索机器人陷阱”,只抓取从静态页面链接的动态页面(至少是“看起来”静态的页面),以及从动态页面链接的动态页面。不再被抓取。
因此,如果一个动态站点只针对上述搜索引擎,可以在上面小节介绍的方法的基础上进行简化:只需创建一些入口页面,链接到许多动态页面,然后将这些入口页面提交给这些搜索引擎。
对于直接使用动态 URL 地址,请注意:
·文件URL中不要有Session Id,不要使用ID作为参数名(尤其是GOOGLE);
参数越少越好,尽量不要超过2;
·尽量不要在URL中使用参数,将一些参数转移到其他地方,这样可以增加被抓取的动态页面的深度和数量。