搜索引擎要避免“搜索机器人陷阱”的脚本错误
优采云 发布时间: 2021-04-05 07:09搜索引擎要避免“搜索机器人陷阱”的脚本错误
摘要:动态网站丰富了网站的功能,但对于搜索引擎而言,情况有所不同。当用户“输入内容”或“选择”但搜索时动态生成动态页面,但是搜索引擎的“搜索机器人”不能“输入”和“选择”。此外,搜索引擎应避免“蜘蛛陷阱”脚本错误。
一、动态网站的出现和优势
首次出现Internet时,站点的内容以HTML静态页面的形式存储在服务器上,访问者访问的页面是这些实际存在的静态页面。随着技术的发展,尤其是数据库和脚本技术PERL,ASP,PHP和JSP的发展,越来越多的站点开始采用动态页面发布方法。例如,当我们在GOOGLE.COM上搜索内容时,获得的搜索结果页面文件“本身”在GOOGLE服务器上不存在,而是在输入搜索内容时通过调用后台数据库实时生成的,是,这些结果页面是动态的。
静态页面站点仅涉及文件传输问题,而动态站点则复杂得多。用户和网站之间存在很多互动。 网站不再只是内容发布,而是一种“应用程序(Application)”,它是软件产业向互联网的扩展,从软件的角度看,动态站点是逻辑应用程序层与逻辑站点之间的分离。数据层:数据库负责站点数据的存储和管理,而ASP,PHP,JSP等负责处理站点的逻辑应用程序,除了增加许多交互功能外,更重要的是是网站的维护,更新和升级更加方便。可以说,如果没有动态网站技术,Internet上的这些超大型网站将无法显示。
二、搜索引擎在抓取动态网站页面时面临的问题
从用户的角度来看,动态网站非常好,并且丰富了网站的功能,但是对于搜索引擎而言,情况就不同了。 (关于搜索引擎和分类目录之间的区别,以及搜索引擎如何工作,请“了解搜索引擎”)
基本问题在于“输入”和“选择”。当用户“输入内容”或进行“选择”时,动态地动态生成动态页面,但是搜索引擎的“搜索机器人”不能“输入”和“选择”。例如,我们想在当当书店网站上查看冯英健的“网络营销基础知识和实践”。简介页面是动态生成的,URL地址为:
在这里,“?”之后的product_id参数值需要我们输入,并且可以通过链接找到“搜索机器人”
页面,但无法在“?”之后输入product_id参数值,因此无法抓取页面文件。
此外,对于带有“?”的页面通过链接到达的搜索引擎可以从技术上对它们进行爬网,但是通常,搜索引擎会选择不进行爬网。这是为了避免出现“搜索机器人陷阱”(“蜘蛛陷阱”)脚本错误,此错误将使搜索机器人陷入无限循环,无法退出并浪费时间。
三、动态网站搜索引擎策略
动态网站要由搜索引擎抓取,您可以使用内容发布系统软件将动态网站转换为静态页面。此方法更适用于页面发布后更改很少的网站,例如某些新闻网站(例如新浪的新闻中心:
)。
搜索引擎可以通过以下方法抓取一般动态网站:
首先,我们需要使动态页面URL不含“?”,以便使动态页面看起来像“静态页面”。看看下面的页面
这显然是一个动态页面,但URL地址看起来像一个“静态页面”。对于不同的动态技术,可以使用以下技术来实现:
·对于使用ASP技术的动态页面,该工具称为XQASP(
)您可以替换“?”与“ /”。
·对于使用ColdFusion技术的站点,您需要在服务器上重新配置ColdFusion,并使用“ /”代替“?”。将参数传输到URL。有关更多详细信息,请参见
网站。
·对于使用Apache服务器的网站,您可以使用重写模块将带有参数的URL地址转换为搜索引擎支持的格式。默认情况下,Apache服务器中未安装模块mod_rewrite。有关更多信息,请参见
。
对于其他动态技术,我们还可以找到相应的方法来更改URL形式。
然后,创建一些指向这些动态页面的静态页面(具有更改的URL的链接)。
如前所述,搜索引擎机器人不会自行“输入”参数,因此,为了使搜索引擎能够抓取这些动态页面,我们还需要告知机器人这些页面的地址(即参数) 。我们可以创建一些静态页面,这些静态页面在Internet营销中通常称为“网关页面”。这些页*敏*感*词*有指向这些动态页面的大量链接。
将这些条目页面的地址提交给搜索引擎,这些页面和链接的动态页面(URL格式已更改)都可以被搜索引擎抓取。
四、搜索引擎对动态网站支持的改进
随着我们调整动态网站以适应搜索引擎,搜索引擎也在不断发展。到目前为止,大多数搜索引擎不支持对动态页面的爬网,但是GOOGLE,HOTBOT等和国内的百度已经开始尝试对动态网站页面(包括“?”页面)进行爬网,这就是我们现在的情况。在这些搜索引擎上进行搜索后,动态链接的原因就会出现在结果中。
当这些搜索引擎爬网动态页面时,为了避免“搜索机器人陷阱”,它们仅爬网从静态页面链接的动态页面(至少“看”静态页面),以及从动态页面链接的动态页面。不再抓取。
因此,如果动态网站仅用于这些搜索引擎,则可以根据上一节中描述的方法进行简化:只需创建一些条目页面,链接到许多动态页面,然后将这些条目页面提交给这些搜索即可引擎。上。
要直接使用动态网址,请注意:
·请勿在文件网址中收录会话ID,也不要使用ID作为参数名称(尤其是GOOGLE);
·参数越少越好,尽量不要超过2个;
·尽量不要在URL中使用参数。一些参数被转移到其他地方,这可以增加要爬网的动态页面的深度和数量。
在“ ITPUB博客”中,链接:,如果您需要转载,请注明出处,否则将追究法律责任。