避免“搜索机器人陷阱(spidertraps)”的错误

优采云 发布时间: 2021-05-02 18:07

  避免“搜索机器人陷阱(spidertraps)”的错误

  动态网站搜索引擎优化策略

  摘要:动态网站丰富了网站的功能,但对于搜索引擎而言,情况有所不同。当用户“输入内容”或“选择”但搜索时动态生成动态页面,但是搜索引擎的“搜索机器人”不能“输入”和“选择”。此外,搜索引擎应避免“蜘蛛陷阱”中的脚本错误。

  一、动态网站的出现和优势

  首次出现Internet时,站点的内容以Html静态页面的形式存储在服务器上,访问者访问的页面是这些实际的静态页面。随着技术的发展,尤其是数据库和脚本技术PERL,ASP,PHP和jsp的发展,越来越多的站点开始采用动态页面发布方法。例如,当我们在Google.COM上搜索内容时,搜索结果页面文件“本身”在GOOGLE服务器上不存在,而是在输入搜索内容时通过调用后台数据库实时生成的,即,这些结果页面是动态的。

  静态页面站点仅涉及文件传输问题,而动态站点则复杂得多。用户和站点之间存在很多交互。 网站不再只是内容发布,而是一种“应用程序(Application)”,它是软件行业向互联网的扩展,从软件的角度来看,动态站点是逻辑应用程序层与应用程序层之间的分离。数据层:数据库负责站点数据的存储和管理,而ASP,PHP,JSP等负责处理站点的逻辑应用程序,除了增加许多交互功能外,更重要的是是网站的维护,更新和升级更加方便。可以说,如果没有动态网站技术,Internet上的这些超大型网站将无法显示。

  二、搜索引擎在抓取动态网站页面时面临的问题

  从用户的角度来看,动态网站非常好,并且丰富了网站的功能,但是对于搜索引擎而言,情况就不同了。 (关于搜索引擎和分类目录之间的区别,以及搜索引擎如何工作,请“了解搜索引擎”)

  基本问题在于“输入”和“选择”。当用户“输入内容”或进行“选择”时,动态地动态生成动态页面,但是搜索引擎的“搜索机器人”不能“输入”和“选择”。例如,我们想在当当书店网站上查看冯英健的“网络营销基础知识和实践”。简介页面是动态生成的,URL地址为:

  在这里,“?”之后的product_id参数值需要由我们输入。 “搜索机械手”可以通过链接找到页面,但是无法在“?”之后输入product_id参数值,因此无法抓取页面文件。

  此外,对于带有“?”的页面通过链接到达的链接,搜索引擎可以从技术上进行爬网,但是通常,搜索引擎会选择不进行爬网。这是为了避免出现“搜索机器人陷阱”“蜘蛛陷阱””脚本错误,此错误将使搜索机器人陷入无限循环,无法退出并浪费时间。

  三、 网站的动态搜索引擎策略

  动态网站要由搜索引擎抓取,您可以使用内容发布系统软件将动态网站转换为静态页面。此方法更适用于页面发布后更改很少的网站,例如某些新闻网站(例如新浪的新闻中心:)。

  可以通过以下方法由搜索引擎抓取一般动态网站:

  首先,我们需要使动态页面URL不含“?”,以使动态页面看起来像“静态页面”。看看下面的页面。这显然是一个动态页面,但URL地址看起来像一个“静态页面”。对于不同的动态技术,可以使用以下技术来实现:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线