抓取动态网页(说之前还是先分析下静态伪静态、动态的不同点)

优采云 发布时间: 2021-10-05 08:16

  抓取动态网页(说之前还是先分析下静态伪静态、动态的不同点)

  在说之前,我们先来分析一下静态、伪静态和动态的区别。

  动态、静态、伪静态

  静态网站:纯静态 HTML 文档,可以使用 filetype:htm 查询的网页。

  伪静态 URL:使用 Rewrite 重写动态 URL,使动态 URL 看起来像静态 URL。

  现在很多后台都充分考虑了SEO,支持URL重写,链接中带有关键词,链接清晰。

  动态URL:内容存储在数据库中,根据需求展示内容。在网址中?# &显示不同的参数,如:news.php? lang=cn&class=1&id=2。动态URL的会话标识符(sid)和查询(query)参数很可能导致大量相同的页面,有时蜘蛛会陷入死循环,出不来。所以直到现在,蜘蛛仍然不喜欢动态。

  机器人指令

  开启伪静态后,打开的网址就是显示的静态页面。Google 等搜索引擎在抓取您的 网站 页面时也会抓取 网站 的静态和动态页面。会导致大量重复内容的页面被抓取(我的网站有重复抓取,网址是)。

  现在,我们只能在robots.txt文件中写规则,禁止搜索引擎抓取动态页面。动态页面有一个共同的特点,就是链接都会有一个“?” 问号符号。机器人指令规则如下:

  用户代理: *

  不允许: /*?*

  如果只想连接到指定的搜索引擎来获取特定类型的文件,例如html格式的静态页面,规则如下:

  用户代理: *

  允许:.html$

  不允许: /

  如果你想禁止搜索引擎抓取你所有的网站页面,你可以写如下规则:

  用户代理: *

  不允许: /

  robots.txt文件的路径,应该在你的网站的根目录下。有一个简单的快捷方式来编写规则。登录google网站管理员工具,在里面写入规则后,生成robots.txt文件即可。

  以上主要针对伪静态网站禁止抓取动态页面。robots.txt文件中有很多配置规则,具体可以参考相关资料。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线