抓取动态网页(说之前还是先分析下静态伪静态、动态的不同点)

优采云发布时间: 2021-10-05 08:16

　　在说之前，我们先来分析一下静态、伪静态和动态的区别。

　　动态、静态、伪静态

　　静态网站：纯静态 HTML 文档，可以使用 filetype:htm 查询的网页。

　　伪静态 URL：使用 Rewrite 重写动态 URL，使动态 URL 看起来像静态 URL。

　　现在很多后台都充分考虑了SEO，支持URL重写，链接中带有关键词，链接清晰。

　　动态URL：内容存储在数据库中，根据需求展示内容。在网址中？# &显示不同的参数，如：news.php? lang=cn&class=1&id=2。动态URL的会话标识符（sid）和查询（query）参数很可能导致大量相同的页面，有时蜘蛛会陷入死循环，出不来。所以直到现在，蜘蛛仍然不喜欢动态。

　　机器人指令

　　开启伪静态后，打开的网址就是显示的静态页面。Google 等搜索引擎在抓取您的网站页面时也会抓取网站的静态和动态页面。会导致大量重复内容的页面被抓取（我的网站有重复抓取，网址是）。

　　现在，我们只能在robots.txt文件中写规则，禁止搜索引擎抓取动态页面。动态页面有一个共同的特点，就是链接都会有一个“？” 问号符号。机器人指令规则如下：

　　用户代理： *

　　不允许： /*？*

　　如果只想连接到指定的搜索引擎来获取特定类型的文件，例如html格式的静态页面，规则如下：

　　用户代理： *

　　允许：.html$

　　不允许： /

　　如果你想禁止搜索引擎抓取你所有的网站页面，你可以写如下规则：

　　用户代理： *

　　不允许： /

　　robots.txt文件的路径，应该在你的网站的根目录下。有一个简单的快捷方式来编写规则。登录google网站管理员工具，在里面写入规则后，生成robots.txt文件即可。

　　以上主要针对伪静态网站禁止抓取动态页面。robots.txt文件中有很多配置规则，具体可以参考相关资料。

0

2021-10-05

抓取动态网页

0 个评论

要回复文章请先登录或注册