抓取动态网页(说之前还是先分析下静态伪静态、动态的不同点)
优采云 发布时间: 2021-10-05 08:16抓取动态网页(说之前还是先分析下静态伪静态、动态的不同点)
在说之前,我们先来分析一下静态、伪静态和动态的区别。
动态、静态、伪静态
静态网站:纯静态 HTML 文档,可以使用 filetype:htm 查询的网页。
伪静态 URL:使用 Rewrite 重写动态 URL,使动态 URL 看起来像静态 URL。
现在很多后台都充分考虑了SEO,支持URL重写,链接中带有关键词,链接清晰。
动态URL:内容存储在数据库中,根据需求展示内容。在网址中?# &显示不同的参数,如:news.php? lang=cn&class=1&id=2。动态URL的会话标识符(sid)和查询(query)参数很可能导致大量相同的页面,有时蜘蛛会陷入死循环,出不来。所以直到现在,蜘蛛仍然不喜欢动态。
机器人指令
开启伪静态后,打开的网址就是显示的静态页面。Google 等搜索引擎在抓取您的 网站 页面时也会抓取 网站 的静态和动态页面。会导致大量重复内容的页面被抓取(我的网站有重复抓取,网址是)。
现在,我们只能在robots.txt文件中写规则,禁止搜索引擎抓取动态页面。动态页面有一个共同的特点,就是链接都会有一个“?” 问号符号。机器人指令规则如下:
用户代理: *
不允许: /*?*
如果只想连接到指定的搜索引擎来获取特定类型的文件,例如html格式的静态页面,规则如下:
用户代理: *
允许:.html$
不允许: /
如果你想禁止搜索引擎抓取你所有的网站页面,你可以写如下规则:
用户代理: *
不允许: /
robots.txt文件的路径,应该在你的网站的根目录下。有一个简单的快捷方式来编写规则。登录google网站管理员工具,在里面写入规则后,生成robots.txt文件即可。
以上主要针对伪静态网站禁止抓取动态页面。robots.txt文件中有很多配置规则,具体可以参考相关资料。