php禁止网页抓取(如何快速镜像一个网站(应用防火墙)(图))
优采云 发布时间: 2021-09-22 19:11php禁止网页抓取(如何快速镜像一个网站(应用防火墙)(图))
上部文章文章 description“如何快速镜像网站”,而是作为一个安全工作者,我们的目的是防止网站镜像。
本文提出了一些方法来防止网站 @ @ @ @ @ @ @“。
实际上是防止爬行动物的方法,如下参考。
1、尝试将静态页面调整为动态页面,例如html-> JSP,ASP,PHP
2、如果基于apache 网站 网站,则可以配置用户代理
SetEnvIfNoCase User-Agent "^Wget" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.5.3" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.6" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
3、如果基于nginx 网站,则可以配置用户代理
## Block http user agent - wget ##
if ($http_user_agent ~* (Wget) ) {
return 403;
}
## Block Software download user agents ##
if ($http_user_agent ~* LWP::Simple|BBBike|wget) {
return 403;
3、在网站根目录下放置robots.txt,常规爬行程序程序将优先考虑robots.txt文件,然后根据规则进一步处理,例如禁止抓取图片,配置以下
User-agent: *
Disallow: .jpg$
4、 write脚本,将web服务器组合到访问日志和iptables,如果在短时间内过于频繁访问相同的IP,则防止此IP。
5、购购WAF(Web应用程序防火墙)