网页访客qq抓取(阻挡单一IP位址如果你想一次阻挡单个不良User-Agent)
优采云 发布时间: 2022-04-07 06:15网页访客qq抓取(阻挡单一IP位址如果你想一次阻挡单个不良User-Agent)
在这个 文章 中,我们将讨论“如何使用 .htaccess 从您的网页阻止不需要的访问者或机器人”
.htaccess 是服务器上的一个隐藏文件,用于控制网页和其他工具之间的访问。
按照以下步骤,我们可以阻止不受欢迎的访问者以几种不同的方式进入您的网页。
编辑您的 .htaccess 文件
要使用任何方法阻止不受欢迎的访问者进入您的页面,您必须编辑 .htaccess 文件。
使用 IP 地址阻止
网页问题很可能是由一组或多组 IP 地址引起的。在这种情况下,您可以简单地编辑和设计一些代码来阻止这些有问题的 IP 地址访问您的网页权限。.
阻止单个 IP 地址
如果只想屏蔽一组IP或者不同范围的多个IP,可以使用设计编辑如下代码
从 123.123.123.123 拒绝
阻止多个 IP 地址
阻止IP范围,例如123.123.123.1 – 123.123.123.255,你也可以删除最后一组位。
从 123.123.123 拒绝
您还可以使用 CIDR(无类域间路由)来阻止 IP。
块范围 123.123.123.1 - 123.123.123.255,使用 123.12 3.123.0/24
块范围 123.123.64.1 – 123.123.127.255,使用 123.12 3.123.0/18
从 123.123.123.0/24 拒绝
根据 User-Agent 字符串阻止不良用户
一些恶意用户会使用不同的 IP 发送请求,但在所有这些请求中,只使用了相同的 User-Agent,在这种情况下,您可以直接阻止用户的 User-Agent 字符串。
阻止单个不良用户代理
如果只想阻止特定的 User-Agent 字符串,可以使用 RewriteRule。
重写引擎开启
RewriteCond %{HTTP_USER_AGENT}百度蜘蛛 [NC]
RewriteRule .* – [F,L]
或者,您也可以使用 BrowserMatchNoCase 服务器命令来设计和编辑以下代码
BrowserMatchNoCase“Baiduspider”机器人
订单允许,拒绝
全部允许
拒绝来自 env=bots
阻止多个不良用户代理
如果您想一次阻止多个 User-Agent,您可以设计和编辑以下代码。
重写引擎开启
RewriteCond %{HTTP_USER_AGENT} ^.*(Baiduspider|HTTrack|Yandex).*$ [NC]
RewriteRule .* – [F,L]
或者您可以使用 BrowserMatchNoCase 服务器命令来设计和编辑以下代码
BrowserMatchNoCase“Baiduspider”机器人
BrowserMatchNoCase “HTTrack” 机器人
BrowserMatchNoCase “Yandex” 机器人
订单允许,拒绝
全部允许
拒绝来自 env=bots
阻止不良参考链接(盗版)
阻止一个坏的referer
阻止单个参考链接
如果您只想阻止单个引用链接 eg: ,您可以使用 RewriteRule,设计和编辑以下代码
重写引擎开启
RewriteCond %{HTTP_REFERER} [NC]
重写规则。* - [F]
或者,您也可以使用 SetEnvIfNoCase 服务器命令来设计和编辑以下代码
,设计并编辑以下代码
SetEnvIfNoCase Referer “” bad_referer
订单允许,拒绝
全部允许
拒绝来自 env=bad_referer
阻止多个不良推荐人
阻止多个参考链接
如果要屏蔽多个引用链接如:,,可以设计编辑如下代码。
重写引擎开启
RewriteCond %{HTTP_REFERER} [NC,OR]
RewriteCond %{HTTP_REFERER} [NC]
重写规则。* - [F]
或者也可以使用SetEnvIfNoCase服务器命令,设计编辑如下代码
SetEnvIfNoCase Referer “” bad_referer
SetEnvIfNoCase Referer “” bad_referer
订单允许,拒绝
全部允许
拒绝来自 env=bad_referer
暂时阻止不良搜索机器人
在某些情况下,您可能不希望将 403 消息页面直接发送给访问者,因为这是(长时间)拒绝访问该页面。
例如,如果当天有营销活动,网页就会产生大量的网络流量。在此期间,您不希望像 GOOGLE 或 Yahoo 这样的优秀搜索引擎机器人进入您的网页并进行检索。网页,因为存在使用额外流量给服务器带来负担的风险
下面的代码将能够使用503响应方式来设置基本的错误页面信息,这是一种默认的方式告诉搜索引擎这个请求只是暂时被阻塞,可以在一段时间后再次尝试。503 响应与 403 响应不同。503 响应是通过 430 响应临时拒绝访问。例如,Google 确认是 503 响应后,他们会再次尝试检索该网页,而不是删除他的检索。
ErrorDocument 503“网站暂时禁止爬网”
重写引擎开启
RewriteCond %{HTTP_USER_AGENT} ^.*(bot|crawl|spider).*$ [NC]
RewriteCond %{REQUEST_URI} !^/robots.txt$
RewriteRule .* – [R=503,L]
当您注意到一些新的搜索机器人过于频繁地爬取(爬取)您的网页,而您想阻止它们或降低它们的频率时,您可以使用 robots.txt 文件来处理它,这是一个不错的方法。
同样,它会以 503 响应请求,直到他们读取您的新 robots.txt 规则并执行它。您可以阅读[如何使用 robots.txt 阻止搜索引擎抓取(抓取)您的网页?]
下面的代码会抓取任何来自User-Agent的请求,包括搜索机器人、搜索爬虫、搜索蜘蛛,大部分主流搜索引擎都兼容,第二个RewriteCond是让这些机器人仍然请求robots.txt文件来检查最新规则,但任何其他请求都只会得到 503 响应或“站点暂时禁止抓取”。
通常,如果您在使用两天后不想删除 503 响应,GOOGLE 可能会开始了解服务器长期中断,并将开始从 GOOGLE 的索引中删除您的 Web 链接。
声明:本站所有文章,除非另有说明或标记,均发布在本站原创。任何个人或组织,未经本站同意,不得复制、盗用、采集、将本站内容发布到任何网站、书籍等媒体平台。本站内容如有侵犯原作者合法权益的,您可以联系我们处理。