网页访客qq抓取( 编辑你的.htamless文档使用IP位址阻挡单一IP阻挡范围)
优采云 发布时间: 2022-04-07 06:17网页访客qq抓取(
编辑你的.htamless文档使用IP位址阻挡单一IP阻挡范围)
使用 .htamless 阻止不受欢迎的访问者访问您的网页
在这个 文章 中,我们将讨论“如何阻止不受欢迎的访问者或机器人使用 .htamless 访问您的页面”
.htamless 是服务器中的一个隐藏文档,用于控制网页和其他工具之间的访问。
按照以下步骤,我们可以阻止不受欢迎的访问者以几种不同的方式进入您的网页。
编辑您的 .htamless 文档以使用 IP 地址阻止功能阻止单个 IP 地址
从 123.123.123.123 拒绝
阻止多个 IP 地址
阻止IP范围,例如123.123.123.1 - 123.123.123.255,你也可以删除最后一组位。
从 123.123.123 拒绝
您还可以使用 CIDR(无类域间路由)来阻止 IP。
块范围 123.123.123.1 - 123.123.123.255,使用 123.12 3.123.0/24
块范围 123.123.64.1 - 123.123.127.255,使用 123.12 3.123.0/18
从 123.123.123.0/24 拒绝
根据 User-Agent 字符串阻止不良用户
一些恶意用户会使用不同的 IP 发送请求,但在所有这些请求中,只使用相同的 User-Agent,在这种情况下,您可以直接阻止用户的 User-Agent 字符串。
阻止单个不良用户代理
如果你只想阻止一个特殊的 User-Agent 字符串,你可以使用 RewriteRule。
RewriteEngine On RewriteCond %{HTTP_USER_AGENT}百度蜘蛛 [NC] RewriteRule .* - [F,L]
BrowserMatchNoCase“Baiduspider”机器人
Order Allow, Deny Allow from ALL Deny from env=bots
阻止多个不良用户代理
BrowserMatchNoCase "Baiduspider" 机器人 BrowserMatchNoCase "HTTrack" 机器人 BrowserMatchNoCase "Yandex" 机器人
Order Allow, Deny Allow from ALL Deny from env=bots
阻止不良参考链接(盗版)
阻止一个坏的referer
阻止单个参考链接
RewriteEngine On RewriteCond %{HTTP_REFERER} [NC] RewriteRule .* - [F]
Order Allow,Deny Allow from ALL Deny from env=bad_referer 阻止多个错误的referer
阻止多个参考链接
RewriteEngine On RewriteCond %{HTTP_REFERER} [NC,OR] RewriteCond %{HTTP_REFERER} [NC] RewriteRule .* - [F]
SetEnvIfNoCase Referer ""bad_referer SetEnvIfNoCase Referer ""bad_referer
Order Allow, Deny Allow from ALL Deny from env=bad_referer
暂时阻止不良搜索机器人
在某些情况下,您可能不想直接向访问者发送 403 消息,因为这是(长时间)拒绝访问该页面。
例如,如果当天有营销活动,则网页会产生大量的网络流量。在此期间,您不希望像 GOOGLE 或 Yahoo 这样的优秀搜索引擎机器人进入您的网页并进行检索。网页,因为存在使用额外流量给服务器带来负担的风险
以下代码将设置带有 503 响应的基本错误页面消息。这是默认的方式告诉搜索引擎请求只是暂时被阻止,可以在一段时间后再次尝试。503 响应与 403 响应不同。503 响应是通过 430 响应临时拒绝访问。例如,Google 确认是 503 响应后,他们会再次尝试检索该网页,而不是删除他的检索。
当您注意到一些新的搜索机器人过于频繁地爬取(爬取)您的网页,并且您想阻止它们或降低它们的频率时,您可以使用 robots.txt 文件来处理它,这是一个不错的方法。
下面的代码会抓取任何来自User-Agent的请求,包括搜索机器人、搜索爬虫、搜索蜘蛛,大部分主流搜索引擎都兼容,第二个RewriteCond就是让这些机器人仍然请求robots.txt文件来检查最新规则,但任何其他请求只会得到 503 响应或“站点暂时禁止抓取”。
通常,如果您在使用两天后不想删除 503 响应,GOOGLE 可能会开始了解服务器长期中断,并将开始从 GOOGLE 的索引中删除您的 Web 链接。