网页访客qq抓取(阻挡单一IP位址如果你想一次阻挡单个不良User-Agent)

优采云发布时间: 2022-04-07 06:15

　　在这个文章中，我们将讨论“如何使用 .htaccess 从您的网页阻止不需要的访问者或机器人”

　　.htaccess 是服务器上的一个隐藏文件，用于控制网页和其他工具之间的访问。

　　按照以下步骤，我们可以阻止不受欢迎的访问者以几种不同的方式进入您的网页。

　　编辑您的 .htaccess 文件

　　要使用任何方法阻止不受欢迎的访问者进入您的页面，您必须编辑 .htaccess 文件。

　　使用 IP 地址阻止

　　网页问题很可能是由一组或多组 IP 地址引起的。在这种情况下，您可以简单地编辑和设计一些代码来阻止这些有问题的 IP 地址访问您的网页权限。.

　　阻止单个 IP 地址

　　如果只想屏蔽一组IP或者不同范围的多个IP，可以使用设计编辑如下代码

　　从 123.123.123.123 拒绝

　　阻止多个 IP 地址

　　阻止IP范围，例如123.123.123.1 – 123.123.123.255，你也可以删除最后一组位。

　　从 123.123.123 拒绝

　　您还可以使用 CIDR（无类域间路由）来阻止 IP。

　　块范围 123.123.123.1 - 123.123.123.255，使用 123.12 3.123.0/24

　　块范围 123.123.64.1 – 123.123.127.255，使用 123.12 3.123.0/18

　　从 123.123.123.0/24 拒绝

　　根据 User-Agent 字符串阻止不良用户

　　一些恶意用户会使用不同的 IP 发送请求，但在所有这些请求中，只使用了相同的 User-Agent，在这种情况下，您可以直接阻止用户的 User-Agent 字符串。

　　阻止单个不良用户代理

　　如果只想阻止特定的 User-Agent 字符串，可以使用 RewriteRule。

　　重写引擎开启

　　RewriteCond %{HTTP_USER_AGENT}百度蜘蛛 [NC]

　　RewriteRule .* – [F,L]

　　或者，您也可以使用 BrowserMatchNoCase 服务器命令来设计和编辑以下代码

　　BrowserMatchNoCase“Baiduspider”机器人

　　订单允许，拒绝

　　全部允许

　　拒绝来自 env=bots

　　阻止多个不良用户代理

　　如果您想一次阻止多个 User-Agent，您可以设计和编辑以下代码。

　　重写引擎开启

　　RewriteCond %{HTTP_USER_AGENT} ^.*(Baiduspider|HTTrack|Yandex).*$ [NC]

　　RewriteRule .* – [F,L]

　　或者您可以使用 BrowserMatchNoCase 服务器命令来设计和编辑以下代码

　　BrowserMatchNoCase“Baiduspider”机器人

　　BrowserMatchNoCase “HTTrack” 机器人

　　BrowserMatchNoCase “Yandex” 机器人

　　订单允许，拒绝

　　全部允许

　　拒绝来自 env=bots

　　阻止不良参考链接（盗版）

　　阻止一个坏的referer

　　阻止单个参考链接

　　如果您只想阻止单个引用链接 eg: ，您可以使用 RewriteRule，设计和编辑以下代码

　　重写引擎开启

　　RewriteCond %{HTTP_REFERER} [NC]

　　重写规则。* - [F]

　　或者，您也可以使用 SetEnvIfNoCase 服务器命令来设计和编辑以下代码

　　，设计并编辑以下代码

　　SetEnvIfNoCase Referer “” bad_referer

　　订单允许，拒绝

　　全部允许

　　拒绝来自 env=bad_referer

　　阻止多个不良推荐人

　　阻止多个参考链接

　　如果要屏蔽多个引用链接如:,，可以设计编辑如下代码。

　　重写引擎开启

　　RewriteCond %{HTTP_REFERER} [NC,OR]

　　RewriteCond %{HTTP_REFERER} [NC]

　　重写规则。* - [F]

　　或者也可以使用SetEnvIfNoCase服务器命令，设计编辑如下代码

　　SetEnvIfNoCase Referer “” bad_referer

　　订单允许，拒绝

　　全部允许

　　拒绝来自 env=bad_referer

　　暂时阻止不良搜索机器人

　　在某些情况下，您可能不希望将 403 消息页面直接发送给访问者，因为这是（长时间）拒绝访问该页面。

　　例如，如果当天有营销活动，网页就会产生大量的网络流量。在此期间，您不希望像 GOOGLE 或 Yahoo 这样的优秀搜索引擎机器人进入您的网页并进行检索。网页，因为存在使用额外流量给服务器带来负担的风险

　　下面的代码将能够使用503响应方式来设置基本的错误页面信息，这是一种默认的方式告诉搜索引擎这个请求只是暂时被阻塞，可以在一段时间后再次尝试。503 响应与 403 响应不同。503 响应是通过 430 响应临时拒绝访问。例如，Google 确认是 503 响应后，他们会再次尝试检索该网页，而不是删除他的检索。

　　ErrorDocument 503“网站暂时禁止爬网”

　　重写引擎开启

　　RewriteCond %{HTTP_USER_AGENT} ^.*(bot|crawl|spider).*$ [NC]

　　RewriteCond %{REQUEST_URI} !^/robots.txt$

　　RewriteRule .* – [R=503,L]

　　当您注意到一些新的搜索机器人过于频繁地爬取（爬取）您的网页，而您想阻止它们或降低它们的频率时，您可以使用 robots.txt 文件来处理它，这是一个不错的方法。

　　同样，它会以 503 响应请求，直到他们读取您的新 robots.txt 规则并执行它。您可以阅读[如何使用 robots.txt 阻止搜索引擎抓取（抓取）您的网页？]

　　下面的代码会抓取任何来自User-Agent的请求，包括搜索机器人、搜索爬虫、搜索蜘蛛，大部分主流搜索引擎都兼容，第二个RewriteCond是让这些机器人仍然请求robots.txt文件来检查最新规则，但任何其他请求都只会得到 503 响应或“站点暂时禁止抓取”。

　　通常，如果您在使用两天后不想删除 503 响应，GOOGLE 可能会开始了解服务器长期中断，并将开始从 GOOGLE 的索引中删除您的 Web 链接。

　　声明：本站所有文章，除非另有说明或标记，均发布在本站原创。任何个人或组织，未经本站同意，不得复制、盗用、采集、将本站内容发布到任何网站、书籍等媒体平台。本站内容如有侵犯原作者合法权益的，您可以联系我们处理。

0

2022-04-07

网页访客qq抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页访客qq抓取(阻挡单一IP位址如果你想一次阻挡单个不良User-Agent)

0 个评论

发起人