网页访客qq抓取(阻挡单一IP位址如果你想一次阻挡单个不良User-Agent)

优采云 发布时间: 2022-04-07 06:15

  网页访客qq抓取(阻挡单一IP位址如果你想一次阻挡单个不良User-Agent)

  在这个 文章 中,我们将讨论“如何使用 .htaccess 从您的网页阻止不需要的访问者或机器人”

  .htaccess 是服务器上的一个隐藏文件,用于控制网页和其他工具之间的访问。

  按照以下步骤,我们可以阻止不受欢迎的访问者以几种不同的方式进入您的网页。

  编辑您的 .htaccess 文件

  要使用任何方法阻止不受欢迎的访问者进入您的页面,您必须编辑 .htaccess 文件。

  使用 IP 地址阻止

  网页问题很可能是由一组或多组 IP 地址引起的。在这种情况下,您可以简单地编辑和设计一些代码来阻止这些有问题的 IP 地址访问您的网页权限。.

  阻止单个 IP 地址

  如果只想屏蔽一组IP或者不同范围的多个IP,可以使用设计编辑如下代码

  从 123.123.123.123 拒绝

  阻止多个 IP 地址

  阻止IP范围,例如123.123.123.1 – 123.123.123.255,你也可以删除最后一组位。

  从 123.123.123 拒绝

  您还可以使用 CIDR(无类域间路由)来阻止 IP。

  块范围 123.123.123.1 - 123.123.123.255,使用 123.12 3.123.0/24

  块范围 123.123.64.1 – 123.123.127.255,使用 123.12 3.123.0/18

  从 123.123.123.0/24 拒绝

  根据 User-Agent 字符串阻止不良用户

  一些恶意用户会使用不同的 IP 发送请求,但在所有这些请求中,只使用了相同的 User-Agent,在这种情况下,您可以直接阻止用户的 User-Agent 字符串。

  阻止单个不良用户代理

  如果只想阻止特定的 User-Agent 字符串,可以使用 RewriteRule。

  重写引擎开启

  RewriteCond %{HTTP_USER_AGENT}百度蜘蛛 [NC]

  RewriteRule .* – [F,L]

  或者,您也可以使用 BrowserMatchNoCase 服务器命令来设计和编辑以下代码

  BrowserMatchNoCase“Baiduspider”机器人

  订单允许,拒绝

  全部允许

  拒绝来自 env=bots

  阻止多个不良用户代理

  如果您想一次阻止多个 User-Agent,您可以设计和编辑以下代码。

  重写引擎开启

  RewriteCond %{HTTP_USER_AGENT} ^.*(Baiduspider|HTTrack|Yandex).*$ [NC]

  RewriteRule .* – [F,L]

  或者您可以使用 BrowserMatchNoCase 服务器命令来设计和编辑以下代码

  BrowserMatchNoCase“Baiduspider”机器人

  BrowserMatchNoCase “HTTrack” 机器人

  BrowserMatchNoCase “Yandex” 机器人

  订单允许,拒绝

  全部允许

  拒绝来自 env=bots

  阻止不良参考链接(盗版)

  阻止一个坏的referer

  阻止单个参考链接

  如果您只想阻止单个引用链接 eg: ,您可以使用 RewriteRule,设计和编辑以下代码

  重写引擎开启

  RewriteCond %{HTTP_REFERER} [NC]

  重写规则。* - [F]

  或者,您也可以使用 SetEnvIfNoCase 服务器命令来设计和编辑以下代码

  ,设计并编辑以下代码

  SetEnvIfNoCase Referer “” bad_referer

  订单允许,拒绝

  全部允许

  拒绝来自 env=bad_referer

  阻止多个不良推荐人

  阻止多个参考链接

  如果要屏蔽多个引用链接如:,,可以设计编辑如下代码。

  重写引擎开启

  RewriteCond %{HTTP_REFERER} [NC,OR]

  RewriteCond %{HTTP_REFERER} [NC]

  重写规则。* - [F]

  或者也可以使用SetEnvIfNoCase服务器命令,设计编辑如下代码

  SetEnvIfNoCase Referer “” bad_referer

  SetEnvIfNoCase Referer “” bad_referer

  订单允许,拒绝

  全部允许

  拒绝来自 env=bad_referer

  暂时阻止不良搜索机器人

  在某些情况下,您可能不希望将 403 消息页面直接发送给访问者,因为这是(长时间)拒绝访问该页面。

  例如,如果当天有营销活动,网页就会产生大量的网络流量。在此期间,您不希望像 GOOGLE 或 Yahoo 这样的优秀搜索引擎机器人进入您的网页并进行检索。网页,因为存在使用额外流量给服务器带来负担的风险

  下面的代码将能够使用503响应方式来设置基本的错误页面信息,这是一种默认的方式告诉搜索引擎这个请求只是暂时被阻塞,可以在一段时间后再次尝试。503 响应与 403 响应不同。503 响应是通过 430 响应临时拒绝访问。例如,Google 确认是 503 响应后,他们会再次尝试检索该网页,而不是删除他的检索。

  ErrorDocument 503“网站暂时禁止爬网”

  重写引擎开启

  RewriteCond %{HTTP_USER_AGENT} ^.*(bot|crawl|spider).*$ [NC]

  RewriteCond %{REQUEST_URI} !^/robots.txt$

  RewriteRule .* – [R=503,L]

  当您注意到一些新的搜索机器人过于频繁地爬取(爬取)您的网页,而您想阻止它们或降低它们的频率时,您可以使用 robots.txt 文件来处理它,这是一个不错的方法。

  同样,它会以 503 响应请求,直到他们读取您的新 robots.txt 规则并执行它。您可以阅读[如何使用 robots.txt 阻止搜索引擎抓取(抓取)您的网页?]

  下面的代码会抓取任何来自User-Agent的请求,包括搜索机器人、搜索爬虫、搜索蜘蛛,大部分主流搜索引擎都兼容,第二个RewriteCond是让这些机器人仍然请求robots.txt文件来检查最新规则,但任何其他请求都只会得到 503 响应或“站点暂时禁止抓取”。

  通常,如果您在使用两天后不想删除 503 响应,GOOGLE 可能会开始了解服务器长期中断,并将开始从 GOOGLE 的索引中删除您的 Web 链接。

  声明:本站所有文章,除非另有说明或标记,均发布在本站原创。任何个人或组织,未经本站同意,不得复制、盗用、采集、将本站内容发布到任何网站、书籍等媒体平台。本站内容如有侵犯原作者合法权益的,您可以联系我们处理。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线