网页访客qq抓取( 编辑你的.htamless文档使用IP位址阻挡单一IP阻挡范围)

优采云 发布时间: 2022-04-07 06:17

  网页访客qq抓取(

编辑你的.htamless文档使用IP位址阻挡单一IP阻挡范围)

  

  使用 .htamless 阻止不受欢迎的访问者访问您的网页

  在这个 文章 中,我们将讨论“如何阻止不受欢迎的访问者或机器人使用 .htamless 访问您的页面”

  .htamless 是服务器中的一个隐藏文档,用于控制网页和其他工具之间的访问。

  按照以下步骤,我们可以阻止不受欢迎的访问者以几种不同的方式进入您的网页。

  编辑您的 .htamless 文档以使用 IP 地址阻止功能阻止单个 IP 地址

  从 123.123.123.123 拒绝

  阻止多个 IP 地址

  阻止IP范围,例如123.123.123.1 - 123.123.123.255,你也可以删除最后一组位。

  从 123.123.123 拒绝

  您还可以使用 CIDR(无类域间路由)来阻止 IP。

  块范围 123.123.123.1 - 123.123.123.255,使用 123.12 3.123.0/24

  块范围 123.123.64.1 - 123.123.127.255,使用 123.12 3.123.0/18

  从 123.123.123.0/24 拒绝

  根据 User-Agent 字符串阻止不良用户

  一些恶意用户会使用不同的 IP 发送请求,但在所有这些请求中,只使用相同的 User-Agent,在这种情况下,您可以直接阻止用户的 User-Agent 字符串。

  阻止单个不良用户代理

  如果你只想阻止一个特殊的 User-Agent 字符串,你可以使用 RewriteRule。

  RewriteEngine On RewriteCond %{HTTP_USER_AGENT}百度蜘蛛 [NC] RewriteRule .* - [F,L]

  BrowserMatchNoCase“Baiduspider”机器人

  Order Allow, Deny Allow from ALL Deny from env=bots

  阻止多个不良用户代理

  BrowserMatchNoCase "Baiduspider" 机器人 BrowserMatchNoCase "HTTrack" 机器人 BrowserMatchNoCase "Yandex" 机器人

  Order Allow, Deny Allow from ALL Deny from env=bots

  阻止不良参考链接(盗版)

  阻止一个坏的referer

  阻止单个参考链接

  RewriteEngine On RewriteCond %{HTTP_REFERER} [NC] RewriteRule .* - [F]

  Order Allow,Deny Allow from ALL Deny from env=bad_referer 阻止多个错误的referer

  阻止多个参考链接

  RewriteEngine On RewriteCond %{HTTP_REFERER} [NC,OR] RewriteCond %{HTTP_REFERER} [NC] RewriteRule .* - [F]

  SetEnvIfNoCase Referer ""bad_referer SetEnvIfNoCase Referer ""bad_referer

  Order Allow, Deny Allow from ALL Deny from env=bad_referer

  暂时阻止不良搜索机器人

  在某些情况下,您可能不想直接向访问者发送 403 消息,因为这是(长时间)拒绝访问该页面。

  例如,如果当天有营销活动,则网页会产生大量的网络流量。在此期间,您不希望像 GOOGLE 或 Yahoo 这样的优秀搜索引擎机器人进入您的网页并进行检索。网页,因为存在使用额外流量给服务器带来负担的风险

  以下代码将设置带有 503 响应的基本错误页面消息。这是默认的方式告诉搜索引擎请求只是暂时被阻止,可以在一段时间后再次尝试。503 响应与 403 响应不同。503 响应是通过 430 响应临时拒绝访问。例如,Google 确认是 503 响应后,他们会再次尝试检索该网页,而不是删除他的检索。

  当您注意到一些新的搜索机器人过于频繁地爬取(爬取)您的网页,并且您想阻止它们或降低它们的频率时,您可以使用 robots.txt 文件来处理它,这是一个不错的方法。

  下面的代码会抓取任何来自User-Agent的请求,包括搜索机器人、搜索爬虫、搜索蜘蛛,大部分主流搜索引擎都兼容,第二个RewriteCond就是让这些机器人仍然请求robots.txt文件来检查最新规则,但任何其他请求只会得到 503 响应或“站点暂时禁止抓取”。

  通常,如果您在使用两天后不想删除 503 响应,GOOGLE 可能会开始了解服务器长期中断,并将开始从 GOOGLE 的索引中删除您的 Web 链接。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线