抓取网页新闻(屏蔽主流搜索引擎爬虫(蜘蛛)//索引/收录网页的几种思路)
优采云 发布时间: 2021-12-18 07:09抓取网页新闻(屏蔽主流搜索引擎爬虫(蜘蛛)//索引/收录网页的几种思路)
中国IDC圈2月8日报道:一个网站已经搭建成功,之后的目标是希望搜索引擎能够及时收录,让更多的用户可以浏览和推广自己网站 产品产生购买欲望。但这样的愿望并不容易实现。有时我们也会遇到网站不需要搜索收录的情况。
例如,如果您要启用一个新域名作为镜像网站,主要用于PPC 推广,您必须想办法阻止搜索引擎蜘蛛抓取并索引我们镜像的所有网页网站。因为如果镜像网站也被搜索引擎收录搜索到了,很可能会影响官网在搜索引擎中的权重,这绝对是我们不想看到的结果.
下面列出了几种阻止主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的思路。注:全站屏蔽,尽量屏蔽所有主流搜索引擎的爬虫(蜘蛛)。
1、 通过服务器(如:Linux/nginx)配置文件设置直接过滤spider/robots的IP段。
小提示:第一、二招只对“君子”有效,防止“小人”动用第三招(“君子”和“小人”分别指遵守和不遵守robots.txt协议蜘蛛/机器人),所以网站上线后,继续跟踪和分析日志,过滤掉这些badbot的ip,然后阻止它们。
这里有一个badbot ip数据库:,通过meta标签屏蔽添加所有网站推广网页的头文件,添加如下语句:
3、通过robots.txt文件屏蔽可以说robots.txt文件是最重要的渠道(它可以与搜索引擎建立直接对话)。通过分析我自己的网站推广博客服务器日志文件,给出以下建议(同时欢迎广大网友补充):
用户代理:BaiduspiderDisallow: /User-agent: GooglebotDisallow: /User-agent: Googlebot-MobileDisallow: /User-agent: Googlebot-ImageDisallow:/User-agent: Mediapartners-GoogleDisallow: /User-agent: Adsbot-GoogleDisallow: /用户代理:Feedfetcher-GoogleDisallow:/用户代理:雅虎!SlurpDisallow:/用户代理:雅虎!Slurp ChinaDisallow: /User-agent: Yahoo!-AdCrawlerDisallow: /User-agent: YoudaoBotDisallow: /User-agent: SosospiderDisallow : /User-agent: 搜狗蜘蛛Disallow: /User-agent: 搜狗网络蜘蛛Disallow: /User-agent: MSNBotDisallow : /User-agent: ia_archiverDisallow: /User-agent: Tomato BotDisallow: /User-agent: *Disallow: /< @4、可以通过检查HTTP_USER_AGENT是否被爬虫/蜘蛛访问,然后直接阻止其他更新返回 403 状态代码以阻止它。例如:
5、通过搜索引擎提供的站长工具,删除网页快照。例如,有时百度并没有严格遵守robots.txt协议,您可以通过百度提供的“网站投诉”门户删除网页快照。百度网页投诉中心: 总结:关于屏蔽搜索引擎收录网页的方法,网站推广编辑会讲到。如果哪位朋友有更好的技术和方法,希望发布出来,大家交流学习。