文章句子采集软件(实用的网站防止被镜像/反代,防采集方法大全)
优采云 发布时间: 2022-01-26 09:03文章句子采集软件(实用的网站防止被镜像/反代,防采集方法大全)
前言
网站被镜像、被倒置、被网站抄袭采集,所有辛苦写原创的作者都不希望这样的事情发生在自己身上。如果抄袭采集网站的排名高于原创,味道会更差。
本文总结了一些实用的网站防止被镜像/反向生成的方法和采集,希望对原创作者有所帮助。
网站防止被镜像/反转
防止网站被直接取反
Nginx、Caddy等web软件拥有强大的反向代理能力,可以轻松完美地镜像/反向一个网站与sub_filter、proxy_redirect等命令。
有两种主要方法可以防止这种反向生成:
1. 前端使用js判断域名是否合法,如果不是授权域名则跳转到原域名。这是一个示例代码:
var domain = "你的网站域名"; // 例如 www.zsxcool.com
if (location.href.indexOf(domain) === -1) {
window.location = '要跳转的网址'; // 例如 https://www.zsxcool.com
}
肯定有网友会担心这个js里的域名也会被替换掉,达不到预期的效果。解决这个问题的办法就是对js进行混淆处理,比如使用JSFuck,这样几乎没人能理解代码的真正意图,更别说替换了。
2. 分析后端访问日志,将可疑 IP 添加到黑名单或限制访问频率。确保你的网站被镜像/反向,并且对方仍然流行网站,那么它的IP应该经常出现在访问日志中。分析网站日志,将可疑IP加入黑名单或限制访问,一定程度上可以解决被逆向的问题。
两种方式中,强烈推荐第一种部署,不仅简单有效,而且部署起来也非常方便。
防止 网站 被 iframe 反转
上面的方法可以防止直接倒置,但是可以通过embedding iframe的方式绕过,即将网站嵌入到frame中。这种情况下,无论是使用上面的js前端判断还是后端日志分析,一切正常。
防止网站通过frame方法被第三方反转的解决方案有:
1. 前端JS判断网页是否为顶级页面,如果不是则跳转。下面是判断是否是顶级页面的js代码:
if (window.top != window.self) {
window.top.location = '你的网址'; // 例如 https://www.zsxcool.com
}
同样,建议在部署时首先混淆此代码。
2. 页面输出时添加不允许嵌套在框架中的header。有两个主要的标头:旧的 X-FRAME-OPTIONS 和现代浏览器支持的 Content-Security-Policy。例如,您可以向 /etc/nginx/nginx.conf 添加指令:
# 一般来说写一个就足够,写两个更好
add_header X-FRAME-OPTIONS DENY;
add_header Content-Security-Policy "frame-ancestors 'none';";
或者写入 Apache 的 .htaccess 文件:
Header set X-FRAME-OPTIONS "deny"
Header set Content-Security-Policy "frame-ancestors 'none';"
当浏览器看到这两个标头时,它会拒绝在 iframe 中显示页面,从而阻止这种镜像/反转方法。
防止网站被镜像/反向汇总
镜像/反向生成主要有两种方法网站,都可以通过前后端结合来防止。如果你不希望你的网站被镜像/反转,最简单的方法就是将上面两段js代码混淆后与页面一起输出,并设置X-FRAME-OPTIONS和Content-Security-策略同时标头。
网站预防采集提示
一般来说,转载不同于采集:看到好的文章,就会被分享转载,大部分都是手动操作;,无论 文章 质量如何。当然,即使是转载,也要给出原文的链接。这是对原作者的一种基本素质和尊重。
遗憾的是,中国互联网上有大量的文章抄袭采集,以每日头条和热备信息为代表。这些采集网站使用的软件很多采集others原创文章,排名非常高,极大地促进了原创依靠< @采集 吸引流动的精神。这种不给原文链接、不尊重原作者作品的采集行为需要杜绝和抵制。
网站反采集
网站预防采集技巧与方法总结
首先,对于内容是前端动态生成的网站来说,采集难度更大,因为大部分采集程序都不运行JS脚本。如果你熟悉构建JAMstack网站,使用JS输出网页内容可以有效避开新手采集。值得注意的是,这种方式请做后端API的鉴权和限流。
第二种方法和第一种类似:后端输出加密内容,前端js解密显示原文。这个技巧对程序 采集 很有效,但不会影响正常的用户访问。但是请注意,这种方法可能对 SEO 不友好。
第三种方法不能考虑防止采集,但可以算是一个小技巧,强制采集网站带原文链接。这样做的方法是在每个 文章 中随机添加一个带有原文链接的句子或段落,同时为元素添加一个不可见的类。注意不可见的设置需要写在css类中,不能直接写在元素的style属性上,否则采集之后对方也会不可见。这篇文章中有一段带有文章链接,但是页面上看不到,你能找到吗?
另外,很多采集软件可以自动替换已经采集的网址,如果你想保留你的网站的链接,可以考虑使用网址缩短服务。
最后一个选项是检查 网站 访问日志并将可疑 IP 列入黑名单。采集网站一般会定期或频繁访问网站,根据这些特征可以发现可疑IP。需要注意的是,如果网站支持RSS订阅,记得输出摘要而不是原文,否则采集太方便了。
网站预防采集总结
严格来说,没有确定有效的方法来防止采集,以上方法只是为了增加采集的难度。从技术角度看,防御采集是一场战术对抗,需要不断的投入才能不断解决新的采集方法。
参考
1.如何防止我的网站页面通过 iFrame 的第 3 方网站框架加载
2.如何防止您的网站被放置在框架中
3.如何防止网站内容被采集