文章句子采集软件(实用的网站防止被镜像/反代，防采集方法大全)

优采云发布时间: 2022-01-26 09:03

　　前言

　　网站被镜像、被倒置、被网站抄袭采集，所有辛苦写原创的作者都不希望这样的事情发生在自己身上。如果抄袭采集网站的排名高于原创，味道会更差。

　　本文总结了一些实用的网站防止被镜像/反向生成的方法和采集，希望对原创作者有所帮助。

　　网站防止被镜像/反转

　　防止网站被直接取反

　　Nginx、Caddy等web软件拥有强大的反向代理能力，可以轻松完美地镜像/反向一个网站与sub_filter、proxy_redirect等命令。

　　有两种主要方法可以防止这种反向生成：

　　1. 前端使用js判断域名是否合法，如果不是授权域名则跳转到原域名。这是一个示例代码：

　　var domain = "你的网站域名"; // 例如 www.zsxcool.com

if (location.href.indexOf(domain) === -1) {

window.location = '要跳转的网址'; // 例如 https://www.zsxcool.com

}

　　肯定有网友会担心这个js里的域名也会被替换掉，达不到预期的效果。解决这个问题的办法就是对js进行混淆处理，比如使用JSFuck，这样几乎没人能理解代码的真正意图，更别说替换了。

　　2. 分析后端访问日志，将可疑 IP 添加到黑名单或限制访问频率。确保你的网站被镜像/反向，并且对方仍然流行网站，那么它的IP应该经常出现在访问日志中。分析网站日志，将可疑IP加入黑名单或限制访问，一定程度上可以解决被逆向的问题。

　　两种方式中，强烈推荐第一种部署，不仅简单有效，而且部署起来也非常方便。

　　防止网站被 iframe 反转

　　上面的方法可以防止直接倒置，但是可以通过embedding iframe的方式绕过，即将网站嵌入到frame中。这种情况下，无论是使用上面的js前端判断还是后端日志分析，一切正常。

　　防止网站通过frame方法被第三方反转的解决方案有：

　　1. 前端JS判断网页是否为顶级页面，如果不是则跳转。下面是判断是否是顶级页面的js代码：

　　if (window.top != window.self) {

window.top.location = '你的网址'; // 例如 https://www.zsxcool.com

}

　　同样，建议在部署时首先混淆此代码。

　　2. 页面输出时添加不允许嵌套在框架中的header。有两个主要的标头：旧的 X-FRAME-OPTIONS 和现代浏览器支持的 Content-Security-Policy。例如，您可以向 /etc/nginx/nginx.conf 添加指令：

　　# 一般来说写一个就足够，写两个更好

add_header X-FRAME-OPTIONS DENY;

add_header Content-Security-Policy "frame-ancestors 'none';";

　　或者写入 Apache 的 .htaccess 文件：

　　Header set X-FRAME-OPTIONS "deny"

Header set Content-Security-Policy "frame-ancestors 'none';"

　　当浏览器看到这两个标头时，它会拒绝在 iframe 中显示页面，从而阻止这种镜像/反转方法。

　　防止网站被镜像/反向汇总

　　镜像/反向生成主要有两种方法网站，都可以通过前后端结合来防止。如果你不希望你的网站被镜像/反转，最简单的方法就是将上面两段js代码混淆后与页面一起输出，并设置X-FRAME-OPTIONS和Content-Security-策略同时标头。

　　网站预防采集提示

　　一般来说，转载不同于采集：看到好的文章，就会被分享转载，大部分都是手动操作；，无论文章质量如何。当然，即使是转载，也要给出原文的链接。这是对原作者的一种基本素质和尊重。

　　遗憾的是，中国互联网上有大量的文章抄袭采集，以每日头条和热备信息为代表。这些采集网站使用的软件很多采集others原创文章，排名非常高，极大地促进了原创依靠< @采集吸引流动的精神。这种不给原文链接、不尊重原作者作品的采集行为需要杜绝和抵制。

　　网站反采集

　　网站预防采集技巧与方法总结

　　首先，对于内容是前端动态生成的网站来说，采集难度更大，因为大部分采集程序都不运行JS脚本。如果你熟悉构建JAMstack网站，使用JS输出网页内容可以有效避开新手采集。值得注意的是，这种方式请做后端API的鉴权和限流。

　　第二种方法和第一种类似：后端输出加密内容，前端js解密显示原文。这个技巧对程序采集很有效，但不会影响正常的用户访问。但是请注意，这种方法可能对 SEO 不友好。

　　第三种方法不能考虑防止采集，但可以算是一个小技巧，强制采集网站带原文链接。这样做的方法是在每个文章中随机添加一个带有原文链接的句子或段落，同时为元素添加一个不可见的类。注意不可见的设置需要写在css类中，不能直接写在元素的style属性上，否则采集之后对方也会不可见。这篇文章中有一段带有文章链接，但是页面上看不到，你能找到吗？

　　另外，很多采集软件可以自动替换已经采集的网址，如果你想保留你的网站的链接，可以考虑使用网址缩短服务。

　　最后一个选项是检查网站访问日志并将可疑 IP 列入黑名单。采集网站一般会定期或频繁访问网站，根据这些特征可以发现可疑IP。需要注意的是，如果网站支持RSS订阅，记得输出摘要而不是原文，否则采集太方便了。

　　网站预防采集总结

　　严格来说，没有确定有效的方法来防止采集，以上方法只是为了增加采集的难度。从技术角度看，防御采集是一场战术对抗，需要不断的投入才能不断解决新的采集方法。

　　参考

　　1.如何防止我的网站页面通过 iFrame 的第 3 方网站框架加载

　　2.如何防止您的网站被放置在框架中

　　3.如何防止网站内容被采集

0

2022-01-26

文章句子采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章句子采集软件(实用的网站防止被镜像/反代，防采集方法大全)

0 个评论

发起人

AI时代内容工厂

文章句子采集软件(实用的网站防止被镜像/反代，防采集方法大全)

0 个评论

发起人

相关问题