网站内容采集(网站被数据采集了,怎么办?做网站的童鞋都知道)
优采云 发布时间: 2021-09-27 01:15网站内容采集(网站被数据采集了,怎么办?做网站的童鞋都知道)
网站 接收到的数据是采集,怎么办?
做网站童鞋的人都知道,网站采集的内容是正常的上网方式,尤其是那些专门搞垃圾的网站,他们的网站 内容基本都是在采集平台上进行,然后处理生成自己的网站内容。
如果我们自己的网站是别人的采集,会有什么后果?一般情况下,如果你的网站权重够高,内容基本都是原创,那你要是采集,问题不大。无非是转载的内容。但是如果你自己的网站本身权重一般,而且内容被采集去掉后,权重比你的网站还高,那么你的网站是有可能的它会被搜索引擎认为是采集,所以你的网站有被降级的风险。
如果我们发现网站的信息已经成为采集,我们首先要做的就是尽可能的防止这样的事情发生。
今天我们在查看网站访问日志的时候,发现其中很多记录都是可疑的:
80-175.29.18.154 Mozilla/5.0+(Windows+NT+10.0;+Win64;+x64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/73.0.3683.103+Safari/537.36 200 0 0 921
这是IIS访问日志的访问记录。有大量来自可疑IP的爬取记录。因此,我们有理由怀疑这是来自可疑 IP 的 采集 记录。网站因为数据已经采集,所以当务之急就是限制这个IP的访问。
网站 限制某个IP访问的常用方法有两种:
一种是通过在网站的服务器端设置来限制。可疑的是,可以从服务器IIS管理器设置,也可以通过网站空间管理平台设置(如果平台有此功能)
.
二是使用网站config文件进行限制。首先用记事本打开网站配置文件,在规则中添加限制规则代码:
这样就成功限制了来自175.29.*.*IP段的所有访问。
保存并上传到网站空间,可以限制当前IP段对采集的访问。然后,我们可以观察几天的日志文件,看看是否没有采集 来自该段。@采集记录。因此,一般来说,我们要养成详细查看和分析日志文件的习惯,从各种数据中发现问题,有针对性地解决。