网站内容采集(网页内容防采集策略研究(一):杜绝访问判断同一IP)
优采云 发布时间: 2021-11-25 00:02网站内容采集(网页内容防采集策略研究(一):杜绝访问判断同一IP)
网页内容预防采集策略研究总结:网页内容采集主要是指批量抓取某个网站整个网站的网页内容或部分网页内容给自己网站一种技术手段,非法网页内容采集,不仅无法有效保护版权信息,而且当批量采集,尤其是收录多媒体元素和软件的页面采集时时间,网站所在服务器的负载会增加,普通用户的浏览速度会下降。关键词:网站 Web content采集 中文图书馆分类号:文献识别码:A文章 编号:1007-9416(2010)05-0000-00所谓网页采集 无非是采集关于我们浏览的网页内容,包括文字信息、图片信息和视频、声音、软件信息等,采集由采集程序编写或通过系统本身的很多cms功能,编写采集规则获取需要的内容。采集的方法一般可以分为拦截。并过滤两种,即拦截指定区域的HTML代码,过滤掉这部分代码不需要的内容,如广告信息、版权信息、标签标签等,以达到采集的去伪存精的过程一般如下:先读取文章列表,再读取文章的内容 根据文章列表中的链接,一一过滤文章的内容,得到需要的信息。根据采集的方法和步骤,我们可以从两个方面来防止:增加列表采集的难度,防止采集出现在内容页。可以采用技术手段,尽可能将采集屏蔽在外面,让采集无法访问和读取
或者,为了处理采集页面的内容,增加采集的难度,这样即使采集人采集数据,采集收到的信息不可用或不能直接使用。1 确定来源,阻止访问。判断一定时间内同一IP访问本站页面的次数。如果明显高于正常人的浏览速度,说明源IP有采集的可能性,则拒绝IP访问,否则放手。这种方法不难实现。在动态网站中,可以通过在页面头部添加部分程序代码来实现,静态页面可以通过javascript代码实现。这个策略对于防止采集非常有效,但会严重影响搜索引擎蜘蛛对本站内容的收录。对于不太依赖搜索引擎的网站,可以采用这种方法。2 增加批量列表中的难度信息采集采集,从获取信息列表开始,从信息列表中的超链接开始,然后是采集二级页面内容,这样列表被密封 页面上的采集也会屏蔽其他内容页面上的采集。采取的一般策略是改变列表方法并尝试使其不规则。对方很难采集???获取正确的内容链接,增加采集的难度。2.1 破坏链接对应的标签,使链接不规则。例如:列表中有以下链接: Title 1 Title 2 可以改为: Title 1 Title 2 在第二个链接中,去掉引号中的链接地址,浏览器解析正常,但是对方会写< @采集 规则。有一定的难度。2.2 随机添加一些干扰链接,增加对方误码率采集例如在信息列表中像下面这样散布添加干扰链接: 随机文本标题,然后使用相同的模板为其他内容页面创建一个网页文件aa。asp、aa.asp页面的标题和内容是动态随机生成的,目的是为了让对方采集,因为有些采集 Title 1 Title 2 在第二个链接中,去掉引号中的链接地址,浏览器解析正常,但是对方会写采集规则。有一定的难度。2.2 随机添加一些干扰链接,增加对方误码率采集例如在信息列表中像下面这样散布添加干扰链接: 随机文本标题,然后使用相同的模板为其他内容页面创建一个网页文件aa。asp、aa.asp页面的标题和内容是动态随机生成的,目的是为了让对方采集,因为有些采集 Title 1 Title 2 在第二个链接中,去掉引号中的链接地址,浏览器解析正常,但是对方会写采集规则。有一定的难度。2.2 随机添加一些干扰链接,增加对方误码率采集例如在信息列表中像下面这样散布添加干扰链接: 随机文本标题,然后使用相同的模板为其他内容页面创建一个网页文件aa。asp、aa.asp页面的标题和内容是动态随机生成的,目的是为了让对方采集,因为有些采集 有一定的难度。2.2 随机添加一些干扰链接,增加对方误码率采集例如在信息列表中像下面这样散布添加干扰链接: 随机文本标题,然后使用相同的模板为其他内容页面创建一个网页文件aa。asp、aa.asp页面的标题和内容是动态随机生成的,目的是为了让对方采集,因为有些采集 有一定的难度。2.2 随机添加一些干扰链接,增加对方误码率采集例如在信息列表中像下面这样散布添加干扰链接: 随机文本标题,然后使用相同的模板为其他内容页面创建一个网页文件aa。asp、aa.asp页面的标题和内容是动态随机生成的,目的是为了让对方采集,因为有些采集
然后在样式表中添加样式:#notext{display:none;} 这样你添加的干扰链接就不会显示在你的页面上。但是由于该链接及其对应的内容页面和其他链接一样正常,可以同时被对方采集传递,而这些文章内容是无意义的代码,增加了对方采集后期编辑修改工作量可以让对方退却。3 内容页的采集反采集策略采集的最终目标是采集网页的具体内容,只有采集到文章 list 和 采集 not 内容或者采集收到的内容不符合要求,这样的采集是没有意义的。您可以从以下几个方面进行防范。3.1 加密页面的内容通过Javascript加密,然后通过Javascript代码解密输出。这样,采集的内容只能是一些不规则的加密代码,没有任何意义,这种方式可以有效防止采集,但会严重影响搜索引擎收录,并且降低页面加载速度。适合对搜索引擎要求不高,关注版权信息的人。网站,普通的网站用的不多。3.2 将文本内容改为图片格式或其他格式,如pdf、swf等。这种方法是通过一些转换软件或将网页的正文内容转换为图片格式或其他非html格式或程序代码,
<p>比如腾讯阅读频道,所有VIP阅读部分都采用了这种方式。这种方式可以有效的保护知识产权,但仍然不利于搜索引擎收录。对于一些不依赖搜索引擎的网站,可以使用。3.3 设置浏览权限,只允许登录的用户浏览网页内容。此方法适用于动态网站,但也会严重影响搜索引擎蜘蛛收录,但此方法对防止一般采集程序更为有效。3.4 将内容页面中的特定标签替换为“特定标签+随机隐藏版权文本”。这是很多cms系统默认的反采集策略,也就是采集 过去的信息会随机显示一些版本??已经采集网站的文本,但是这种方式对于采集是完全允许的,同时对方可以把采集的版权文本放入进来内容被过滤掉或替换为其他信息。如果使用这种方法来防止采集,建议尽量设置更多的随机字符串,以增加过滤难度。3.5 内容页代码无规则。当前的网站不管是动态的网站还是静态的网站,一般都是后台输入的数据,前台会按照统一的模板展示出来。由于内容模板单一,html代码规律性强,容易写采集规则,所以很容易被< @采集。因此,在创建模板时,尽量让代码规则不明显,以增加采集的难度。3.5.1 使用重复标签采集页面内容时,一般包括作为采集内容一部分的标签作为采集标记写