网站内容采集(网页内容,采集)

优采云发布时间: 2022-03-19 21:21

　　网站内容采集(网页内容,采集)

　　摘要：网页内容采集主要是指将某个网站的整个网页内容或部分网页内容批量抓取到自己的网站的技术手段，非法网页页面内容网站@采集，不仅不能有效保护版权信息，而且当批量采集，尤其是含有多媒体元素和软件的页面为采集时，导致网站定位服务器负载增加，普通用户浏览速度下降。

　　关键词:网站网页内容采集

　　CLC 编号：文件识别码：A文章编号：1007-9416(2010)05-0000-00

　　所谓网页采集无非就是我们浏览的网页内容的采集，包括文字信息、图片信息以及视频、声音、软件信息等。 > 程序或者通过系统本身的很多cms函数，编写采集规则来获取需要的内容。采集的方法一般可以分为拦截和过滤两种，即拦截指定区域的HTML代码，过滤这部分代码中不需要的内容，比如广告信息、版权信息、标签等，以达到杜绝虚假信息的目的。采集的过程一般遵循以下步骤：先读取文章列表，再读取文章的内容

　　根据采集的方法和步骤，我们可以从两个方面进行防范：增加采集的上架难度，以及阻止采集的内容页面。通过技术手段，可以尽可能地屏蔽采集用户，使其无法访问和阅读属于采集的页面。或者，将页面内容处理为采集增加了采集的难度，使得即使采集采集数据，获取到的信息采集也不可用或无法获取直接使用。

　　1 确定来源并阻止访问

　　判断同一IP在一定时间内访问网站的次数，如果明显超过正常人的浏览速度，说明源IP有采集的可能，IP访问将是拒绝，否则将被释放。这种方法实施起来并不难。在动态的网站中，可以通过在页面头部添加一部分程序代码来实现，静态页面可以通过javascript代码来实现。

　　这个策略对防止采集非常有效，但是会严重影响搜索引擎蜘蛛对本站内容的收录，对于不支持的网站可以采用这种方法过于依赖搜索引擎。

　　2 增加列表难度采集

　　这批信息采集从获取信息列表开始，从信息列表中的超链接开始，再到采集二级页面内容，所以列表页的采集是密封的，刚刚阻止采集访问其他内容页面。一般的策略是改变上架方式，尽量做到不规则，采集时对方很难得到正确的内容链接，增加了采集的难度。

　　2.1 打乱链接对应的标签，使链接不规则。

　　例如：列表中有以下链接：

　　标题一

　　标题二

　　可以改为：

　　标题一

　　标题二

　　第二个链接中，去掉了链接地址的引号，浏览器正常解析，但是对方很难写出采集规则。

　　2.2 随机添加一些干扰链路，增加对方采集的误码率

　　例如，在信息列表中穿插以下干扰链接：

　　随机文本标题

　　然后使用与其他内容页面相同的模板创建网页文件aa.asp，aa.asp页面中的标题和内容是动态随机生成的，目的是让对方采集访问, 因为有些采集程序的页面有重复或空的内容不是采集。然后将样式添加到样式表中：

　　#notext{显示：无；}

　　这样，您添加的分散注意力的链接就不会显示在您的页面上。但是，由于链接及其对应的内容页面和其他链接一样正常，可以同时被对方采集传递，而这些文章的内容是无意义的代码，增加了对方的号码采集 @采集后期编辑修改的工作量可以让对方不顾一切的退缩。

　　3 反采集内容页面策略

　　采集的最终目的是采集网页的具体内容，只采集到文章列表，采集不到内容或< @采集对内容不符合要求，这样的采集是没有意义的。可以从以下几个方面来预防。

　　3.1 加密页面内容

　　页面内容通过Javascript加密，然后通过Javascript代码解密输出。这样采集收到的内容只能是一些不规则的加密代码，没有任何意义。这种方式可以有效防止采集，但是会严重影响搜索引擎收录，降低页面加载速度，适合一些对搜索引擎要求不高，重视的网站到版权信息，普通的网站用的不多。

　　3.2 将文本内容改为图片格式或pdf、swf等格式

　　该方法是通过一些转换软件或程序代码将网页的正文内容转换为图片格式或其他非html格式，并在图片的背景上添加收录版权信息的水印。下来，删除版权信息也很困难。比如腾讯阅读频道，所有VIP阅读栏目都采用了这种方式。

　　这种方法可以有效保护知识产权，但仍然不利于搜索引擎收录，可以用于一些不依赖搜索引擎的网站。

　　3.3 设置浏览权限，只有登录用户才能浏览网页内容

　　此方法适用于动态网站，但也会严重影响搜索引擎蜘蛛收录，但此方法更有效防止一般采集程序。

　　3.4 将内容页面中的特定标签替换为“特定标签+随机隐藏版权文本”

　　这是很多cms系统默认的反采集策略，采集网站的部分版权文本会随机显示在采集的过去信息中，但是这种方法对于采集是完全认可的，同时对方可以从采集中过滤掉或替换内容中的版权文字为其他信息。如果使用这种方法来防止采集，建议设置尽可能多的随机字符串，以增加过滤的难度。

　　3.5 没有规则的内容页面代码

　　当前的网站，无论是动态的网站还是静态的网站，通常都是在后台记录数据，前台按照统一的模板进行展示。由于内容模板单一，html代码规律性强，写采集的规则很容易，所以很容易成为采集，所以在创建模板的时候，尽量让代码规则不那么明显增加采集的难度。

　　3.5.1 使用重复标签

　　采集一般收录页面内容的时候，作为采集内容一部分的标签作为采集标志来写采集规则，所以有些重复可以添加标签进行干扰，使采集程序在没有采集的准确信息的情况下无法正确定位采集的内容。例如，为了防止采集的内容位于标签中，可以在标签前面添加一个或多个标签。分心的相同标签。

　　3.5.2 多种网页模板，多种展示方式

　　如果条件允许，可以设计多种网页模板，可以显示相同的外观，但网页内容中的HTML标签不同。，只能采集到一个模板对应的网页内容。

　　当然，在同一个模板内，你也可以将阻止采集内容的标签随机化，为对方增加采集的难度。

　　4。结论

　　不可能做到完全预防采集。防止采集的各种策略各有优缺点。您只能根据自己的场地特点采取相应的策略或多种预防策略。采取措施尽可能防止。随着网络技术的发展，增强版权意识，遵守网络道德，加强监督机制，杜绝自己网站上的非法采集，只要每个站长朋友都能做到，那就是预防采集@最有效的策略。

　　参考

　　[1]（日本）小泉修，王浩译。Web 技术：HTTP 到服务器。科学出版社，2004.

　　[2] 吴伟光. 数字技术环境下著作权法的危机与对策。知识产权出版社，2008.

　　[3] 吴振峰。网站建设与管理。高等教育出版社，2006.

0

2022-03-19

网站内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集(网页内容,采集)

0 个评论

发起人

AI时代内容工厂

网站内容采集(网页内容,采集)

0 个评论

发起人

相关问题