网站内容采集(中国论文网关键词:网站网页内容采集)
优采云 发布时间: 2021-12-08 08:10摘要:网页内容采集主要是指将某个网站的整个网站网页内容或部分网页内容抓取到自己的网站,非法网页内容采集,不仅无法有效保护版权信息,而且在批量处理采集时,尤其是收录多媒体元素和软件的页面为采集时,会造成网站的位置@> 服务器负载增加,普通用户浏览速度下降。中国论文网关键词:网站 网页内容采集 中文图书馆分类号: 文献识别码:A 文章 编号:1007-9416(2010)05- 0000-00 所谓网页采集无非是采集 对于我们浏览的网页内容,包括文字信息、图片信息和视频、声音、软件信息等,采集通过编写采集程序或通过许多cms函数系统本身,并编写采集规则来获取所需的内容。采集的方法一般都有拦截和过滤两种,即拦截指定区域的HTML代码,过滤掉这部分代码不需要的内容,比如广告信息、版权采集@采集的过程一般遵循以下步骤:先读取文章的列表,再读取内容文章 根据文章列表中的链接,一一过滤文章的内容,获取所有需要的信息。根据采集的方法和步骤,我们可以从两个方面进行防范:增加列表采集的难度,防止采集出现在内容页。可以使用技术手段来防止将采集人挡在外面,使他们无法访问和阅读采集页面。
或者,为了处理采集页面的内容,增加采集的难度,这样即使采集人采集数据,采集收到的信息不能使用或直接使用。确定来源,阻止访问。判断同一IP在一定时间内访问本站页面的次数。如果明显高于正常人的浏览速度,说明源IP有采集的可能性,则拒绝IP访问,否则释放。. 这种方法不难实现。在动态网站中,可以通过在页面头部添加部分程序代码来实现,静态页面可以通过javascript代码实现。这个策略对于防止采集非常有效,但会严重影响搜索引擎蜘蛛对本站内容的收录。对于不太依赖搜索引擎的网站,可以采用这种方法。在列表中增加批量难度信息采集采集,从获取信息列表开始,从信息列表中的超链接开始,然后是采集二级页面内容,所以列表页面被封采集,这也屏蔽了其他内容页面的采集。采取的一般策略是改变列表方法并尝试使其不规则。对方很难采集获得正确的内容链接,增加了采集的难度。2.1 破坏链接对应的标签,使链接不规则。例如,
2.2 随机添加一些干扰链接,增加对方误码率采集 比如在信息列表中像下面这样散布添加干扰链接: 随机文本标题,然后使用相同的模板为其他内容页面创建一个网页文件aa。asp、aa.asp页面中的标题和内容是随机动态生成的,目的是为了让对方采集,因为有些采集程序对于页面没有采集重复的标题或空的内容。然后在样式表中添加样式:#notext{display:none;} 这样你添加的干扰链接就不会显示在你的页面上。但是因为该链接及其对应的内容页面和其他链接一样正常,所以可以同时被对方采集传递,而这些文章内容都是无意义的代码,增加了对方文章 @采集后期编辑修改的工作量,可以让对方退却。内容页反采集策略采集的最终目标是采集网页的具体内容,只有采集到文章列表和< @采集没有内容或者采集的内容不符合要求,这样的采集是没有意义的。可以从以下几个方面加以预防。3.1 加密页面的内容通过Javascript加密,然后通过Javascript代码解密输出。这样,采集的内容只能是一些不规则的加密代码,没有任何意义,这种方式可以有效防止采集,但会严重影响搜索引擎收录,降低页面加载速度。适合对搜索引擎要求不高,关注版权信息的人。网站,普通的网站用的不多。
3.2 将文本内容改为图片格式或其他格式,如pdf、swf等。这种方法是通过一些转换软件或将网页的正文内容转换为图片格式或其他非html格式或程序代码,并在图片的背景中收录版权信息的水印,即使这种方法形成的网页内容采集向下,也很难去除版权信息。比如腾讯阅读频道,所有VIP阅读部分都采用了这种方式。这种方式可以有效的保护知识产权,但仍然不利于搜索引擎收录。对于一些不依赖搜索引擎的网站,可以使用。3.3 设置浏览权限,只有登录的用户才能浏览网页内容。此方法适用于动态href=""target="_blank">峰值状态网站,但也可能严重影响搜索引擎蜘蛛收录,但此方法更有效防止一般 采集 程序。3.4 将内容页面中的特定标签替换为“特定标签+随机隐藏版权文本”。这是很多cms系统默认的反采集策略,也就是采集过去的信息会随机显示一些已经采集网站的版权文本,但是这种方式对于采集是完全允许的,同时对方可以将采集内容中的版权文本过滤掉或者替换成其他信息。如果用这个方法来防止采集,
3.5 内容页代码没有规则。当前的网站不管是动态的网站还是静态的网站,一般都是后台输入的数据,前台会按照统一的模板展示出来。由于内容模板单一,html代码规律性强,容易写采集规则,所以很容易被采集,所以在创建模板时,尽量做好代码规则尽量不明显,增加采集的难度。3.5.1 当使用重复标签采集页面内容时,一般将收录采集部分内容的标签写成采集标志采集@ > 规则,所以可以添加一些重复的标签来干扰,这样采集 程序无法正确定位到采集的内容,并且采集没有准确的信息,比如防止采集的内容被标记为 ,那么可以添加一个或多个同样的标签在标签前面起到干扰的作用。3.5.2 多种网页模板,多种展示方式。如果条件允许,您可以设计多个网页模板来实现相同的外观,但网页内容中的html标签不同。有的话用div+css方法,有的用table方法,所以对方在采集时,只能采集到模板对应的网页内容。当然,在同一个模板中,你也可以将阻止采集内容的标签随机化 增加对方采集的难度。结束语 完全杜绝采集是不可能的。各种防止采集的策略各有优缺点。您只能根据自己站点的特点采取相应的策略,也可以同时采取多种防范措施,最大限度地防范。
随着网络技术的发展,提高版权意识,遵守网络道德,加强监管机制,杜绝自己网站上的非法采集。只要每个站长朋友都能做到,那就是预防。采集最有效的策略。参考文献 href=""target="_blank">峰书)小泉修,王浩译。Web 技术:HTTP 到服务器。科学出版社,2004.