网页抓取数据( 本发明网页数据防的方法及系统背景技术实现要素分析)

优采云 发布时间: 2022-01-03 03:22

  网页抓取数据(

本发明网页数据防的方法及系统背景技术实现要素分析)

  

  本发明涉及互联网技术领域,尤其涉及一种防止网页数据被抓取的方法及系统。

  背景技术:

  大数据时代,数据已经成为企业的核心竞争力。网页上的一些关键数据,如购物网站商品价格、交易量、用户*敏*感*词*等信息,在方便用户浏览的同时,也成为一些恶意爬虫疯狂爬取的目标。如何防止关键数据被*敏*感*词*爬取,不断增加爬虫的采集难度,成为很多企业网站的首要任务。

  目前现有的技术方案和不足:

  (1)关键数据登录权限控制,用户体验差;

  (2)关键数据是动态的,只能防止低级静态爬虫;

  (3)关键数据显示在一张图片中,现有的ocr(光学字符识别)技术可以轻松识别图片中的字符。

  技术实现要素:

  本发明旨在解决现有技术或相关技术中存在的至少一个技术问题。

  为此,本发明的一个目的是提供一种防止网页数据被抓取的方法。

  本发明的另一个目的是提供一种网页数据反爬取系统。

  有鉴于此,根据本发明的一个目的,提出一种网页数据反爬取方法,包括:提取网页数据;混淆网页数据;将混淆后的网页数据转换为背景图片;通过堆叠样式表在网页上显示背景图片。

  本发明提供的网页数据反爬取方法提取网页中以字符串形式显示的数字、英文、汉字等需要保护的关键数据。网页的背景图片,以此图片作为显示背景,通过css(cascadingstylesheets)样式控制背景图片的显示,即使恶意爬虫将网页源码和图片全部丢掉采集 ,并且使用ocr工具进行识别,也无法获得完整正确的数据,而且每页的数据图片都是随机生成的,大大增加了采集解析的难度,保护了上的关键数据在 Internet 上打开网页。

  上述本发明的防止网页数据爬取的方法还可以具有以下技术特征:

  上述技术方案中,优选地,对网页数据的混淆处理具体包括:统计网页数据的长度;对齐网页数据的长度;并对网页数据的字符串进行随机排序。优选地,该方法还包括:当网页数据的长度不足时,通过插入额外的字符来填充网页数据的长度。

  在该技术方案中,页面上的所有关键数据都与长度对齐。如果长度不够,则插入多余的字符进行填充,填充的字符串随机重新排序,插入字符混淆后的字符,乱序等。字符串生成背景图片,使网页爬取恶意爬虫不收录关键数据的任何信息,无法从网页源代码中提取相关数据。

  在上述任一技术方案中,优选地,对网页数据字符串进行随机排序包括:将字符串分割为单个字符,随机排序并在单个字符中添加字符;或将字符串分割为单个字符,将单个字符分割为不识别图形,对不识别图形进行随机排序并添加字符处理。

  本技术方案中,将字符串拆分为单个字符,将单个字符随机排序并添加字符处理,网页关键数据混淆,或将字符串拆分为单个字符,单个字符划分为非识别图形,对非识别图形进行随机排序并添加字符处理,进一步划分为ocr软件无法识别的图形,加强网页关键数据的混淆度,大大增加难度用于捕获关键数据的恶意爬虫。

  在上述任一技术方案中,优选地,将混淆后的网页数据转换为背景图片包括:将混淆后的网页数据转换为背景图片,并将网页数据记录在背景图片中的位置。

  在该技术方案中,将混淆后的网页数据转换为背景图片。不同网页数据的字符背景偏移是不同的。记录网页数据在背景图像中的位置,然后将网页数据记录在背景图像中。背景图片中的位置在页面上显示完整的数据,不会影响用户在网页上的查看效果。

  在上述任一技术方案中,优选地,在网页上显示背景图片包括:生成页面源代码;根据网页数据在背景图片中的位置,在网页上显示背景图片。

  本技术方案生成页面源代码,根据网页数据在背景图片中的位置,在网页上显示背景图片,从而实现关键数据在网页上的显示效果页面保持不变,完全不影响用户体验。

  在上述任一技术方案中,优选地,在通过堆叠样式表在网页上显示背景图片之前,该方法还包括:创建堆叠样式表。

  本技术方案创建了一个堆叠样式表,背景图片的显示由堆叠样式表控制。

  根据本发明的另一个目的,提出了一种网页数据反爬取系统,包括:数据提取单元,用于提取网页数据;用于混淆网页数据的数据处理单元;一个转换单元,用于将混淆后的网页数据转换为背景图片;显示单元,用于通过堆叠样式表在网页上显示背景图片。

  在本发明提供的网页数据防抓取系统中,数据提取单元提取网页中以字符串形式显示的数字、英文、汉字等需要保护的关键数据,数据处理单元将顺序打乱,加入字符混淆后,转换单元为网页生成背景图片。该图像用作显示背景。显示单元通过 CSS 样式控制背景图片的显示,即使恶意爬虫将网页的所有源代码和图片丢弃并使用 ocr 工具识别出无法获取完整正确的数据,以及每个页面的数据图片都是随机生成的,大大增加了采集解析的难度,保护了互联网打开网页上的关键数据。

  根据本发明的上述网页数据反爬取系统还可以具有以下技术特征:

  上述技术方案中,优选地,所述数据处理单元用于:统计网页数据的长度;对网页数据的长度进行对齐处理;并对网页数据的字符串进行随机排序。优选地,所述数据处理单元还用于:当网页数据的长度不足时,通过插入额外的字符来填充网页数据的长度。

  本技术方案中,数据处理单元对页面的所有关键数据进行长度对齐处理。如果长度不够,插入多余的字符进行填充,填充的字符串随机重新排序,插入字符后,乱序等。混淆后的字符串生成背景图片,以便恶意爬虫抓取的网页不收录关键数据的任何信息,导致无法从网页源代码中提取相关数据。

  在上述任一技术方案中,优选地,所述数据处理单元还用于:将字符串分割为单个字符,对单个字符进行随机排序,添加字符处理;或将字符串分割成单个字符,将单个字符分割成不可识别图形,对不可识别图形进行随机排序并添加字符处理。

  在该技术方案中,数据处理单元将字符串拆分为单个字符,随机对单个字符进行排序并添加字符处理,混淆网页的关键数据,或将字符串拆分为单个字符。分割成不可识别的图形,对不可识别的图形进行随机排序并添加字符处理,进一步分割成ocr软件无法识别的图形,加强网页关键数据的混淆度,大大增加恶意爬虫的难度捕获关键数据。

  在上述任一技术方案中,优选地,转换单元具体用于:将混淆后的网页数据转换为背景图片,并记录网页数据在背景图片中的位置。

  本技术方案中,转换单元将混淆后的网页数据转换为背景图片。不同网页数据的字符背景偏移量不同,记录网页数据在背景图片中的位置,然后根据网页数据在背景图片中的位置显示页面上的完整数据,并将不影响用户在网页上的查看效果。

  在上述任一技术方案中,优选地,所述显示单元具体用于:生成页面源代码;根据网页数据在背景图片中的位置,在网页上显示背景图片。

  本技术方案中,显示单元生成页面源代码,根据网页数据在背景图片中的位置,将背景图片显示在网页上,使关键数据在网页上的显示效果页面保持不变,不以任何方式影响用户体验。

  在上述任一技术方案中,优选地,还包括: 用于创建堆叠样式表的创建单元。

  本技术方案中,创建单元创建一个堆叠样式表,通过堆叠样式表控制背景图片的显示。

  本发明的其他方面和优点将在以下描述中变得明显,或者通过本发明的实践而被理解。

  图纸说明

  通过结合以下附图的实施例的描述,本发明的上述和/或附加的方面和优点将变得显而易见且易于理解,其中:

  图1为本发明实施例提供的网页数据反爬取方法流程*敏*感*词*;

  图2a为本发明另一实施例提供的网页数据反爬取方法的流程*敏*感*词*;

  图2b为本发明另一实施例防止网页数据被爬取的方法流程*敏*感*词*;

  图3示出了根据本发明实施例的网页数据反爬取系统的示意框图;

  图4为本发明具体实施例的网页显示效果图;

  图5为本发明具体实施例的关键数据分割与混淆效果图;

  图6为本发明具体实施例中防止网页数据爬取的方法流程*敏*感*词*;

  图。图7示出了根据本发明具体实施例的字符串切分*敏*感*词*。

  具体实现方法

  为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明作进一步详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

  在以下描述中,为了充分理解本发明,解释了许多具体细节。然而,本发明也可以以不同于这里描述的方式的其他方式实施。因此,本发明的保护范围不限于以下所公开的具体实施例。

  本发明第一方面的实施例提出了一种防止网页数据被抓取的方法。如图。图1示出了根据本发明实施例的防止网页数据被抓取的方法的示意性流程图。其中,方法包括:

  步骤102,提取网页数据;

  步骤104,混淆网页数据;

  步骤106,将混淆后的网页数据转换为背景图片;

  步骤108,通过堆叠样式表在网页上显示背景图片。

  本发明提供的网页数据反爬取方法提取网页中以字符串形式显示的数字、英文、汉字等需要保护的关键数据。网页的背景图片,以此图片作为显示背景,通过CSS样式控制背景图片的显示。即使恶意爬虫将网页的所有源代码和图片全部丢弃并使用ocr工具进行识别,也无法获得完整正确的数据。 ,并且每个页面的数据图片都是随机生成的,大大增加了采集解析的难度,保护了互联网上打开的网页上的关键数据。

  图。图2a示出了根据本发明另一实施例的防止网页数据被抓取的方法的示意性流程图。其中,方法包括:

  步骤202,提取网页数据;

  步骤204,统计网页数据的长度;

  步骤206:对齐网页数据的长度。当网页数据长度不足时,插入多余的字符来填充网页数据的长度;

  步骤208,对网页数据字符串进行随机排序;

  步骤210,将混淆后的网页数据转换为背景图片;

  步骤212,通过堆叠样式表在网页上显示背景图片。

  在本实施例中,页面的所有关键数据都与长度对齐。如果长度不够,则插入多余的字符进行填充。填充的字符串随机重新排序,插入字符、乱序等混淆后的字符。字符串生成背景图片,使网页抓取的网页恶意爬虫不收录关键数据的任何信息,无法从网页源代码中提取相关数据。

  在本发明的一个实施例中,优选地,对网页数据字符串进行随机排序包括:将字符串分为单个字符、随机排序单个字符和添加字符;或将字符串拆分成单个字符,将单个字符拆分成不可识别图形,对不可识别图形进行随机排序,添加字符处理。

  在本实施例中,将字符串拆分为单个字符,将单个字符随机排序并添加字符处理,混淆网页关键数据,或将字符串拆分为单个字符,将单个字符字符被划分为非识别图形,对非识别图形进行随机排序并添加字符处理,进一步划分为ocr软件无法识别的图形,加强网页关键数据的混淆度,大大增加恶意爬虫抓取关键数据的难度。

  在本发明的一个实施例中,优选地,将混淆后的网页数据转换为背景图片具体包括:将混淆后的网页数据转换为背景图片,并将网页数据记录在背景图片的位置。

  在本实施例中,将混淆后的网页数据转换为背景图片。不同网页数据的字符背景偏移是不同的。记录网页数据在背景图像中的位置,然后将网页数据记录在背景图像中。背景图片中的位置在页面上显示完整的数据,不会影响用户在网页上的查看效果。

  图。图2b示出了根据本发明另一实施例的防止网页数据被抓取的方法的示意性流程图。其中,方法包括:

  步骤202,提取网页数据;

  步骤204,统计网页数据的长度;

  步骤206:对齐网页数据的长度。当网页数据长度不足时,插入多余的字符来填充网页数据的长度;

  步骤208,对网页数据字符串进行随机排序;

  步骤210,将混淆后的网页数据转换为背景图片;

  步骤214,创建叠加样式表;

  步骤216,生成页面源代码;

  步骤218,根据网页数据在背景图片中的位置,在网页上显示背景图片。

  本实施例创建了一个分层的样式表,生成页面源代码,根据网页数据在背景图片中的位置,在网页上显示背景图片,从而达到显示效果页面关键数据不变,不影响用户体验。

  本发明第二方面的一个实施例提出了一种网页数据反爬取系统300。图3示出了根据本发明实施例的网页数据反爬取系统300的示意框图。其中,系统包括:

  数据提取单元302用于提取网页数据;

  数据处理单元304用于对网页数据进行混淆处理;

  转换单元306用于将混淆后的网页数据转换为背景图片;

  显示单元308用于通过层叠样式表在网页上显示背景图片。

  在本发明提供的网页数据反爬取系统300中,数据提取单元302提取需要保护的关键数据,例如在网页中以字符串形式显示的数字、英文、汉字等。网页,数据处理单元304打乱后,在排序添加混淆字符后,转换单元306生成网页的背景图片,并将该图片作为显示背景。显示单元308通过CSS样式控制背景图片的显示,即使恶意爬虫将网页采集的所有源码和图片全部删除,并使用ocr工具进行识别,也不可能得到完整正确的数据,每个页面的数据图像都是随机生成的,大大增加了采集解析的难度,保护了互联网打开网页上的关键数据。

  在本发明的一个实施例中,优选地,数据处理单元304用于:统计网页数据的长度;对网页数据的长度进行对齐处理;并对网页数据的字符串进行随机排序。优选地,数据处理单元304还用于:当网页数据的长度不足时,通过插入多余的字符来填充网页数据的长度。

  在本实施例中,数据处理单元304对所有页面的关键数据进行长度对齐处理。如果长度不足,插入多余的字符进行填充,填充的字符串随机重新排序,字符插入乱序。混淆后的字符串会生成背景图片,使得恶意爬虫抓取的网页不收录任何关键数据信息,无法从网页源代码中提取相关数据。

  在本发明的一个实施例中,优选地,数据处理单元304还用于:将字符串分割为单个字符,对单个字符进行随机排序,添加字符处理;或将字符串分割为单个字符。字符,将单个字符划分为不识别图形,对不识别图形进行随机排序并添加字符处理。

  在本实施例中,数据处理单元304将字符串拆分为单个字符,随机对单个字符进行排序并添加字符处理,混淆网页的关键数据,或者将字符串拆分为单个字符。将字符划分为不可识别图形,将不可识别图形随机排序并添加字符处理,将不可识别图形进一步划分为ocr软件无法识别的图形,增强了混淆度网页关键数据,大大增加了恶意爬虫抓取关键数据的难度。

  在本发明的一个实施例中,优选地,转换单元306具体用于:将混淆后的网页数据转换为背景图片,并记录网页数据在背景图片中的位置。

  在本实施例中,转换单元306将混淆后的网页数据转换为背景图片。不同网页数据的字符背景偏移量不同,记录网页数据在背景图片中的位置,然后根据网页数据在背景图片中的位置显示页面上的完整数据,不会影响用户浏览网页的效果。

  在本发明的一个实施例中,优选地,显示单元308具体用于:生成页面源代码;并根据网页数据在背景图片中的位置在网页上显示背景图片。

  本实施例中,显示单元308生成页面源代码,根据网页数据在背景图片中的位置,将背景图片显示在网页上,从而实现关键数据在网页上的显示效果页面保持不变,完全不影响用户体验。

  在本发明的一个实施例中,优选地,还包括:创建单元310,用于创建堆叠样式表。

  在本实施例中,创建单元310创建堆叠样式表,背景图像的显示由堆叠样式表控制。

  在本发明的一个具体实施例中,需要保护的关键数据,如数字、英文、汉字在网页显示中以字符串的形式显示,如图4所示,被提取,顺序被打乱,并添加混乱。字符生成后,生成如图5所示的网页背景图片,并记录字符在图片中的相对位置;这张图片作为显示背景,通过CSS样式控制背景图片的显示。不同的字符背景偏移量根据生成图片时的记录位置进行设置,以便在页面上显示完整的数据。这样,即使恶意爬虫采集下载了网页的源代码和图片,使用ocr工具进行识别,也无法得到完整正确的数据,每个页面的数据图片都是随机生成的,大大增加了采集的分析难度。图6示出了根据本发明具体实施例的防止网页数据被抓取的方法的示意性流程图:

  步骤602,提取网页上需要保护的关键数据,将字符混淆后转换为图片,包括:

  (1)提取网页中所有需要保护的关键数据;

  (2)所有页面的关键数据长度对齐;

  (3)长度不足,已插入多余字符填充;

  (4)完成的字符串随机重新排序;

  (5)字符串经过插入字符、乱序等混淆处理后生成一张图片;

  (6)记录图片中字符的相对位置。

  步骤604,设置页面显示价格样式。

  步骤606:获取字符在图片中的相对位置,生成页面源代码,通过设置背景图片的相对位置来控制数据在页面上的显示。

  在本发明的另一个具体实施例中,在对字符串进行图形化的过程中,将字符串分割成完整的可识别字符,然后进行无序化,添加冗余字符,然后生成图片。在此基础上,可以将单个字符进一步划分为OCR软件无法识别的图形,如下图7所示。由于目前的OCR技术只能识别完整的字符,如字母、数字或汉字,将单个字符进一步划分为图像中无法识别对应的字符,进一步大大增加了爬虫解析数据的难度.

  使用本发明的网页数据反爬取方法获取网页,页面关键数据的显示效果保持不变,完全不影响用户体验。但对于恶意爬虫,被爬取的网页不收录任何关键数据信息,无法从网页源代码中提取相关数据;即便进一步抓拍图片,再用ocr工具进行识别,结果也是一团糟。字符序列化,大大增加了恶意爬虫抓取关键数据的难度。

  在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述是指结合实施例描述的特定特征、结构、材料或特性或实例包括在本发明的至少一个实施例或实例中。在本说明书中,上述术语的示意性表示不一定指同一实施例或示例。此外,所描述的特定特征、结构、材料或特性可以以合适的方式组合在任何一个或多个实施例或示例中。

  以上所述仅为本发明的优选实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种修改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应收录在本发明的保护范围之内。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线