本发明提供一种基于云平台的网站信息采集系统(图)
优采云 发布时间: 2021-08-03 01:24
本发明提供一种基于云平台的网站信息采集系统(图)
本发明涉及信息采集领域,尤其涉及一种基于云平台的网站信息采集系统。
背景技术:
在现有技术中,对网站信息的获取一般是通过爬虫技术来实现的。但是为了防止爬虫的访问连接占用正常的访问带宽,很多网站都设置了反爬虫机制。如果使用单个客户端爬取网站的信息,很容易被反爬虫机制识别,导致网站的信息采集失败。
技术实现要素:
针对上述问题,本发明的目的在于提供一种基于云平台的网站信息采集系统。
本发明提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;
任务管理模块用于生成网站信息采集任务,并将网站信息采集任务发送给代理服务模块;
代理服务模块用于通过代理服务器处理网站信息采集任务,生成爬虫任务,利用代理服务器实现爬虫任务获取网站数据;
p>
数据管理模块用于将网站数据存储到云计算存储服务器,并对存储在云计算存储服务器中的网站数据进行管理。
优选地,任务管理模块包括权限控制单元和任务管理单元;
权限控制单元用于验证使用任务管理单元的人的身份,判断此人是否有使用任务管理单元的权限,如果有,则将任务开放给此人的权限管理单元,否则禁止该人使用任务管理单元;
任务管理单元用于为通过身份验证的人员新建网站信息采集任务。
最好也使用任务管理单元来管理现有的网站信息采集任务,具体包括:
删除现有网站信息采集任务,修改现有网站信息采集任务。
优选地,网站信息采集任务包括需要信息采集的网站的URL,需要信息采集的网站的登录信息,以及代理服务器Identity的使用用公钥加密的验证信息进行身份验证。
优选地,代理服务器在处理网站信息采集任务并生成爬虫任务之前,还包括:
使用与身份验证公钥对应的身份验证私钥对身份验证信息进行解密,得到身份验证识别码;
将身份验证信息中收录的身份验证识别码与代理服务器中预先存储的身份验证识别码进行比较,判断两者是否一致。执行处理并生成爬虫任务。如果不是,则不处理网站信息采集任务。
优选地,基于网站信息采集任务生成爬虫任务包括:
使用代理服务器访问网站,下载网站对应的网页数据;
判断网页数据中是否存在统一资源定位器,如果有,获取每个统一资源定位器对应的URL,并根据该URL生成爬虫任务。
优选地,爬虫任务包括统一资源定位器对应的网址和从统一资源定位器对应的网址下载数据的时间间隔。
优选地,数据管理模块包括设置在云计算服务器上的数据管理单元和存储单元;
数据管理单元用于将网站数据存存到存储单元;
存储单元用于存储网站数据。
与现有技术相比,本发明的优点是:
本发明通过代理服务器为目标网站获取网站信息,从而实现网站中数据的下载。由于采用代理方式,本应用中用于实现任务管理模块的客户端不会受到网站反爬虫机制的影响,可以灵活地为网站信息的采集使用不同的代理服务器,有效提高网站信息采集的成功率。
图纸说明
以下结合附图对本发明作进一步说明,但附图中的实施例并不构成对本发明的任何限制。对于本领域普通技术人员来说,在没有创造性劳动的情况下,也可以使用下面的图纸获取其他图纸。
图1为本发明基于云平台的网站信息采集系统的一个示例性实施例*敏*感*词*。
具体实现方法
下面详细描述本发明的实施例。实施例的示例在附图中示出,其中相同或相似的附图标记表示相同或相似的元件或具有相同或相似功能的元件。以下结合附图所描述的实施例仅为示例性的,仅用以解释本发明,而不能理解为对本发明的限制。
如图1所示实施例所示,本发明提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;
任务管理模块用于生成网站信息采集任务,并将网站信息采集任务发送给代理服务模块;
代理服务模块用于通过代理服务器处理网站信息采集任务,生成爬虫任务,利用代理服务器实现爬虫任务获取网站数据;
p>
数据管理模块用于将网站数据存储到云计算存储服务器,并对存储在云计算存储服务器中的网站数据进行管理。
网站信息采集任务管理和网站信息采集任务管理的分离,有利于灵活选择不同的代理服务器来执行网站信息采集任务,避免后单客户端被反爬虫机制识别,影响网页下载效率。
在一个实施例中,任务管理模块包括权限控制单元和任务管理单元;
权限控制单元用于验证使用任务管理单元的人的身份,判断此人是否有使用任务管理单元的权限,如果有,则将任务开放给此人的权限管理单元,否则禁止该人使用任务管理单元;
任务管理单元用于为通过身份验证的人员新建网站信息采集任务。
在一实施例中,任务管理模块包括输入单元和判断单元;
输入单元用于人员输入任务管理单元的账号和密码;
判断单元用于判断使用账号和使用密码是否正确,如果正确,则判断此人有权限使用任务管理单元;如果不是,则判断该人没有使用任务管理单元的权利。任务管理单元的权限。
在另一个实施例中,任务管理模块包括拍照单元、图像处理单元和权限判断单元;
拍摄单元用于获取人脸图像;
图像处理单元用于对人脸图像进行图像识别处理,得到人脸图像中收录的特征信息;
权限判断单元用于将图像处理单元获取的特征信息与任务管理模块中预存的所有具有使用任务管理单元权限的人的面部图像的特征信息进行匹配,如果如果匹配成功,则确定此人具有使用任务管理单元的权限;如果匹配失败,则确定此人没有使用任务管理单元的权限。
在一个实施例中,对人脸图像进行图像识别处理以获得人脸图像中收录的特征信息包括:
对人脸图像进行灰度处理,得到灰度图像;
计算人脸图像的差异度,得到差异图像;
对灰度图像进行边缘检测,得到边缘图像;
对灰度图像进行降噪处理,得到降噪图像;
对降噪图像进行图像分割处理,得到前景图像;
根据差分图像、前景图像和边缘图像生成目标图像;
使用预设的特征信息采集算法获取目标图像中收录的特征信息。
在本发明上述实施例中,通过差分图像、前景图像和边缘图像生成目标图像,然后提取目标图像中收录的特征信息,极大地提高了特征信息的准确性。现有技术中,一般在对灰度图像进行去噪后,直接提取去噪后图像的特征信息。但是,由于降噪是减少图像中有效信息的过程,因此得到的特征信息不够准确。在本应用中,从目标图像中提取特征信息,可以有效地获取准确的特征信息。可以将差异图像中收录的像素之间的差异信息、边缘图像中收录的边缘信息以及前景信息体现在目标图像中,从而实现对降噪图像中丢失的特征信息的补偿。
在一个实施例中,计算人脸图像的差异度以获得差异图像包括:
将人脸图像转换到lab颜色空间,得到lab颜色空间中人脸图像对应的l分量图像、a分量图像和b分量图像;
分别获取人脸图像中每个像素的差分参数:
式中,csn(nod)表示人脸图像中像素nod的差分参数,nodu表示nod的d×d邻域内所有像素的集合,nodu表示nodu w1、的元素@w2、w3代表预设的尺度参数,w1+w2+w3=1,l(nod)和l(nodu)分别代表l分量图像中nod和nodu的像素值,a(nod)和a (nodu)表示a分量图像中nod和nodu的像素值,b(nod)和b(nodu)分别表示b分量图像中nod和nodu的像素值,numnodu表示总和nodu中收录的元素个数;
获取l分量图像中像素值的中值对应的像素点,将像素点标记为mxn;
通过以下方法获取差异图像:
将l分量图像中的像素点保存到集合dlul中,对于dlul中的像素点dlu,通过下式计算差分图像中的像素值:
式中,xc(dlu)代表差异图像中dlu的像素值,csn(dlu)和csn(mxn)分别代表dlu和mxn的差异程度参数,l(mxn)代表mxn l 分量图像的像素值;
计算差分图像中dlul中每个像素的像素值,得到差分图像。
在本发明的上述实施例中,在获取差异图像时,首先将人脸图像转换为lab色彩空间,然后根据其中的三个变量计算每个像素的差异度参数lab 颜色空间,然后从 l 计算差异度参数 在分量图像中,选择一个像素作为参考像素,针对不同的像素计算差异图像中不同像素的像素值,有利于全面获取像素间的差异信息,同时避免光线的影响。差异度参数与计算时的邻域像素有关。差异度参数由邻域像素点与当前正在计算的像素点在三个分量中的差异的加权值得到,有利于差异度参数充分反映当前的进展情况。计算出的像素与相邻像素之间的差异。在选择参考像素时,选择l分量图像中像素值的中值对应的像素作为参考像素。这种设置方法有助于避免错误地将噪声的像素值用作参考像素值。 , 有利于获得准确的差分图像。
在一个实施例中,对灰度图像进行边缘检测得到边缘图像包括:
使用sobel边缘检测算法对灰度图像进行边缘检测,得到边缘图像。
在一个实施例中,对灰度图像进行降噪处理得到降噪图像包括:
对灰度图像进行小波分解处理,得到小波高频系数和小波低频系数;
对小波高频系数中的像素进行如下处理:
式中,tsl(p)表示小波高频系数中位置p对应的像素的像素值,btsl(p)表示上述对tsl(p)的处理结果; vb和vc代表预先设置的处理阈值,sh代表判断操作,如果tsl(p)大于预设阈值tp,则sh[tsl(p)]的值为1.2,如果tsl (p) 小于等于预设阈值 tp ,则 sh[tsl(p)] 的值为1.05,
对小波高频系数中的所有像素进行上述处理,得到第一处理系数;
对小波低频系数中的像素进行如下处理:
式中,tlluq表示小波低频系数中位置q对应的像素点k×k邻域内的像素集合,lon(q,u)表示位置q对应的像素点小波低频系数中像素点u与tlluq收录的像素点u之间的直线距离,tll(u)表示低频小波系数图像中u的像素值,btll(q)表示小波低频系数中位置q对应的像素使用上式点处理的结果; tll(q)表示小波低频系数中q位置对应的像素点的像素值;
公式中ntlluq表示tlluq中收录的像素总数;
对小波低频系数中的所有像素进行上述处理,得到第二处理系数;
对第一处理系数和第二处理系数进行小波重构,得到降噪图像。
在本发明的上述实施例中,在进行降噪处理时,将灰度图像分解为小波高频系数和小波低频系数,然后小波高频系数和小波分别对低频系数进行处理,对处理后的小波高频系数和小波低频系数进行重构,得到去噪图像。有利于在保持图像边缘信息等特征信息的同时实现准确的降噪处理。现有技术中,例如使用高斯函数进行降噪时,像素点会变得模糊,像素之间的差异会变小,从而导致细节信息丢失。这个应用程序能够很好地避免这个问题。本应用在处理小波高频系数时,采用了改进的处理功能。通过处理阈值与当前处理像素的像素值之间的关系,对当前处理的像素自适应选择不同的处理函数处理,有助于提高小波高频系数的处理精度。此外,该应用程序还处理小波低频系数。在处理中,低频小波系数中的像素与其邻域内的像素之间的线性距离和像素值的差异就是低频小波系数中的当前处理。像素提供准确的处理结果。因此,有效提高了降噪的准确性,提高了本发明采集系统的安全性。
在一个实施例中,对降噪图像进行图像分割处理得到前景图像包括:
使用otsu算法对去噪后的图像进行图像分割处理,得到所有前景像素的集合fru1;
用下面的方法对fru1中的像素进行过滤,得到集合fru2:
<p>对于 fru1 中的像素 fru,计算 fru 和参考像素 stad 之间的距离 dist(fru,stad)。如果dist(fru,stad)小于预设的距离阈值,则下一步判断fru,如果dist(fru,stad)大于或等于预设的距离阈值,则从fru1中删除fru;