网页信息抓取软件( 基于探测网页更新周期的抓取方法的中国发明专利申请方法)
优采云 发布时间: 2022-02-09 12:00网页信息抓取软件(
基于探测网页更新周期的抓取方法的中国发明专利申请方法)
本发明涉及网页信息处理技术领域,具体涉及一种网页更新检测方法、网页信息获取及呈现方法。
背景技术:
申请号2.7,名称为基于检测网页更新周期的爬取方法的中国发明专利申请。通过获取页面的更新时间,判断网页是否已经更新。如果有历史信息的页面更新时间不同,则页面获取方式为GET(GET)。如果页面的页面更新时间和历史信息相同,则指定页面获取方式为CHK(CHK)。这种方案的缺点是它依赖于网页更新的时间信息。该判断可能会产生误导,例如,当更新是次要或不需要的信息时,也会启动获取动作。
上述背景技术内容的公开仅用于辅助理解本发明的发明构思和技术方案,并不一定属于本专利申请的现有技术。如果在本专利申请的申请日没有明确的证据表明上述内容已被公开,上述背景技术不应用于评价本申请的新颖性和创造性。
技术实施要素:
本发明的主要目的在于提出一种网页更新检测方法,以解决上述现有技术中基于网页更新时间信息的判断容易产生误导的技术问题。
为此,本发明提出一种网页更新检测方法,包括: s1、分析预定url网页的框架结构,确定抓取信息区域;s2、分析抓取信息区的信息与本地信息比较相似度;s3、当相似度低于设定阈值时,判断rul网页已经更新,否则判断url网页没有更新。
优选地,本发明还可以具有以下技术特征:
确定抓取信息区域的信息与本地信息的相似度包括以下步骤: s201、 对抓取信息区域进行截图并二值化得到二值化图像。s202、 将二值化过程得到的二值化图像与本地存储的相同url网页的二值化图像进行比较;s203、 根据比较的结果,判断是否有更新。
还包括步骤s204、,当比较结果确定没有更新时,将步骤s1中确定的抓取信息区域放大设置倍数,然后至少返回步骤s201一次。
判断抓取信息区的信息与本地信息的相似度包括以下步骤: s301、判断抓取信息区所在的代码行;s302、 抓取代码行对应的具体信息;s303、将具体信息与本地存储的同一个url网页的具体信息进行对比;s304、根据比较结果判断是否有更新。
还包括步骤s305、,当判断比较结果为无更新时,将步骤s1中确定的抓取信息区域扩展到相邻或不相邻的至少一个其他代码行,返回步骤s301至少执行一次。
本发明还提供一种网页信息抓取方法。基于前述权利要求中任一项所述的网页更新检测方法,对预设url的网页进行更新检测,当判断有更新时,抓取该信息,若有更新到本地,如果结果是没有更新,则不爬取,保持本地原有信息不变。
优选地,有更新时的信息抓取采用定向抓取的方式,只抓取抓取信息区域中的信息。
本发明还提出了一种网页信息的采集和呈现方法。基于上述任一项所述的网页更新检测方法,对预设url的网页进行更新检测,当判断结果为有更新时,进行信息抓取,并更新到local,当判断结果为没有更新时,保持原有本地信息不变;在呈现网页信息时,按照未更新的网页信息先于更新的网页信息的方式逐步呈现。
优选地,在更新的网页上爬取信息的同时,呈现未更新的网页,以缩短信息呈现的等待时间。
还优选的是,已爬取的更新网页在本地更新的同时,立即以一一插入的方式呈现。
本发明与现有技术相比的有益效果是:由于预先确定了抓取信息区域,并针对该区域判断是否更新,可以避免因更新无关而造成的误导,并且可以抓取网页信息。启动更准确,更有效地抓取任务,节省时间和带宽资源。
图纸说明
图1是本发明的原理框图;
图2为本发明具体实施例的流程图
如图。图3为本发明另一具体实施例的流程图。
详细说明
下面结合具体实施例并结合附图对本发明作进一步详细说明。应该强调的是,以下描述仅是示例性的,并不旨在限制本发明及其应用的范围。
将参考以下图1-3描述非限制性和非排他性实施例,其中除非另有明确说明,否则相似的附图标记指代相似的部件。
一种用于捕获和呈现网页信息的方法。首先,更新并检测带有预设 url 的网页。当判断结果为有更新时,获取信息并更新到本地。当判断结果为没有更新时,保持原来的本地原件。信息保持不变。在呈现网页信息时,以未更新的网页信息先于更新的网页信息的方式逐渐呈现。
一种更优选的方法是:有更新时的信息抓取方式采用定向抓取方式,只抓取抓取信息区域内的信息。
另一种优选的方法是:在更新网页上爬取信息的同时,呈现未更新的网页,从而缩短信息呈现的等待时间。
另外,对于已经爬取的更新网页,可以在更新到本地的同时,立即以一一插入的方式渲染。这样就可以立即获取并显示。是的,网页内容的显示是连续的,尽量不减少停顿。
如图所示。如图1所示,预设url的网页更新检测方法包括: s1、分析预设url的网页的框架结构,确定爬取信息区域。s2、 s2、 将信息区的信息与本地信息进行相似度比较;s3、当相似度低于设定阈值时,判断rul网页已经更新,否则判断url网页没有更新。
其中,抓取信息区域的信息与本地信息的相似度判断如图3所示。2、包括以下步骤: s201、 对抓取信息区域进行截图并二值化得到两个Valued图像;s202、将二值化过程得到的二值化图像与本地存储的相同url网页的二值化图像进行比较;s203、根据比较结果判断有更新还是没有更新。步骤s204、还可以包括:当判断比较结果为无更新时,将步骤s1中确定的抓取信息区域放大设定倍数,然后返回步骤s201至少一次。
或者,抓取信息区域的信息与本地信息的相似度判断如图3所示。3、包括以下步骤: s301、 确定抓取信息区所在的代码行;s302、抓取代码行对应的具体信息;s303、将具体信息与本地存储的同一个url网页的具体信息进行对比;s304、根据比较结果判断有更新还是没有更新。还可以包括步骤s305、,当判断比较结果为无更新时,将步骤s1中确定的抓取信息区域扩展到相邻或不相邻的至少一个其他代码行,返回步骤s301至少描述一次。这种相似度判断方法的优点是信息被快速捕获并更及时地呈现,因为在判断网页是否更新的同时已经捕获了必要的信息(判断和捕获两个工作内容结合起来< @一),如果确定有更新,可以直接显示并保存到本地。
本领域技术人员将认识到对以上描述的多种修改是可能的,因此这些示例仅旨在描述一种或多种具体实施方式。
尽管已经描述和描述了被认为是本发明的示例性实施例的内容,但是本领域技术人员将理解,在不背离本发明的精神的情况下可以对其进行各种改变和替换。此*敏*感*词*内的所有实施例及其等同物。