直观:一种基于样本的互联网爬虫内容网页识别方法与流程

优采云 发布时间: 2020-09-30 10:02

  基于样本的Internet爬网程序网页识别方法和过程

  

  本发明公开了一种基于样本的互联网爬虫内容网页识别方法,涉及互联网信息技术领域。

  背景技术:

  Internet爬虫是一种采集Internet信息的技术手段。互联网网站上有许多种类的网页。根据网页的内容,它们可以分为列表页面,内容页面和其他页面。列表页面主要是内容页面,其他页面提供链接条目,内容页面是网站发布的特定内容页面,其他页面包括功能页面,例如促销,广告,注册,登录和帮助。 Internet采集器服务的用户只关心内容网页的信息,因此Internet采集器程序需要在搜寻Internet信息的过程中准确地对网页进行分类和标识,然后再标识所标识的内容网页的信息采集进行业务处理。当前,识别内容网页的常用方法是手动采集,汇总和整理每个网站内容网页URL的正则表达式规则。 Internet爬网程序使用这些规则来匹配在爬网过程中找到的网页链接URL。发现内容页面。

  现有的Internet爬网程序通过匹配手动采集,汇总和排序的内容网页的url正则表达式规则来判断内容网页。尽管此方法可以准确地发现内容网页,但它也有很多缺点,主要表现在:

  1、每个网站内容网页的url格式都不固定。大多数网站会不时更改内容网页的url格式。一旦找不到及时的更改,它将导致Internet爬网程序。无法正确识别内容网页,从而导致大量采集数据丢失;

  2、每个网站内容网页通常有多种正则表达式规则。手动维护方法要求采集和聚合内容网页,然后根据汇总的URL提取并编译正则表达式规则。验证正则表达式后,提交更新。该方法维护成本高,专业技术要求高,维护周期长。

  Internet爬网程序将在运行期间根据某种路由算法遍历需要采集的网站。在遍历过程中处理每个网页时,它将从该网页提取到其他网页的链接URL。在Web链接URL中标识内容网页的链接URL也是现在需要解决的问题之一。

  技术实现要素:

  本发明要解决的技术问题是提供一种基于样本的基于现有技术的缺点识别互联网爬虫的网页的方法,并通过一种全新的互联网爬虫来改善互联网爬虫的数据。技术基于样本学习采集的准确性,并降低了维修人员的专业技术要求和维修成本。

  本发明采用以下技术方案来解决上述技术问题:

  一种用于识别Internet爬虫内容网页的基于样本的方法,该方法具体包括以下步骤:

  步骤一、解析网页,在页面中提取网页链接URL,并将网页链接URL保存到set a中;

  步骤二、提取与网站对应的示例链接URL,并将示例链接URL存储在集合b中;

  步骤三、根据编辑距离分类算法对集合a和集合b中的所有URL进行分类;

  步骤四、遍历集合a,根据步骤3中获得的分类结果,将集合a分为满足样本的url集c和不满足样本的url集d。

  步骤五、保存集d的输出以进行进一步分析;将集c直接输出到随后的采集处理。

  作为本发明的另一优选方案,在步骤3中,编辑距离分类算法具体为:

  计算字符串之间的编辑距离,并根据设置的编辑距离系数对字符串进行分类,其中编辑距离是将两个字符串从一个转换为另一个所需的最小编辑次数。操作数量包括:用另一个字符替换一个字符,插入一个字符,然后删除一个字符。

  使用编辑距离算法来计算并比较Internet采集器提取的Web链接url和内容Web链接url示例库中的示例链接url;

  如果提取的Web链接URL和示例库中的任何示例链接URL属于同一类别,则将提取的Web链接URL视为内容Web链接URL,并对其进行后续的采集处理,随后的采集处理包括内容网页信息的重复数据删除和提取;

  相反,如果提取的网页链接URL和样本库中的任何样本链接URL不属于同一类别,则认为提取的网页链接URL不是内容网页链接URL。

  作为本发明的另一优选方案,当内容网页链接URL格式网站被更新时,或者当内容网页链接URL格式改变时,要求互联网爬虫执行数据网站。 ,内容将更新Web链接url示例库,并从Internet爬网程序的采集结果库中提取最新的内容链接url,以替换内容Web链接url示例库。

  作为本发明的另一优选方案,对于不符合样本库内容的网页链接的URL格式的URL,首先根据编辑距离分类算法对它们进行分类,然后对分类结果进行分类。手动浏览并验证。

  与采用上述技术方案的现有技术相比,本发明具有以下技术效果:

  1、本发明的Web爬虫内容网页识别逻辑算法适用于大多数互连的网站点,通用性强。

  2、本发明的互联网爬虫内容的网页识别逻辑算法大大提高了互联网数据的准确性采集;

  3、本发明的Web爬虫内容网页识别逻辑算法可以有效降低Internet爬虫的运维成本,提高运维效率。

  图纸说明

  图1是Internet采集器内容的网页识别过程的逻辑图;

  图2是内容网页链接的url示例库的常规更新流程图;

  图3是非内容Web链接的URL检查的流程图。

  具体的实现方法

  下面详细描述本发明的实施例。在附图中示出了实施例的示例,其中相同或相似的附图标记表示相同或相似的元件或具有相同或相似功能的元件。参照附图描述的以下实施例是示例性的,仅用于解释本发明,不能解释为对本发明的限制。

  下面结合附图对本发明的技术方案做进一步的详细说明。

  在本发明中,标识Internet爬虫内容的网页的整个过程如图1所示。该方法具体包括以下步骤:

  步骤一、解析网页,在页面中提取网页链接URL,并将网页链接URL保存到set a中;

  步骤二、提取与网站对应的示例链接URL,并将示例链接URL存储在集合b中;

  步骤三、根据编辑距离分类算法对集合a和集合b中的所有URL进行分类;

  步骤四、遍历集合a,根据步骤3中获得的分类结果,将集合a分为满足样本的url集c和不满足样本的url集d。

  步骤五、保存集d的输出以进行进一步分析;将集c直接输出到随后的采集处理。

  其中,编辑距离:也称为levenshtein距离(也称为editdistance),是指在两个字符串之间将一个字符串转换为另一字符串所需的最小编辑操作次数。编辑操作包括用一个字符替换另一个字符,插入一个字符以及删除一个字符。

  编辑距离分类算法:计算字符串之间的编辑距离,并根据一定的编辑距离系数对字符串进行分类。

  该专利使用编辑距离算法来计算和比较Internet采集器提取的网页链接的url和内容网页链接url的示例库中的url。如果将某个提取的网页链接URL与示例库中的任何一个进行比较如果该样本链接URL属于同一类别,则该提取的Web链接URL被视为内容Web链接url,并进行后续的采集处理(包括需要对内容Web信息进行重复数据删除和提取);相反,如果某个示例库中提取的网页链接的URL不属于同一类别,则认为提取的网页链接URL不是内容网页的链接URL。

  每个网站内容网络链接的网址格式都会不时更新。当采集的网站更改内容Web链接的url格式时,需要及时更新内容Web链接url示例库。 。内容Web链接url样本库的定期更新子过程通常通过定期更新来实现。更新子过程从Internet采集器的采集结果库中提取最新的内容链接url,以替换内容Web链接url示例库。具体逻辑如图2所示。显示。

  大量不符合示例库内容的Web链接url格式的URL也需要定期进行手动验证。手动实时验证不是简单的直接浏览不符合样本库的Web链接url信息,而是首先通过编辑距离算法对其进行分类。分类,然后手动浏览并验证分类结果。这样做的好处是可以大大减少手动验证的工作量。具体过程如图3所示。

  非内容Web链接的URL的提取和分类可以定期自动进行,而手动验证只需要及时检查分类结果即可。可以根据实际需要设置自动对非内容Web链接URL进行提取和分类的周期,但是周期不能设置得太短,否则分类效果不佳,但是不能太长,导致无法及时发现内容。 网站对于Web链接修订或新格式的内容Web链接,周期通常设置为一天。

  以上参照附图详细描述了本发明的实施例,但是本发明不限于上述实施例,并且在本领域普通技术人员的知识范围内。在不背离本发明的目的的情况下,也可以提供它。进行各种更改。以上仅为本发明的优选实施例,并不以任何形式限制本发明。尽管已经在优选实施例中如上所述公开了本发明,但是其无意于限制本发明。所属领域的技术人员在不脱离本发明的技术方案的范围的情况下,可以利用以上公开的技术内容对具有等同变化的等同实施例进行细微改变或修改,但是所有这些根据本发明,不脱离本发明的技术方案的内容。在本发明的精神和原理内,对上述实施例进行的任何简单修改,等同替换和改进仍属于本发明的技术实质。在本发明技术方案的保护范围之内。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线