直观:基于深度学习的网页区域识别算法

优采云 发布时间: 2020-09-05 18:18

  一种基于深度学习的网页区域识别算法

  一种基于深度学习的网页区域识别算法

  [技术领域]

  [0001]本发明涉及Internet信息技术采集,尤其是一种基于深度学习的网页区域识别算法。

  [背景技术]

  [0002]网页区域识别对于搜索引擎构建,网络信息检索,网络数据采集和网络知识发现至关重要。当前,网页区域识别通常采用以下方法:手动设置识别规则以识别网页区域或基于其他非深度学习机器学习方法来识别网页区域。

  [0003]对于网页区域识别,该区域中文本的视觉特征(文本的大小,颜色,是否为粗体等)以及该区域本身的视觉特征(位置,背景)颜色,是否有边框等)至关重要。纯文本不能反映这些视觉特征,自然语言是高度抽象的。仅对纯文本执行特征提取和模式识别。难以提取足够的特征来获得理想的识别效果。

  [发明内容]

  [0004]本发明要解决的技术问题是提供一种基于深度学习的网页区域识别算法。

  [0005]本发明为解决已知技术中存在的技术问题而采用的技术方案是:

  本发明基于深度学习的网页区域识别算法包括以下步骤:

  A。格式化文本:使用网页的HTML源代码作为算法输入;

  B。视觉特征处理:

  将HTML转换为XML,以提取网页中不同区域的视觉特征;选择上述视觉特征以获得视觉特征向量;归一化视觉特征向量以获得归一化的视觉特征向量;

  C,文字特征处理:

  将HTML转换为XML,提取网页区域中的文本;通过分词算法对文本特征进行序列化;通过神经网络语言模型学习文本特征向量;

  D。叠层降噪自动编码器SDAE作为特征学习方法,上述处理后的特征向量作为输入向量;

  E。使用堆叠式降噪自动编码器SDAE的输出向量作为分类算法的输入,并使用分类算法对上述输出向量进行分类。向量的分类结果是与特征向量相对应的网页区域的识别结果。

  [0006]本发明还可以采用以下技术措施:

  在步骤B中,通过选择所有视觉特征来获得未归一化的视觉特征向量。

  [0007]在步骤B中,通过选择一些视觉特征,获得未归一化的视觉特征向量。

  [0008]使用Min-Max Normali zat 1n的归一化方法对视觉特征向量进行归一化,以获得归一化的视觉特征向量。

  [0009]在步骤C中,使用*敏*感*词*分词算法对文本进行分词。

  [0010]在步骤C中,通过口吃分割算法对文本进行分割。

  [0011]在步骤C中,通过Paragraph2Vec算法学习文本特征向量。

  [0012]在步骤D中,将视觉特征向量用作堆叠降噪自动编码器SDAE的输入向量。

  [0013]在步骤D中,将视觉特征向量和文本特征向量进行拼接,作为堆叠降噪自动编码器SDAE的输入向量,并对拼接的向量进行选择性归一化。

  [0014]在步骤E中,使用分类算法Softmax Regress1n对学习到的特征向量进行分类。

  [0015]本发明的优点和积极效果是:

  在本发明的基于深度学习的网页区域识别算法中,将网页的HTML源代码用作算法输入,并将HTML转换为XML,提取视觉特征和文本内容,并归一化对应的视觉特征,通过神经网络语言模型对文本内容进行特征学习,分别获得初步视觉特征向量和文本特征向量,并通过叠加降噪进一步学习初步视觉特征向量和文本特征向量自动编码器SDAE获取与该网页区域的网页区域特征向量相对应的代表,并通过分类算法对网页区域特征向量进行分类,即得到网页区域的识别结果。本发明可以准确识别网页中的标题区域,文本区域和导航区域等视觉区域,识别准确率达到9 9. 99%-100%。

  [详细实现]

  [0016]以下将通过具体实施例详细描述本发明。

  [0017]本发明的基于深度学习的网页区域识别算法包括以下步骤:

  A。格式化文本:使用网页的HTML源代码作为算法输入;

  B。视觉特征处理:

  将HTML转换为XML,提取网页中不同区域的视觉特征,视觉特征包括区域坐标,区域背景颜色,区域边框粗细,区域文字密度,区域文字字体,区域文字大小,区域文字颜色等。;通过选择全部或部分视觉特征以获得未归一化的视觉特征向量;用Min-Max Normalizat1n的归一化方法对视觉特征向量进行归一化,得到归一化的视觉特征向量;

  C,文字特征处理:

  将HTML转换为XML,提取网页区域中的文本;使用*敏*感*词*分词算法或口吃分词算法对文本进行分割;使用神经网络语言模型的Paragraph2Vec算法学习文本特征向量;

  D。堆叠降噪自动编码器SDAE被用作特征学习方法,并且上述处理过的特征向量被用作输入向量。 SDAE的输入向量是通过视觉特征向量和文本特征向量进行拼接的,或者仅是视觉的特征向量作为输入向量,并且对拼接的向量进行了规范化或未处理;

  E。堆叠降噪自动编码器SDAE的输出向量用作分类算法的输入,分类算法Softmax Regress1n用于对上述输出向量进行分类。向量的分类结果是与特征向量识别结果相对应的网页区域。

  [0018]上面的描述仅是本发明的优选实施方式,并且无意于以任何形式限制本发明。尽管已经在优选实施例中如上所述公开了本发明,但是其无意于限制本发明。当然,在不脱离本发明的技术方案的范围的情况下,本领域的任何技术人员当然都可以使用所公开的技术内容进行一些改变或修改,以成为等同改变的等同实施方式,只要他们能够做到。不背离本发明的技术方案,基于本发明的技术实质,对以上实施例所作的任何修改,等同变化,修改,修改的内容,均在本发明技术方案的范围内。发明。

  [主权物品]

  1.一种基于深度学习的网页区域识别算法,包括以下步骤:A.格式化文本:使用网页的HTML源代码作为算法输入; B.视觉特征处理:将HTML转换为XML并提取网页内部不同区域的视觉特征;选择上述视觉特征以获得视觉特征向量;归一化视觉特征向量以获得归一化的视觉特征向量; C.文本特征处理:将HTML转换为XML,提取网页区域中的文本;分割文本;通过神经网络语言模型学习文本特征向量; D.使用堆叠降噪自动编码器SDAE作为特征学习算法,并使用处理后的特征向量作为SDAE的输入向量; E,使用分类算法对堆叠式降噪自动编码器SDAE学习到的特征向量进行分类,向量的分类结果为特征向量对应的网页区域的识别结果。 2.根据权利要求1所述的基于深度学习的网页区域识别算法,其特征在于:在步骤B中,通过选择所有视觉特征,获得非归一化的视觉特征矢量。 2.根据权利要求1所述的基于深度学习的网页区域识别算法,其特征在于:在步骤B中,通过选择部分视觉特征,获得非归一化的视觉特征矢量。 4.根据权利要求2或3所述的基于深度学习的网页区域识别算法,其特征在于:所述最小-最大归一化方法用于对所述视觉特征向量进行归一化,以获得归一化的视觉特征向量。 6.根据权利要求4所述的基于深度学习的网页区域识别算法,其特征在于:在步骤C中,通过*敏*感*词*分词算法对文本进行分词。 7.根据权利要求4所述的基于深度学习的网页区域识别算法,其特征在于:在步骤C中,通过口吃单词分割算法对文本进行分割。 7.根据权利要求5或6所述的基于深度学习的网页区域识别算法,其特征在于:在步骤C中,通过Paragraph2Vec算法学习所述文本特征向量。 7.根据权利要求5或6所述的基于深度学习的网页区域识别算法,其特征在于:在步骤D中,将视觉特征向量用作堆叠式降噪自动编码器SDAE的输入向量。 9. 7.根据权利要求5或6所述的基于深度学习的网页区域识别算法,其特征在于:在步骤D中,将视觉特征向量和文本特征向量拼接为叠加式降噪的输入向量。自动编码器SDAE,在拼接后将所选向量标准化。 1 0.根据权利要求1所述的基于深度学习的网页区域识别算法,其特征在于:在步骤E中,使用分类算法Softmax Regress 1n对学习到的特征向量进行分类。

  [专利摘要]一种基于深度学习的网页区域识别算法,包括以下步骤:A.使用格式化文本和网页HTML的源代码作为算法输入; B.通过HTML2XML算法提取网页区域的视觉特征向量; C.通过HTML2XML算法提取网页区域的文本内容,通过神经网络语言模型学习文本特征向量; D.使用叠加降噪自动编码器SDAE作为特征学习方法,并使用上述特征向量作为SDAE的输入向量; E.使用分类算法对SDAE的输出向量进行分类,向量的分类结果为该向量对应的网页区域的识别结果。通过本发明,可以准确识别网页中的标题区域,文本区域和导航区域等视觉区域,识别准确率为9 9. 99%-100%。

  [IPC分类] G06F17 / 30,G06F17 / 21,G06N3 / 08,G06F17 / 27

  [公开号] CN105550278

  [申请号] CN2

  [发明人]李志杰,周祖胜

  [申请人]天津海量信息技术*敏*感*词*

  [公开日] 2016年5月4日

  [申请日期] 2015年12月10日

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线