网页flash文本抓取器(一种提取网页内容的方法及装置提高(技术实现步骤摘要))
优采云 发布时间: 2022-04-01 22:09网页flash文本抓取器(一种提取网页内容的方法及装置提高(技术实现步骤摘要))
本申请公开了一种网页内容提取方法及装置。利用网页中主题元素的文本内容与标题页块内容的关系,根据标题页块与各页块的相对位置,可在各页中确定正文页块块,而不是只考虑网页中的每个页面。降低了块的文本密度,从而过滤掉了大部分无关信息,提高了确定文本页块的准确性,也提高了从文本页块中提取文本的准确性。
下载所有详细的技术数据
【技术实现步骤总结】
此应用程序收录信息
,尤其涉及一种网页内容提取方法及装置。
技术介绍
网络爬虫是根据一定的规则自动提取万维网上网页内容的程序。网页内容包括正文、正文标题、正文发表时间、作者、出处。现有技术中网络爬虫提取网页文本的方法是下载网页,分析网页中每个页面块的文本密度值,取文本密度值最大的页块(即每单位面积收录的最大文本字符数)作为文本的位置。页块,并提取正文。但是,万维网上有各种网页布局。网页中文字密度最大的页块可能收录过多的无关信息,如文字广告、推荐链接等,而不是文本所在的页面块。根据文本密度值提取的内容可能不是正文。可以看出,现有的网页内容提取方法对网页中文本的提取准确率较低。
技术实现思路
本申请实施例提供一种网页内容提取方法及装置,用以解决现有网页内容提取方法中从网页中提取文本准确率不高的问题。本申请实施例提供的一种网页内容提取方法,包括:根据网页代码中主题元素的文本内容,确定网页中的标题页块;标题页块的相对位置,文本页块在每个页块中确定;网页的文本是从文本页面块中提取的。本申请实施例提供的一种网页内容提取装置,包括:第一标题确定模块,用于根据网页代码中主题元素的文本内容确定网页中的标题页块;文本确定模块,用于根据网页中各个页块与标题页块的相对位置,确定各个页块中的文本页块。文本提取模块用于从文本页面块中提取网页的文本。本申请实施例采用的上述至少一种技术方案可以达到以下有益效果:由于网页代码中主题元素的文本内容往往与网页中的标题页块的内容相关联。网页,可以根据这个关联来确定标题页块,然后根据标题页块和各个页块的相对位置,在各个页块中确定文本页块,从而从文本页块中提取出网页的文本。因此,通过这种方法,不需要考虑文本,另外,可以过滤掉大部分不相关的信息,提高了确定文本页块的准确性,也提高了从文本页块中提取文本的准确性因此。
附图说明此处所描述的附图用于提供对本申请的进一步理解,构成本申请的一部分。本申请的示意性实施例和说明用于解释本申请,并不构成对本申请的不当限制。在附图中:附图说明图1为本申请实施例提供的一种网页文本提取方法的流程图;无花果。图2为本申请实施例提供的网页*敏*感*词*;无花果。图3为本申请实施例提供的一种网页内容提取方法的详细流程图。优选实施例的详细说明为了实现目标,本申请的技术方案和优点更加清楚,下面结合本申请的具体实施例及相应的附图,对本申请的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的应用场景是通过网络爬虫提取网页中的文字以及文字的编辑信息。在本申请的应用场景中,通过网页渲染引擎,如Webkit、Gecko、Trident等,可以解析网页的代码,渲染网页。一个网页的代码包括几个元素,通常由一对标签和这对标签中间的内容组成,例如:
你好
上面是一个元素,“hello”是元素的内容;在网页的代码中,还包括一个由标签和内容组成的元素,比如图片子元素,例如:
它是一个图片子元素,其中“earth.jpg”是本地存储的图片。值得注意的是,图片子元素收录在对应的父元素中,例如:
你好
在渲染的网页中,显示了每个元素的内容和每个元素对应的图片。其中,每个元素的内容显示在网页中的每个矩形区域,一个矩形区域就是一个页面块,即网页中的每个元素都有对应的页面块,但是图片所在的区域所在的不是页块。需要说明的是,每个页面块在网页中分布的区域和位置可能不同,也可能重叠。在网页的代码中,还收录了每个页面块的位置信息。具体的,页块的位置信息可以是页块的指定位置到浏览器边缘的距离和页块的高宽,页面块的位置信息可以通过浏览器渲染引擎解析网页的代码得到。在本申请的应用场景中,网页渲染引擎通过解析网页的代码,得到网页中各个页面块的内容和位置,然后渲染网页。对于网络爬虫来说,网页中的文本是需要提取的有价值的信息。但是,除了文字和文字的编辑信息外,网页中往往还有很多不相关的信息,比如广告、评论、索引栏、相关信息等。链接等等。同时,对于网页中的每个页块,只有少数页块的内容或一个页块的内容是正文,并且其他页面块的内容不是正文。现有的网络爬虫无法直接确定网页中每个页面块中的正文页块,例如,
技术介绍
如上所述,现有的网络爬虫通过分析每个页面块内容的文本密度来确定文本密度最大的页面块为文本页面块。无关信息过多,提取文本的准确率低。采用本申请提供的网页文本提取方法,在确定标题页块后,可以根据标题页块与各页块的相对位置确定各页块中的文本页块。这样,在不考虑文本密度的情况下,可以过滤掉大部分无关信息,更准确地确定正文页块,提取正文。下面结合附图对本申请实施例提供的技术方案进行详细说明。图1为本申请实施例提供的一种网页文本提取方法的流程图,包括以下步骤: S101:根据本发明代码中主题元素的文本内容,确定网页中的标题页块。网页。在本申请实施例中,网页的主题元素可以是由网页代码中的一对标签和位于这对标签中间的内容组成的元素,例如“什么是专利_专利班级”。在网页的代码标准中,主题元素有其特定的作用,即浏览器' 页面渲染引擎根据主题元素的内容生成浏览器标签。浏览器标签一般位于浏览器的顶部或底部,用于显示网页的主题信息。无花果。图2为本申请实施例提供的网页*敏*感*词*。在图。2、浏览器渲染多个网页,在浏览器顶部的标签栏中,有多个浏览器标签对应多个网页。一般来说,网页主题元素的文本内容与网页中的标题页块的内容有关,如图2所示,在当前网页中,浏览器标签的内容为“The英军人数创200年来新低。老兵推荐。新兵领取购物券丨新兵丨英国丨陆军_新浪新闻”,即图2所示网页代码中的主题元素是“英国陆军人数创200年来新低。退伍军人推荐新兵领取购物券丨新兵丨英国丨陆军_新浪新闻》。图2中,网页主体(即标题页块)的标题内容为“英国陆军士兵人数创200年来新低。退伍军人推荐新兵获得购物券。” 因此,可以使用这种关系。文本内容决定了网页中标题页块的内容。具体地,主题元素的文本内容与网页中标题页块内容的关联关系可以相同、相似、或者其他可以根据前者确定的关系,本申请对此不做限定。作为本申请的一个实施例,网页中主题元素的文本内容与标题页的人脸块内容的关联可以相同。在本申请实施例中,根据网页主题元素的文本内容确定网页
【技术保护点】
一种网页内容提取方法,包括: 根据网页代码中主题元素的文本内容,确定网页中的标题页块;根据网页中的每个页块与标题页块的相对位置确定,在每个页块中确定文本页块;网页的文本是从文本页面块中提取的。
【技术特点总结】
1.一种网页内容提取方法,包括:根据网页代码中主题元素的文本内容,确定网页中的标题页块;根据网页中每个页块的标题页块的相对位置,确定每个页块中的文本页块;网页的文本是从文本页面块中提取的。2.根据权利要求1所述的方法,其特征在于,根据网页的主题元素的文本内容确定网页中的标题页块,具体包括: 根据主题元素的文本内容,在网页代码中的元素,判断收录的内容与标题元素的文本内容相同或相似;将title元素对应的页块确定为标题页块。3.根据权利要求2所述的方法,其特征在于,当不存在内容与文本内容相同或相似的元素时,该方法还包括: 代码中的每个元素,确定没有子元素的元素元素作为替代元素;将每个备选元素对应的页块确定为备选页块;获取替换页块的位置和替换页块中收录的内容的内容。属性; 确定位于网页特定位置且收录具有特定属性的内容的候选页块作为标题页块。4.根据权利要求1所述的方法,其中,根据网页中各个页块与标题页块的相对位置,确定各个页块中的文本页块,具体包括: 根据标题页块的位置,确定预期文本区域;根据每个页块与预期文本区域的相对位置,在每个页块中确定文本页块。
5.根据权利要求4所述的方法,其特征在于,根据标题页块的位置确定期望文本区域,具体包括: 根据标题页块在水平方向上的第一指定位置与第一距离到浏览器的第一指定边缘,确定期望文本区域的第二指定位置到浏览器的第一指定边缘在水平方向上的距离;根据标题页块的第一个指定位置,垂直方向上从浏览器第二个指定边缘到浏览器第二个指定边缘的第二个距离,确定到预期文本的第二个指定位置的距离区域到浏览器在垂直方向上的第二个指定边缘;根据标题页块的宽度,确定预期文本区域的宽度;当网页为移动网页时,根据移动终端显示屏的高度、标题页块的高度和第二距离确定预期文本区域的高度。当网页不是移动网页时,在网页的每个页块中确定有效页块,根据每个有效页块的最大高度、标题页块的高度和第二个距离文本区域的高度;有效页块是指在网页的每个页块中,与标题页块的相对位置满足预设条件,并且标题页块的宽度与宽度之差的绝对值不大于具有特定阈值的页块;其中,所述预设条件包括:位于标题页块的正下方。6.根据权利要求4所述的方法,其特征在于,根据每个页面块与预期文本区域的相对位置,在每个页面块中,确定文本页面块,具体包括:在每个页面块中,确定预期文本区域内面积最大的页块;使用页块作为文本页块;或者在网页的每个页块中确定一个有效页块,根据每个有效页块与预期文本区域的有效交集区域确定有效页块,在每个有效页块中,确定文本页块;有效页块是指网页的每个页块与满足预设条件的标题页块的相对位置,宽度与标题页块宽度之差的绝对值不为大于特定阈值;其中,所述预设条件包括:位于标题页块的正下方。
7.根据权利要求6所述的方法,其特征在于,根据每个有效页块的有效交集区域与期望文本区域的面积,在每个有效页块中确定文本页块,具体包括:按照每个有效页块的面积从小到大的顺序,对每个有效页块执行以下步骤,直到确定文本页块:得到有效页块的面积L,计算两者之间的差值有效页块和预期文本区域的有效交集面积S;如果S/L大于预设临界值,则确定有效页块为文本页块;如果 S/L 不大于预设的临界值,则继续下一个有效页块执行上述步骤。8. 8.根据权利要求7所述的方法,其特征在于,所述获取有效页块的面积L具体包括: 获取所述有效页块对应的有效元素的图片子元素;确定图片子元素对应的图片区域;有效页块的面积与对应图片的面积之和确定为有效页块的面积L;计算有效页块与预期文本区域的有效交集面积S,包括:计算有效页块与预期文本区域... 确定图片子元素对应的图片区域;有效页块的面积与对应图片的面积之和确定为有效页块的面积L;计算有效页块与预期文本区域的有效交集面积S,包括:计算有效页块与预期文本区域... 确定图片子元素对应的图片区域;有效页块的面积与对应图片的面积之和确定为有效页块的面积L;计算有效页块与预期文本区域的有效交集面积S,包括:计算有效页块与预期文本区域...
【专利技术性质】
技术研发人员:严军,
申请人(专利权)持有人:,
类型:发明
国家、省、市:北京;11
下载所有详细的技术数据 我是该专利的所有者