输入关键字 抓取所有网页(Excel教程Excel函数Excel表格制作Excel2010Excel实用技巧Excel视频教程)
优采云 发布时间: 2022-03-21 19:13输入关键字 抓取所有网页(Excel教程Excel函数Excel表格制作Excel2010Excel实用技巧Excel视频教程)
布局页面也可能收录标签;此外,标签混合还指使用控制结构的标签(例如<hl>)和控制性能的标签(例如<b>),这使得重新设计和划分数据变得困难。. 在这项专利技术中,由于模块需要进行划分,所以这里使用的混合标签主要是指<Table>和<Div>标签的混合使用。进一步地,本步骤中,计算各模块的文本长度具体包括:针对各模块,提取该模块的HTML标签,根据该HTML标签获取对应模块中收录的文本信息,计算该文本信息的长度,并获取相应的文本信息。模块的文本长度。步骤S102,提取各模块收录的链接地址,
【技术保护点】
一种提取文本内容的方法,包括:将输入的HTML网页分解为多个模块,根据各个模块在网页布局中的位置确定各个模块的位置得分,计算各个模块的值。文字长度;提取每个模块中收录的链接地址,统计除协议字符外的所有链接地址中最常用的字符内容,将每个收录最常用字符内容的链接地址标记为有效链接,不会收录所有的链接地址字符内容使用频率最高的字符内容被标记为无效链接;
【技术特点总结】
1.一种提取文本内容的方法,其特征在于,包括将输入的HTML网页分解为多个模块,根据各个模块在网页布局中的位置确定各个模块的位置得分,确定每个模块的位置得分。计算每个模块的文本长度;提取每个模块中收录的链接地址,统计除协议字符外的所有链接地址中最常用的字符内容,并将每个收录最常用字符内容的链接地址标记为有效链接,将每个不收录的链接地址标记为有效链接最常用的字符内容作为无效链接;根据综合得分=模块的位置得分X(模块的文本长度+模块中有效链接的文本长度)/模块中无效链接的文本长度,确定每个模块的综合得分模块,将综合得分超过设定阈值的模块确定为内容模块。2.如权利要求1所述的方法,其特征在于,该方法中,使用Table标签或Div标签将输入的HTML网页分解为多个模块。3.根据权利要求2所述的方法,其特征在于,在该方法中,如果分解后的模块可以连续分解且标签不混淆,则继续分解分解后的模块。4.根据权利要求1所述的方法,其特征在于,在该方法中,标记有效链接和无效链接时,统一计算每个链接中的文本长度;或者,在确定每个模块的综合得分时,分别计算每个模块中收录的每个链接的文本长度。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法中,计算各个模块的文本长度具体包括:针对各个模块,提取模块的HTML标签,根据HTML标签获取对应模块收录的文本信息,计算文本信息的长度,得到对应模块的文本长度;该方法通过achor标签提取各个模块的链接地址。6.一种文本内容提取装置,其特征在于,包括网页处理单元,
【专利技术性质】
技术研发人员:叶伟,
申请人(专利权)持有人:,
类型:发明
国家省市:
下载所有详细的技术数据 我是该专利的所有者