搜网站内容(搜索网页内容的方法及系统技术领域:本发明涉及计算机应用领域)
优采云 发布时间: 2022-01-01 11:01搜网站内容(搜索网页内容的方法及系统技术领域:本发明涉及计算机应用领域)
专利名称:网页内容搜索方法及系统*敏*感*词*法
网页内容搜索方法及系统
技术领域:
本发明涉及计算机应用领域,尤其涉及一种网页内容搜索方法及系统。背景技术:
传统的网络搜索引擎根据用户输入的搜索对象返回与搜索对象相关的网页。返回的网页只列出了网页本身的内容,或者也显示了其中收录的评论数,或者网页上明确标注的信息,如“引用”、“图库”等,而没有进一步分析网页内容的分析是为了分析人们在评论一件事时所表达的情感。因此,搜索用户无法根据返回的搜索结果获得人们对事物评论的情感取向,也无法获得有价值的信息。
发明内容 基于此,有必要提供一种网页内容搜索方法,能够显示网页内容的趋势,让搜索用户了解网页内容的趋势。此外,还需要提供一种网络内容搜索系统,能够显示网络内容的趋势,让搜索用户了解网络内容的趋势。一种网页内容搜索方法,包括以下步骤:获取查询字符串;根据查询字符串搜索并返回相关网页内容;计算网页内容的趋势值;并根据趋势值显示网页内容。优选地,该方法还包括对查询字符串进行预处理以分割查询对象的步骤;标识实体名称为查询字符串中实体名称的查询对象;判断查询字符串中是否存在实体名称,如果存在,则根据查询对象网页内容返回相关信息,从网页内容中获取收录实体名称的基本单元集,如果没有,则返回相关网页内容根据查询对象,显示返回的相关网页内容。优选地,在从网页内容中获取收录实体名称的基本单元集之后,该方法还包括判断基本单元集是否为空的步骤。否则,计算基本单元集中每个基本单元的趋势值,然后根据得到的基本单元集中每个基本单元的趋势值计算整个网页内容的趋势值,并根据网页内容的趋势值。优选地,还包括设置第一阈值和第二阈值,第一阈值大于第二阈值,设置第一区域、第二区域和第三区域;将网页内容的趋势值与第一阈值与第二阈值进行比较。当网页内容的趋势值大于第一阈值时,在第一区域显示网页内容,当网页内容的趋势值小于或等于第一阈值且大于或等于第一个门槛。当使用第二阈值时,网页内容显示在第二区域,当网页内容的趋势值小于第二阈值时,网页内容显示在第三区域。
最好还包括比较所有网页内容在第一区或第三区的趋势值,在第一区或按趋势值从大到小或小到大的顺序A预定数量的网页内容显示在第三区域中。优选地,该方法还包括对网页内容的趋势值进行比较和排名,并根据排名显示网页内容。一种网页内容搜索系统,包括数据获取模块,获取查询字符串;检索模块,根据查询字符串检索并返回相关网页内容;计算网页内容趋势值的处理模块;显示模块根据趋势值显示网页的内容。优选地,还包括分词模块、识别模块和判断模块。分词模块用于对查询字符串进行预处理以对查询对象进行切分,识别模块识别实体名称为查询字符串中实体名称的查询对象;判断模块,判断查询字符串中是否存在实体名称,如果是,处理模块还用于从网页内容中获取收录实体名称的一组基本单元,如果不存在,则检索模块返回显示模块根据查询对象内容显示相关网页,显示相关网页的返回内容。优选地,处理模块从网页内容中获取收录实体名称的基本单元集后,判断模块还判断基本单元集是否为空,如果是,则显示模块显示返回的相关网页内容,如果不是,处理模块进一步计算基本单元集中每个基本单元的趋势值,然后根据获取的基本单元集中每个基本单元的趋势值计算整个网页内容的趋势值,显示模块根据到网页内容趋势值显示网页的内容。
优选地,处理模块还设置第一阈值和第二阈值,第一阈值大于第二阈值,并设置第一区域、第二区域和第三区域,并且还使用当趋势将网页内容的值与第一阈值和第二阈值进行比较,当网页内容的趋势值大于第一阈值时,在第一区域显示网页内容,当网页内容的趋势值大于第一阈值时值小于等于第一阈值且大于等于第二阈值,网页内容显示在第二区域,当网页内容的趋势值小于第二阈值时,网页内容显示在第三个区域。优选地,处理模块还比较第一区域或第三区域中所有网页内容的趋势值,显示模块按照趋势值由大到小或从小到大的顺序位于第一区域。大。或者第三区域显示预定数量的网络内容。优选地,还包括排序模块,对网页内容的趋势值进行比较排序,并根据排序显示网页内容。上述搜索网页内容的方法和系统采用获取查询字符串,根据查询字符串搜索并返回相关网页内容,计算网页内容的趋势值,根据趋势值显示网页内容,所以搜索用户可以获得网页内容 对查询字符串进行评论并掌握有价值信息的倾向。
图。附图说明图1为本发明实施例中网页内容搜索方法的流程图;图2是另一实施例的网页内容搜索方法的流程图。如图。图3为实施例4的网页内容搜索系统的结构*敏*感*词*。 图3为另一实施例的网页内容搜索系统的结构*敏*感*词*。
具体实施方式如图1所示,一种网页内容搜索方法包括以下步骤: 步骤S10,获取查询字符串。获取用户输入的查询字符串,如用户输入的查询“体育明星刘翔”。步骤S20,根据查询字符串进行搜索,返回相关网页内容。搜索引擎获取查询字符串后,检索与查询字符串相关的网页内容,并将相关网页内容返回给用户。例如,查询字符串“深圳大运会”将返回相关网页内容,如“深圳举办第26届大运会”、“深圳大运会志愿者招募”等相关网页内容。步骤S30:计算网页内容的趋势值。网页内容中查询字符串有相关评论,使用支持向量机等情感分析算法计算返回网页内容的趋势值。在步骤S40中,根据趋势值显示网页的内容。根据计算出的网页内容的趋势值,显示网页内容。网页内容可以包括网页标题、摘要、网页地址(Universal Resource Locator,简称URL)、计算出的网页内容的趋势值。上述搜索网页内容的方法是获取查询字符串,根据查询字符串检索相关网页内容,并计算网页内容的趋势值,并根据趋势值显示网页内容,使得搜索用户可以获得网页内容的权限。查询字符串的评论倾向,掌握有价值的信息。例如,如果一个产品制造商可以从互联网上快速获得自己的品牌和竞争对手的品牌声誉,那么它自己的产品开发、营销策略和客户关系管理就非常有价值。
如图所示。参见图2,在一个实施例中,在步骤S10之后,在步骤S20之前,还包括以下步骤: 步骤S11,对查询字符串进行预处理,对查询对象进行切分。例如,对查询字符串“深圳大运会”进行预处理,将具有语言意义的单词分割为单词单元“26”、“时间”和“大运会”。步骤S12:识别实体名称为查询字符串中实体名称的查询对象。将查询字符串划分为有意义的词单元后,识别出这些查询对象中的实体名称。实体名称是指实体在客观世界中的名称,如人物、地点、机构、产品等。 步骤S13,判断查询字符串中是否存在实体名称,如果存在,则步骤S20执行,否则执行步骤S41。判断查询字符串中是否有实体名称。例如,如果在查询字符串“体育明星刘翔”中判断实体名称为“刘翔”,则返回相关网页内容,但不直接显示,需要进行下一步。步骤S41,根据查询对象返回相关网页内容,并显示返回的相关网页内容。如果查询字符串中没有实体名称,如“网络技术应用”,则分为查询对象“网络”、“技术”和“应用”,根据查询对象返回相关网页内容,然后直接显示给搜索用户。步骤S21,根据查询对象返回相关网页内容。将查询字符串分割成查询对象后,根据查询对象进行搜索,返回相关的网页内容。在步骤S21之后,还包括以下步骤。步骤S22,从网页内容中获取收录实体名称的基本单元集合。
当查询字符串中有实体名称时,即如果查询对象不是实体名称,则返回相关网页内容,然后从返回的网页内容中找到收录实体名称的基本单元,并将这些基本单元组合在一起形成聚集。其中,基本单位是词组、句子、句组、段落中的任何一种。在本实施例中,以句子作为介绍的基本单位。从网页内容中找出收录实体名称的句子集S。步骤S23:判断基本单元集是否为空,如果是,则执行步骤S41,如果不是,则执行步骤S31。从网页内容中找出收录实体名称的基本单元集,即收录实体名称的句子集。如果句子集为空,则表示网页内容中不存在收录实体名称的句子,直接显示返回的相关网页内容。语句集不为空,表示网页内容中存在收录实体名称的语句,执行步骤S31。步骤S30计算网页内容趋势值的具体步骤如下: 步骤S31,计算基本单元集合中各基本单元的趋势值。可以通过计算每个句子的趋势值来对每个句子进行评分,评分标准可以预先设定。如“喜欢”80分,“非常喜欢”90分等,这些评分标准可以存储在数据库中。步骤S32,根据获取的基本单元集合中各个基本单元的趋势值,计算整个网页内容的趋势值。计算出每个句子的倾角值后,可以采用平均法或加权求和法得到整个网页内容的倾角值。其中,采用平均法时,将所有句子的趋势值相加,除以句子数,得到平均值,即整个网页内容的趋势值。
采用加权求和法时,具体来说,如果标题中出现收录查询对象的评论词,则权重值为0. 5.网页内容的第一行和最后一行出现在第一行和查询对象的最后几行。权重值为0. 2.出现在查询对象中间的关键词的权重值为0. 1.每个句子的趋势值乘以相应的权重值并求和为获取整个网页内容的倾向值。在本实施例中,上述网页内容搜索方法中,根据趋势值显示网页内容的步骤S40还包括将网页内容的趋势值转换为对应的等级标记,并显示等级标记。网页内容的趋势值以亮星的形式表示。如果设置5星评级,每颗星可以代表一个固定的趋势值,可以通过网页内容的趋势值与固定趋势值的比值来获取网页内容的趋势水平。并且可以规定5星全亮表示该网页内容对查询对象完全正面,5星全暗表示该网页内容对查询对象强烈负面评价, 2. 5颗星亮表示这个 网页内容的赞和贬值比例与查询对象大致相同,即星越多越亮表示该内容越多网页对查询对象的正面和负面评论较多。另外,如果一点星星都没有(不管是亮的还是暗的),说明当前网页的内容没有向查询对象倾斜。每颗星代表的趋势值可能不固定。比如第一颗星代表的情感倾向值为100,第二颗星代表的情感倾向值为150,以后每颗星的基值都更大。
另外,使用亮星只是本发明的一个实施例,并不以此为限。如果直接展示网页内容的趋势值或采用10分的评分形式,例如网页内容的趋势值为560,每个点对应的趋势值为100,则趋势值为网页内容转换为5. 6点,显示在网页内容的侧面或标题等处,以上显示方式直观明了。在一个实施例中,上述网页内容搜索方法还包括以下步骤:设置第一阈值和第二阈值,并且第一阈值大于第二阈值,设置第一区域、第二区域和第二阈值三个领域;将网页内容的趋势值与第一、第二阈值进行比较,当网页内容的趋势值大于第一阈值时,在第一区域显示网页内容,当网页内容的趋势值为小于等于第一阈值且大于等于第二阈值,网页内容显示在第二区域,当网页内容的趋势值小于第二阈值时,网页内容显示在第三区。将网页内容的趋势值按大小分为三个等级,设置第一阈值和第二阈值,并使第一阈值大于第二阈值,并将网页内容的趋势值与第一、第二阈值进行比较, 根据比对结果,将网页内容分配到第一区域、第二区域、第三区域中对应的区域。这样,网页内容在不同区域展示的趋势比较集中,搜索用户可以更直观地获得相应级别的网页内容。
其中,第一个区域的网页内容表示相对正面的评价。网站内容在该领域的趋势值越大,评价越积极;第二个区域的网页内容为中性评价;第三区域的内容 网页内容代表相对负面的评价,该区域的网页内容的趋势值越小,评价越负面。在一个实施例中,上述网页内容搜索方法还包括比较第一区域内所有网页内容的趋势值,按照趋势值由大到小或从小到大的顺序在第一区域展示到大。预定数量的网页内容。比较第一个区域的网页内容的趋势,然后按照趋势值从大到小或从小到大排序。由于显示页面受限或显示内容过多,容易造成网页加载缓慢。可以设置显示预定数量的网页内容,按照趋势值从高到低的顺序在第一区域显示预定数量的网页内容。可以选择显示多个排在最前面的网页的内容,例如前三个网页的内容,包括网页标题、摘要、网址和网页内容趋势值。在一个实施例中,上述网页内容搜索方法还包括比较第三区域内所有网页内容的趋势值,并按照趋势值从小到大或从大到小。预定数量的网页内容。类似地,与第一区域一样,第三区域按照趋势值从小到大或从小到大的顺序显示预定数量的网页内容。可以选择显示多个排在最前面的网页的内容,例如前三个网页的内容,包括网页标题、摘要、网址和网页内容趋势值。
在一个实施例中,上述搜索网页内容的方法还包括对网页内容的趋势值进行比较和排名,并根据排名显示网页内容。比较网页内容的趋势值,根据趋势值由大到小或从小到大对网页内容进行排序,然后显示排序后的网页内容。趋势分析的结果会干扰搜索引擎的自然排名。如果分析出查询字符串中有较强的搜索倾向,则可以根据网页内容的倾向进行适当的重新排序。同时进行排序后展示,方便用户了解网页内容的趋势。如图所示。参见图3,在一个实施例中,该网页内容搜索系统包括数据获取模块10、检索模块20、处理模块30和显示模块40。数据获取模块10用于获取请求参数。数据获取模块10获取用户输入的查询字符串,例如“体育之星孙悦”。检索模块20用于根据查询字符串进行检索并返回相关网页内容。检索模块20根据用户输入的查询字符串进行检索,并返回检索到的相关网页内容。其中,网页内容可以包括网页标题、摘要和网页地址(Universal Resource Locator,简称URL)。处理模块30计算网页内容的趋势值。处理模块30使用趋势分析算法,例如支持向量机,来计算网页内容的趋势值。显示模块40根据趋势值显示网页的内容。其中,网页内容可以包括网页标题、摘要、网页地址(Universal Resource Locator,简称URL)、计算出的网页内容的趋势值。
如图所示。参见图4,在一个实施例中,上述网页内容搜索系统还包括分词模块50和识别模块60。分词模块50对查询字符串进行预处理以对查询对象进行分割。分词模块50将查询串分割成具有语言意义的词。例如,查询字符串“体育明星孙悦”分为“体育”、“明星”和“孙悦”。识别模块60识别实体名称在查询字符串中的查询对象。实体名称是指客观世界中实体的名称,如人物、地点、机构、产品等。 上述网页内容搜索系统还包括判断模块70、等级标记模块80和排序模块90。判断模块70用于判断查询字符串中是否存在实体名称。如果是,则处理模块30还用于从网页内容中获取收录实体名称的基本单元集。若否,则检索模块20根据查询字符串返回相关网页。内容,显示模块40直接显示相关网页的返回内容。处理模块30从返回的网页内容中找出收录实体名称的基本单元,将这些基本单元集合在一起形成集合。其中,基本单位是词组、句子、句组、段落中的任何一种。在本实施例中,以句子作为介绍的基本单位。处理模块30从网页的内容中找出收录实体名称的句子集合S。判断模块70还用于在处理模块30从网页内容中获取收录实体名称的基本单元集后,判断基本单元集是否为空。如果是,则显示模块40直接显示返回的相关网页内容,如果不是,则处理模块30进一步计算基本单元集合中每个基本单元的趋势值,然后计算整个网页内容的趋势值根据获取到的基本单元集合中各基本单元的趋势值,显示模块40再根据网页内容的趋势值计算整个网页内容的趋势值。该值显示网页的内容。
等级标记模块80将网页内容的趋势值转换为相应的等级标记,并通过显示模块40显示等级标记。等级标记模块80将网页内容的趋势值表示为明亮的星星。例如,如果设置了 5 星评级,则每颗星都可以代表一个固定的趋势值。可以通过网页内容的趋势值与固定趋势值的比值来获取网页内容的趋势水平。并且可以规定5星全亮表示该网页内容对查询对象完全正面,5星全暗表示该网页内容对查询对象强烈负面评价,2. 5颗星亮表示此网页内容对查询对象的评价大致等于好评和贬值的比例,即星越多越亮表示此网页内容越多对查询对象有更多的正面和负面评价。另外,如果一点星星都没有(不管是亮的还是暗的),说明当前网页的内容没有向查询对象倾斜。每颗星代表的趋势值可能不固定。例如,第一颗星代表的情感倾向值为100,第二颗星代表的情感倾向值为150,以后每颗星的基值更大。此外,使用亮星的方法仅为本发明的一个实施例,并不以此为限。如果直接展示网页内容的趋势值或采用10分的评分形式,例如网页内容的趋势值为560,每个点对应的趋势值为100,则趋势值为网页内容转换为5.6分,显示在网页内容的侧面或标题等。排名模块90对网页内容的趋势值进行比较排名,显示模块40根据排名显示网页内容。
排序模块90比较网页内容的趋势值,根据趋势值从大到小或从小到大进行排序。显示模块40根据排序结果显示网页的内容。在一个实施例中,处理模块30还设置第一阈值和第二阈值,第一阈值大于第二阈值,并设置第一区域、第二区域和第三区域。通过将网页内容的趋势值与第一阈值和第二阈值进行比较,当网页内容的趋势值大于第一阈值时,通过显示模块40在第一区域显示网页内容,当当网页内容的趋势值小于或等于第一阈值且大于或等于第二阈值时,网页内容通过显示模块40显示在第二区域。当网页内容的趋势值小于比第二阈值,显示模块40显示网页的内容显示在第三区域。其中,第一区域的网页内容表示相对正面的评价,该区域的网页内容的趋势值越大,评价越正面;第二个区域的网页内容表示中立评价;第三个区域的网页内容表示负面评论越多,该区域网页内容的趋势值越小,评价越负面。在一个实施例中,处理模块30还比较第一区域内所有网页内容的趋势值,显示模块40按照趋势值从前到后的顺序在第一区域显示预定数量的趋势值。大到小或从小到大。网页内容。可以选择显示多个排在最前面的网页的内容,例如前三个网页的内容,包括网页标题、摘要、网址和网页内容趋势值。
在一个实施例中,处理模块30还比较第三区域中所有网页内容的趋势值,显示模块40按照趋势值的顺序显示第三区域中的预定值从小到大或从大到小。网页内容的数量。可以选择显示多个排在最前面的网页的内容,例如前三个网页的内容,包括网页标题、摘要、网址和网页内容趋势值。上述实施例仅表达了本发明的几种实施方式,描述的比较具体和详细,但不应理解为对本发明专利范围的限制。需要指出的是,对于本领域普通技术人员来说,在不脱离本发明的构思的情况下,可以进行多种修改和改进,这些都落入本发明的保护范围内。因此,本发明专利的保护范围应以所附权利要求为准。
索赔
1. 一种搜索网页内容的方法,包括以下获取查询字符串的步骤;根据查询字符串检索并返回相关网页内容;计算网页内容的趋势值;根据趋势值内容显示网页。
2.根据权利要求1所述的网页内容搜索方法,其特征在于,还包括对查询字符串进行预处理和对查询对象进行切分的步骤;使用查询字符串对象中的实体名称标识查询;判断查询字符串中是否有实体名称,如果是,则根据查询对象返回相关网页内容,从网页内容中获取收录实体名称的基本单元集,如果没有,则返回相关网页页面根据查询对象Content,显示相关网页的返回内容。
3. The method for searching web content according to claim 2, characterized in that, after obtaining the basic unit set containing the entity name from the web content, the method further comprises the step of judging whether the basic unit set is empty , If yes, return the relevant webpage content according to the query object, and display the returned relevant webpage content, if not, calculate the tendency value of each basic unit in the basic unit set, and then according to each basic unit set The trend value of the unit calculates the trend value of the entire webpage content, and displays the webpage content according to the trend value of the webpage content.
4. The method for searching web content according to claim 1, further comprising setting a first threshold and a second threshold, and the first threshold is greater than the second threshold, Set the first area, the second area, and the third area; compare the trend value of the webpage content with the first threshold and the second threshold, and when the trend value of the webpage content is greater than the first threshold, the webpage The content is displayed in the first area. When the tendency value of the webpage content is less than or equal to the first threshold and greater than or equal to the second threshold, the webpage content is displayed in the second area. When the tendency value of the webpage content is less than the second threshold, the The content of the webpage is displayed in the third area.
5. The method for searching web content according to claim 4, further comprising comparing the trend values of all web content in the first region or the third region, and then according to the trend A predetermined number of webpage contents are displayed in the first area or the third area in the order of the value from large to small or from small to large.
6. The method for searching web content according to claim 1, further comprising comparing and ranking the trend values of the web content, and displaying the web content according to the ranking.
7. A system for searching web content, which is characterized in that it includes a data acquisition module to obtain a query string; a retrieval module retrieves according to the query string and returns relevant web content; a processing module that calculates web content Tendency value; a display module to display the webpage content according to the trend value.
8. The system for searching web content according to claim 7, further comprising a word segmentation module, a recognition module, and a judgment module. The word segmentation module is used to preprocess the query string and segment Query object, the recognition module recognizes the query object whose name is the entity name in the query string, the judgment module determines whether there is an entity name in the query string, and if so, the processing module is further used to obtain the content from the web page content The basic unit set of the entity name, if not, the retrieval module returns related webpage content according to the query object, and the display module displays the returned related webpage content.
9. The system for searching web content according to claim 8, wherein after the processing module obtains the basic unit set containing the entity name from the web content, the judgment module also judges Whether the basic unit set is empty, if it is, the display module displays the returned relevant webpage content, if not, the processing module further calculates the trend value of each basic unit in the basic unit set, and then according to the obtained basic unit set The inclination value of each basic unit of Calculates the inclination value of the entire webpage content, and the display module displays the webpage content according to the inclination value of the webpage content.
10. The system for searching web content according to claim 7, wherein the processing module further sets a first threshold and a second threshold, and the first threshold is greater than the The second threshold, and the first area, the second area, and the third area are set. It is also used to compare the trend value of the webpage content with the first threshold and the second threshold. When the trend value of the webpage content is greater than the first threshold When a threshold value, the webpage content is displayed in the first area. When the webpage content’s tendency value is less than or equal to the first threshold value and greater than or equal to the second threshold value, the webpage content is displayed in the second area. When the value is less than the second threshold, the webpage content is displayed in the third area.
11. The system for searching web content according to claim 10, wherein the processing module further compares the trend values of all web content in the first area or the third area , The display module displays a predetermined number of webpage contents in the first area or the third area in the order of the tendency value from the largest to the smallest or from the smallest to the largest.
12. The system for searching web content according to claim 7, further comprising a sorting module, which compares and sorts the trend values of the web content, and displays the web content according to the sort.
Full text abstract
The present invention relates to a method for searching web content, which includes the following steps to obtain a query string; search according to the query string and return relevant web content; calculate a trend value of the web content; and display the web content according to the trend value. In addition, it also relates to a system for searching web content. The above-mentioned method and system for searching webpage content adopts obtaining query string, searching and returning related webpage content according to the query string, and calculating the tendency value of the webpage content, and displaying the webpage content according to the tendency value, so that the searching user can obtain the webpage content The tendency to comment on the query string and grasp valuable information.
Document number G06F17/30GK102314435SQ2
Publication date: January 11, 2012 Application date: June 30, 2010 Priority date: June 30, 2010
Inventor Liu Yunfeng, Hu Yi Applicants: