网页新闻抓取(发明专利推送包含新闻信息的网页的方法和装置技术)

优采云 发布时间: 2021-11-08 07:07

  网页新闻抓取(发明专利推送包含新闻信息的网页的方法和装置技术)

  本发明的专利技术提供了一种推送收录新闻信息的网页的方法和装置。该方法包括:从抓取的收录新闻信息的网页中提取时效性关键词;计算第一个收录新闻信息的网页数量 时间敏感的属性特征;接收查询词,获取查询词对应的多个网页的网址的结果页;计算多个网页的第二时间敏感属性特征;如果查询词匹配时效性关键词,则将第一时间敏感属性特征与第二时间敏感属性特征进行比较,根据比较结果得到查询词的时效性;根据查询词的时效性,在结果页面上确定收录新闻信息的网页的URL的插入位置。根据本发明的专利技术,可以判断用户输入的查询词的时效性,可以根据查询词的时效性对收录新闻信息的网页网址进行排序。可以对新闻信息对用户较新的网页进行排序。先排序。可以对新闻信息对用户较新的网页的网址进行排序。先排序。可以对新闻信息对用户较新的网页的网址进行排序。先排序。

  下载所有详细的技术数据

  【技术实现步骤总结】

  推送收录新闻信息的网页的方法及装置

  这项专利技术涉及计算机

  尤其涉及一种推送收录新闻信息的网页的方法和装置。

  技术介绍

  按照目前的搜索引擎技术,用户在终端输入查询词后,搜索引擎会获取到该查询词对应的多个网页网址。多个网页网址返回给用户终端后,会显示在用户终端的结果页面上。由于网页网址的数量较多,所以在结果页显示时肯定存在排序问题。根据目前的搜索引擎技术,旧网页的网址一般排在第一位。这种排序对于收录新闻信息的网址有很大的弊端:在用户输入查询词搜索新闻的场景下,目前的搜索引擎技术只能将旧新闻网页的网址排在第一位,而最新新闻的网址是网页稍后排序,但是由于新闻的时效性,大多数新闻的新闻性会随着时间的推移而下降,因此用户最终看到的很可能是新闻性较低的新闻。由于其网页的 URL 较低,用户很难找到和打开更高级别的新闻。可见,现有的搜索引擎技术难以分析新闻信息对用户的新闻性,也难以对收录新闻信息的网页网址进行合理排序,从而无法完成对网页的有效推送。收录新闻信息。

  技术实现思路

  针对上述问题,提出本专利技术,以提供一种克服上述问题或至少部分解决上述问题的推送收录新闻信息的网页的方法和装置。根据该专利技术的一个方面,提供了一种推送收录新闻信息的网页的方法,包括:从抓取到的收录新闻信息的网页中提取时效关键词;计算新闻信息内容网页的第一时间敏感属性特征;接收查询词,获取查询词对应的多个网页的网址的结果页面;计算多个网页的第二时间敏感属性特征;及时性关键词匹配,然后将第一时效属性特征与第二时效属性特征进行比较,根据比较结果得到查询词的时效性;查询词的时效性强根据比较结果弱,确定收录新闻信息的网页的URL在结果页面的插入位置。可选的,从抓取到的收录新闻信息的网页中提取时效关键词的步骤包括:从收录新闻信息的网页的标题中提取时效关键词。可选的,第一时效属性特征包括收录新闻信息的网页的分类、收录新闻信息的网页的生成时间、收录新闻信息的网页的时效性。关键词在收录新闻信息和已知历史事件的网页中出现的频率和/或时效性的对比数据;第二时效属性特征包括多个网页的分类、多个网页的生成时间、查询词在多个网页中出现的频率、和/或查询词在多个网页中的出现次数知道历史事件之间的比较数据。

  可选的,根据查询词的时效性确定收录新闻信息的网页的URL在结果页的插入位置包括:在结果页上划分多个区间,分别对应不同强度的时效性和弱点;选择与查询词的时效性强或弱匹配的区间,将收录新闻信息的网页的URL放置在所选区间内。可选的,每个区间从上到下分为三个部分,每个区间都有对应的置信度,将收录新闻信息的网页的URL放入所选区间的步骤还包括:如果查询词的时效性高于所选区间的置信水平,收录新闻信息的网页的URL放置在所选区间的顶部,如查询词和所选区间的时效性如果区间的置信度相同,则收录新闻的网页的URL信息放置在所选间隔的中间部分。如果查询词的时效性低于所选区间的置信度,则将信息网页的 URL 置于所选区间的最低部分。可选的,还包括:建立将时效关键词与第一时效属性特征关联的索引;如果查询词匹配时效性关键词,则在比较第一时间敏感属性特征和第二时间敏感属性特征的步骤之前,根据比较结果获取查询词的时效性,该方法还包括:根据索引判断查询词与查询词是否相同。匹配时效性关键词,搜索与时效性关键词相关的第一个时效性属性特征。

  根据专利技术的另一方面,还提供了一种推送收录新闻信息的网页的装置,包括:网络爬虫,用于抓取收录新闻信息的网页;关键词 提取器,用于从收录新闻信息的抓取网页中提取时效性关键词;关键词数据库用于存储提取的时效性关键词;第一特征计算器用于计算收录新闻信息的网页的第一时间敏感属性特征;查询模块用于接收查询词,获取查询词对应的多个网页的网址的结果页面。第二特征计算器用于计算多个网页的第二时间敏感属性特征;查询词时间敏感获取模块,如果查询词匹配时间敏感关键词,则将第一时间敏感属性特征与第一时间敏感属性特征进行比较 2. 比较时间属性特征,得到根据比对结果查询词条的时效性;新闻网页展示模块,用于根据查询词的时效性判断新闻网页的URL在结果页的位置高低。可选的,关键词提取器从收录新闻信息的网页的标题中提取时效性关键词。可选的,第一时效属性特征包括收录新闻信息的网页的分类、收录新闻信息的网页的生成时间、以及收录新闻信息的网页的及时性。关键词在收录新闻信息和已知历史事件的网页中出现的频率和/或时效性的对比数据;第二时效属性特征包括多个网页的分类、多个网页的生成时间、查询词在多个网页中出现的频率、和/或查询词在多个网页中的出现次数知道历史事件之间的比较数据。

  可选的,所述新闻网页展示模块包括: 区间划分模块,用于在结果页面上划分多个区间,分别对应不同的时效性。区间选择模块,用于选择查询查询词的时效性与区间强匹配,将收录新闻信息的网页的URL放置在所选区间内。可选地,每个区间从上到下分为三个部分,每个区间有一个对应的置信水平。如果查询词的时效性高于所选区间的置信度,区间选择模块会将收录新闻信息的网页的URL置于所选区间的顶部。如果查询词的时效性与所选区间的置信度一致,区间选择模块将收录网页URL的新闻信息置于所选区间的中间。如果查询词的时效性低于所选区间的置信度,区间选择模块将收录新闻信息的网页的URL放入所选区间。选择区间的最低部分。可选的,还包括: 索引建立模块,用于建立将时效关键词与第一时效属性特征关联的索引;索引搜索模块,用于根据索引判断查询词是否符合时效关键词,并搜索与时效相关的第一个时效属性特征关键词。根据专利技术的推送收录新闻信息的网页的方法和装置,可以通过分析收录新闻信息的网页和查询对应的其他网页的时效性属性特征来判断用户输入的查询词的时效性字。词的及时性反映了新闻信息为用户提供的程度。因此,根据查询词的时效性对收录新闻信息的网页的网址进行排序,可以对新闻信息对用户来说更具新闻性的网页的网址进行排序。排序优先方便用户及时查看自己需要的新闻信息,

  以上描述仅为本专利技术方案的概述。为了更清楚地了解本专利技术的技术手段,可以按照说明书的内容实施,以更好地实现本专利技术的上述及其他目的、特点和优点。显而易见且易于理解,下面将引用专利技术的具体实现。附图说明通过阅读以下优选实施例的详细描述,本领域普通技术人员将清楚各种其他优点和益处。附图仅用于说明优选实施例的目的,并不视为对专利技术的限制。此外,在整个图纸中,相同的附图标记用于表示相同的组件。图中:附图说明图1示出了根据专利技术实施例的推送收录新闻信息的网页的方法的流程图。

  

  【技术保护点】

  一种推送收录新闻信息的网页的方法,包括:从抓取的收录新闻信息的网页中提取时效关键词;计算收录新闻信息的网页的第一时效属性特征;接收查询词,获取查询词对应的多个网页的网址的结果页面;计算多个网页的第二时效属性特征;如果查询词匹配时效性关键词,则将第一时敏属性特征与第二时敏属性特征进行比较,根据比较结果得到查询词的时效性;

  【技术特点摘要】

  1.一种推送收录新闻信息的网页的方法,包括:从抓取的收录新闻信息的网页中提取时效关键词;计算收录新闻信息的网页的第一时效属性特征;接收查询词,获取查询词对应的多个网页的网址的结果页面;计算多个网页的第二时间敏感属性特征;如查询词与时效关键词匹配,则将第一时敏属性特征与第二时敏属性特征进行比较,根据比较结果得到查询词的时效性;根据查询词的时效性确定查询词的时效性。收录新闻信息的网页的URL在结果页的插入位置;第一时间敏感属性特征包括收录新闻信息的网页的分类、收录新闻信息的网页的生成时间、以及时效性关键词在收录新闻信息的网页中出现的频率和/或时效性关键词是收录新闻信息的网页出现次数与已知历史事件的比较数据;第二时间敏感属性特征包括多个网页的分类、多个网页的生成时间、查询词在多个网页中出现的频率、和/或查询该词在多个网页中的出现次数与已知历史出现次数的比较数据。2.如权利要求1所述的方法,其特征在于,所述从抓取到的收录新闻信息的网页中提取时效性关键词的步骤包括: 提取收录新闻信息的网页的标题 从关键词中提取时效性.

  3.如权利要求1所述的方法,其特征在于,所述根据查询词的时效性确定收录新闻信息的网页的URL在结果页面的插入位置包括:在结果页面,对应不同时效强度;选择与查询词的时效性相匹配的版块,将收录新闻信息的网页的网址设置在选定的区间内。4.如权利要求3所述的方法,其特征在于,每个区间从上到下分为三个部分,每个区间有一个对应的置信度,收录新闻信息的网页 将URL放入选中的URL的步骤间隔进一步包括:如果查询词的时效性高于所选区间的置信度,则将收录新闻信息的网页的 URL 置于所选区间的顶部 如果查询词的时效性与所选区间的置信度一致选定区间,如果查询词的时效性低于选定区间的时效,则将收录新闻信息的网页的URL放置在选定区间的中间部分。为了所选区间的置信度,将收录新闻信息的网页的 URL 放置在所选区间的最下方。5.根据权利要求1-4任一项所述的方法,还包括: 建立将时效关键词与第一时效属性特征关联的索引;

  【专利技术属性】

  技术研发人员:常富阳、秦继升、苏文杰、

  申请人(专利权):,,

  类型:发明

  国家省市:北京;11

  下载所有详细技术资料 我是此专利的所有者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线