浏览器抓取网页(基于智能预测模型的浏览器网页信息的预获取方法及系统)

优采云 发布时间: 2022-04-07 05:14

  浏览器抓取网页(基于智能预测模型的浏览器网页信息的预获取方法及系统)

  本发明专利技术涉及一种浏览器网页信息的预获取方法及系统,包括以下步骤:根据抓取的网页和历史网页的集合以及对应的URL特征建立倒排索引。分别抓取的网页和历史网页;用户输入的待访问URL是否在访问记录中,根据倒排索引获取历史网页信息或爬取网页信息,或提取待访问URL的URL特征;根据提取的 URL 特征集构建候选集;计算要访问的URL与特征候选集中每个URL的相似度,根据相似度权重选择历史访问过的URL;将历史访问过的URL对应的URL信息作为预测候选集,计算每个URL信息的概率,选择概率最高的URL作为最终的URL信息,返回预测候选结果。本发明专利技术根据返回的预测结果进行DNS预测分析、TCP预测连接和资源预测加载后,大大提高了网页的加载速度。

  下载所有详细的技术数据

  【技术实现步骤总结】

  一种浏览器网页信息预获取方法及系统

  本专利技术涉及一种浏览器网页信息的预获取方法及系统。

  技术介绍

  网页加载是浏览器的核心和基本功能。网页加载速度的提升有很多工作要做,比如缓存优化、预加载、基于服务器端技术、网络协议改进(比如SPDY)等等。基于智能预测模型的浏览器网页加载方法是一种可以大幅度提高网页加载速度的方法。在这个方法中,我们将智能预测模型命名为PageLoadOracle,主要是因为PageLoadOracle可以提前告诉我们需要解析什么域名,需要连接什么域名,给定URL需要加载哪些资源。但是,现实中并没有万能的预言机,我们只能尽可能地构建一个高效的预测模型。如何提高预测模型的预测准确率和召回率是一个关键问题。准确率是指预测模型返回需要执行的正确预测行为(DNS解析、TCP连接、资源下载),不执行无意义的预测行为。如果预测有误,则预测行为毫无意义,浪费一定的网络带宽和计算资源,对网络负载产生负面影响。召回意味着预测模型能够为请求 URL 的尽可能多的用户提供预测行为指导。特别是对于尚未访问的 URL 的指导。资源下载),不进行无意义的预测行为。如果预测有误,则预测行为毫无意义,浪费一定的网络带宽和计算资源,对网络负载产生负面影响。召回意味着预测模型能够为请求 URL 的尽可能多的用户提供预测行为指导。特别是对于尚未访问的 URL 的指导。资源下载),不进行无意义的预测行为。如果预测有误,则预测行为毫无意义,浪费一定的网络带宽和计算资源,对网络负载产生负面影响。召回意味着预测模型能够为请求 URL 的尽可能多的用户提供预测行为指导。特别是对于尚未访问的 URL 的指导。召回意味着预测模型能够为请求 URL 的尽可能多的用户提供预测行为指导。特别是对于尚未访问的 URL 的指导。召回意味着预测模型能够为请求 URL 的尽可能多的用户提供预测行为指导。特别是对于尚未访问的 URL 的指导。

  技术实现思路

  该专利技术要解决的技术问题是提供一种能够快速冷启动的浏览器网页信息预获取,满足用户个性化长尾需求,提高召回率,无论是否有用户个性化数据或不是。方法和系统。本专利技术解决上述技术问题的技术方案如下: 一种浏览器网页信息的预获取方法,包括以下步骤: 步骤一:针对互联网上预定范围内的所有网站,从每个网站随机抓取预定数量的爬取网页,保存所有爬取网页对应的爬取网页信息;第二步:获取用户在预定时间段内访问的历史网页,保存所有历史网页对应的历史网页信息;Step 3:根据所有爬取网页和历史网页构建访问记录,分别从各个网站爬取的网页和历史网页中提取URL特征,根据爬取的网页和历史对应的爬取网页和历史网页分别为网页。建立倒排索引,用于采集用户的 URL 特征;步骤4:获取用户输入的待访问URL,判断用户输入的待访问URL是否在访问记录中,如果是,则根据倒排索引获取与该待访问URL相关的历史网页信息或爬取网页信息,结束进程,如果没有,提取待访问网站的网站特征;步骤5:根据提取的待访问网站的网站特征集合构建候选集,候选集为倒排索引中所有网站特征集并集的特征候选集;步骤6:计算待访问网站与特征候选集中各个网站的相似度,按照相似度权重排序,选择相似度权重最高的网站特征对应的历史访问网站;步骤7:将历史访问过的网站对应的网站信息作为预测候选集,计算预测候选集中各网站信息的概率,

  在没有用户个性化数据的情况下,可以快速冷启动,提高召回率;并且可以整合用户个性化数据,满足用户个性化长尾需求,提高召回率。在上述技术方案的基础上,还可以对专利技术进行如下改进。进一步的,爬取的网页信息包括DNS解析的域名、待创建的域名和/或待加载的资源。进一步地,历史网页信息包括DNS解析的域名、待创建的域名和/或待加载的资源。进一步的,网站信息包括DNS解析的域名、待创建的域名和/或待加载的资源。进一步,步骤6中计算待访问网站与特征候选集中各网站的相似度具体为,根据待访问网站与特征候选集中任一网站的特征向量计算余弦距离。进一步的,一种浏览器网页信息预获取系统,包括抓取模块、获取模块、提取模块、判断模块、构建模块、计算模块和返回模块。网站中的所有网站,从每个网站中随机抓取预定数量的抓取网页,并保存所有抓取网页对应的抓取网页信息;获取模块用于获取用户在预定时间段内访问网页的历史记录,保存所有历史网页对应的历史网页信息;提取模块,用于根据所有被爬取的网页和历史网页构建访问记录,分别从每个网站抓取的网页和历史网页中提取URL特征,并根据被爬取的集合建立倒排索引网页和历史网页,以及被抓取的网页和历史网页分别对应的URL特征;判断模块用于获取用户输入的待访问网站,判断用户输入的要访问的URL是否在访问记录中,如果是,则获取历史网页信息或爬取相关网页信息根据倒排索引到要访问的URL,结束进程,如果不是,提取要访问的URL的URL特征;模块,用于根据提取的待访问URL的URL特征集合构建候选集,候选集为倒排索引中所有URL特征集并集的特征候选集;根据相似度权重对访问URL与特征候选集中的每个URL的相似度进行排序,选择相似度权重最高的URL特征对应的历史访问URL;

  进一步的,爬取的网页信息包括DNS解析的域名、待创建的域名和/或待加载的资源。进一步地,历史网页信息包括DNS解析的域名、待创建的域名和/或待加载的资源。进一步的,网站信息包括DNS解析的域名、待创建的域名和/或待加载的资源。进一步地,计算模块计算待访问网站与特征候选集中各网站的相似度具体为根据待访问网站与特征候选集中任一网站的特征向量计算余弦距离。[附图说明] 图。图1为本专利技术的方法步骤流程图;无花果。图2是专利技术体系*敏*感*词*。附图中,各个标签所代表的零件清单如下:1、抓取模块、2、获取模块、3、提取模块、4、判断模块、5、@ > 构建模块,6、 计算模块,7、 返回模块。具体实施方式下面结合附图对本专利技术的原理和特点进行说明,举例仅用于说明本专利技术,并不用于限定本专利技术的范围。图1为本专利技术的方法步骤流程图;图2是该专利技术的系统*敏*感*词*。示例1 从提高智能预测模型的准确率和召回率的角度,我们的预测模型综合考虑了互联网顶级站点和用户个性化的历史数据。一方面,在没有用户个性化历史数据的情况下,基于互联网热门站点网站群体行为数据进行预测;另一方面,预测是基于每个用户自己的个性化历史数据进行的。

  前者保证在没有用户个性化数据的情况下,能够快速冷启动,提高召回率;后者可以整合用户个性化数据,满足用户个性化长尾需求,提高召回率。两者缺一不可。一种浏览器网页信息的预获取方法,包括以下步骤: 步骤1:对互联网中预定范围内的所有网站,从每个网站中随机抓取预定数量的抓取网页,保存并存储所有抓取的网页 抓取网页对应的网页信息;Step 1具体为WWW中Top 500站点(作为Top 50 0)的每个站点,开始随机访问,从站点首页抓取k个网页; Step 2:获取用户在预定时间内访问的历史网页时间,保存所有历史网页对应的历史网页信息;Step 3:根据所有爬取的网页和历史网页建立访问记录,从各个网站抓取网页和历史网页 从 中提取URL特征,根据爬取的网页和历史网页建立倒排索引,分别对应爬取网页和历史网页的URL特征集合;步骤3具体为,对于互联网热门站点和用户历史访问量,对于每个网页P,根据提取的URL特征提取URL特征Π(P)、f2(P)、...、fm(P) 从各个网站中抓取网页和历史网页 从 中提取URL特征,并根据抓取的网页和历史网页以及分别对应的抓取网页和历史网页的URL特征集合建立倒排索引;步骤3具体为,对于互联网热门站点和用户历史访问量,对于每个网页P,根据提取的URL特征提取URL特征Π(P)、f2(P)、...、fm(P) 从各个网站中抓取网页和历史网页 从 中提取URL特征,并根据抓取的网页和历史网页以及分别对应的抓取网页和历史网页的URL特征集合建立倒排索引;步骤3具体为,对于互联网热门站点和用户历史访问量,对于每个网页P,根据提取的URL特征提取URL特征Π(P)、f2(P)、...、fm(P)

  

  【技术保护点】

  一种浏览器网页信息的预获取方法,其特征在于,包括以下步骤: 步骤1:对互联网中预定范围内的所有网站,从每个网站中随机抓取预定数量的抓取网页,保存它们对应的所有爬取网页的爬取网页信息;步骤2:获取用户在预定时间段内访问的历史网页,并保存所有历史网页对应的历史网页信息;Step 3:基于所有爬取的网页和历史网页建立访问权限 分别从各个网站爬取的网页和历史网页中记录并提取URL特征,根据抓取的网页和历史网页的集合以及被抓取的网页和历史网页分别对应的URL特征建立倒排排名索引;步骤4:获取用户输入的待访问URL,判断用户输入的待访问URL是否在访问记录中,如果是,则获取与待访问URL相关的历史网页信息或爬取网页信息根据倒排索引访问,结束处理,如果没有,则提取待访问网站的网站特征;步骤5:根据提取的待访问网站的网站特征集合构建候选集,候选集为倒排索引候选集中所有网站特征的集合并集的特征;第 6 步:计算待访问URL与特征候选集中各个URL的相似度,按照相似度权重排序,选择相似度权重最高的URL特征对应的历史访问URL;将网站信息作为预测候选集,计算预测候选集中每个网站信息的概率,选择概率最高的网站信息作为最终预测候选结果并返回。

  【技术特点总结】

  1.一种浏览器网页信息的预获取方法,其特征在于,包括以下步骤: 步骤一:对互联网中预定范围内的所有网站,随机抓取预定数量的Crawl网页,保存所有已爬取网页对应的爬取网页信息;步骤2:获取用户在预定时间段内访问的历史网页,并保存所有历史网页对应的历史网页信息;Step 3:根据所有爬取的网页和历史网页构建访问记录,分别从各个网站爬取的网页和历史网页中提取URL特征。建立倒排索引;第四步:获取用户输入的要访问的网站,判断用户输入的要访问的网站是否在访问记录中,如果是,则根据倒排索引获取与要访问的网站相关的历史网页信息或者抓取获取网页信息,结束处理,如果不是,提取要访问的网站的网站特征;步骤5:根据提取的待访问网站的网站特征集合构建候选集,候选集为倒排索引中所有网站特征的集合并集的特征候选集;步骤6:计算待访问网站中每个网址与特征候选集的相似度,按照相似度权重排序,选择相似度权重最高的网站特征对应的历史访问网站;第 7 步:通过将历史访问过的网站对应的网站信息作为预测候选集,计算预测候选集中每个网站信息的概率,选择概率最高的网站信息作为最终预测候选结果并返回. 2.根据权利要求1所述的浏览器网页信息的预获取方法,其特征在于:所述抓取的网页信息包括DNS解析的域名、待创建连接的域名和/或待创建的资源加载。3.根据权利要求1所述的浏览器网页信息的预获取方法,其特征在于:所述历史网页信息包括DNS解析的域名,要创建连接的域名和/或要加载的资源。4.根据权利要求1所述的浏览器网页信息的预获取方法,其特征在于:所述网址信息包括DNS解析的域名、待创建连接的域名和/或待创建的资源。加载。5.根据权利要求1所述的浏览器网页信息的预获取方法,其特征在于: 步骤6中的待访问网站与特征候选集中各网站的相似度计算具体为,根据待访问网站与特征候选集中任意网站的特征向量计算余弦距离。6. 一种浏览器网页信息的预获取系统,

  【专利技术性质】

  技术研发人员:莫宇、喻言、李洪亮、刘铁峰、

  申请人(专利权)持有人:,

  类型:发明

  国家、省、市:湖北;42

  下载所有详细的技术数据 我是该专利的所有者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线