网页采集器的自动识别算法(一种基于网页链接参数分析的信息预测采集方法(图))

优采云发布时间: 2022-02-27 21:11

　　本发明专利技术公开了一种基于网页链接参数分析的信息预测方法采集，包括以下步骤：计算网页链接的参数特征统计信息，计算网页中收录的外链分布信息，外链分布特征用于网页分类、网页资源的抽样预测、预测样本的采集测试、网页资源的整体预测。本发明专利技术的方法有效的补充了传统采集信息化方法的不足，扩大了要链接的资源数量采集，利用网页资源的已知特征预测大量未链接的资源。> 网页资源，提高采集网页信息的覆盖率。

　　下载所有详细的技术数据

　　【技术实现步骤总结】

　　该专利技术涉及搜索引擎和网络挖掘者所需的信息采集

　　，特别是一种基于网页链接参数分析的信息预测方法采集。

　　技术介绍

　　在互联网提供越来越多有价值的信息的今天，人们习惯于通过搜索引擎获取信息。信息采集系统是搜索引擎的核心组成部分；网络数据挖掘可以揭示网络上的大量隐藏信息。知识，从而衍生出各种互联网服务，Web数据挖掘也需要网页信息的深层采集。一般的网页信息采集系统有一定的局限性：（一）在一定的采集深度内，一些深度网页数据不能收录。（二）网页的编码技术越来越复杂，无法从中提取链接资源，大量网页资源被省略。（三）基于JavaScript引擎分析网页中的动态代码会给信息采集系统带来很大的开销。互联网上的网页总量持续快速增长，对搜索引擎的网络信息采集提出了更高的要求。互联网上的网页数量巨大，尤其是动态网页的数量正在迅速增长。在信息采集的过程中，难免会遇到各种异常情况，如服务器响应慢、网页重复、无效网页链接过多、网页资源之间链接难找等。Web 链接称为 URL。因此，人们需要一种新的网络信息采集方法来满足人们的需求。@采集系统。互联网上的网页总量持续快速增长，对搜索引擎的网络信息采集提出了更高的要求。互联网上的网页数量巨大，尤其是动态网页的数量正在迅速增长。在信息采集的过程中，难免会遇到各种异常情况，如服务器响应慢、网页重复、无效网页链接过多、网页资源之间链接难找等。Web 链接称为 URL。因此，人们需要一种新的网络信息采集方法来满足人们的需求。@采集系统。互联网上的网页总量持续快速增长，对搜索引擎的网络信息采集提出了更高的要求。互联网上的网页数量巨大，尤其是动态网页的数量正在迅速增长。在信息采集的过程中，难免会遇到各种异常情况，如服务器响应慢、网页重复、无效网页链接过多、网页资源之间链接难找等。Web 链接称为 URL。因此，人们需要一种新的网络信息采集方法来满足人们的需求。互联网上的网页数量巨大，尤其是动态网页的数量正在迅速增长。在信息采集的过程中，难免会遇到各种异常情况，如服务器响应慢、网页重复、无效网页链接过多、网页资源之间链接难找等。Web 链接称为 URL。因此，人们需要一种新的网络信息采集方法来满足人们的需求。互联网上的网页数量巨大，尤其是动态网页的数量正在迅速增长。在信息采集的过程中，难免会遇到各种异常情况，如服务器响应慢、网页重复、无效网页链接过多、网页资源之间链接难找等。Web 链接称为 URL。因此，人们需要一种新的网络信息采集方法来满足人们的需求。Web 链接称为 URL。因此，人们需要一种新的网络信息采集方法来满足人们的需求。Web 链接称为 URL。因此，人们需要一种新的网络信息采集方法来满足人们的需求。

　　技术实现思路

　　本专利技术的目的在于克服现有技术的不足和不足，提供一种基于网页链接参数分析的信息预测方法采集，对大量网页和链接进行聚类分析来自采集的资源。分类决策，预测未知网页集合中会收录哪些链接资源，结合预测方法，可以比传统的采集方法找到更多具有相似链接的动态网页。该专利技术的目的是通过以下技术方案实现的：，包括以下顺序的步骤：（1)计算网页链接参数的统计信息；（2) 计算网页中收录的外部链接的分布信息，为网页分类提供特征，作为识别依据；(3)根据网页外部链接的分布特征对网页进行分类；(4)利用网页链接分类结果和参数统计对网页资源样本进行预测，生成预测网页资源的小样本；( 5) 对采样得到的预测样本进行采集检验，过滤出成功率达到自定义阈值采集的网页链接集合，丢弃部分没有达到的网页链接满足条件；（6)网页资源整体预测：利用抽样测试的结果和网页链接参数特征的统计信息来预测大量有效的网页链接集。描述的步骤（1)，如下：通过遍历已经为采集的网页链接库，在遍历过程中提取网页链接的参数特征，最小值和最大值记录每对参数值对中出现过的值。并记录每对参数值对中出现过的最小值和最大值。价值。并记录每对参数值对中出现过的最小值和最大值。价值。

　　它是多个具有相似形式的类别，根据每个类别的数量大小排序得到分布特征。在步骤(3)中，网页分类用于识别网页链接对应的类别，为导航类别。网页链接、列表页网页链接、内容页网页链接之一。在步骤( 4)，网页资源的采样预测在所有可预测的网页资源集中，在每个4)@网站每条路径下随机选取一定比例的网页链接。与现有技术相比，本专利技术具有以下优点和有益效果：1、专利技术的方法有效补充了传统采集@的不足>

<p>2、在本专利技术的方法中，对预测样本的采集测试可以验证不同参数值对应的预测网页链接样本能否有效访问网络资源，综合生成预测下一步的结果。网页链接资源供参考。3、在专利技术的方法中，对网页资源进行整体预测，可以根据抽样预测样本的有效性分析，剔除大量无效的预测结果，降低预测的盲目性，提高准确率。[附图说明] 图。图1是本专利技术的流程图；无花果。图2是图1中描述的方法的网页链接串的基本形式的*敏*感*词*。1; > 网页链接统计信息结构*敏*感*词*；图4是图1所述方法的各个

0

2022-02-27

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法(一种基于网页链接参数分析的信息预测采集方法(图))

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法(一种基于网页链接参数分析的信息预测采集方法(图))

0 个评论

发起人

相关问题