|基于主题的网页实时分类模型的研究红

优采云 发布时间: 2021-05-14 21:34

  |基于主题的网页实时分类模型的研究红

  -1-中国科技论文在线基于主题的网页实时分类模型研究马建宏,张晨光*作者简介:马建宏,(1965-),女,教授,主要研究方向:人工智能,软件工程。 (河北工业大学计算机科学与软件学院,天津30040 0)摘要:本文首先研究了通用分类模型,并分析了该模型对网页进行实时分类的5个缺点。在此基础上,为了提高适用于网页的实时分类的效果,提出了一种基于主题的网页分类模型:首先,通过Nutch构建垂直搜索引擎的主题爬虫,该抓取器可以始终在Internet上进行爬网,以确保网页的实时性。网页的实时性质;然后遍历主题噪声处理Nutch的爬网结果,并删除一些与分类无关的页面,最后,对爬网的网页进行分类,实验表明,通过该模型,网页分类的速度和准确性针对网页实时分类的大数据需求,该模型可以有效地优化10个输入sam ples并节省计算时间。 关键词:计算机应用技术;话题;分类;实时分类。中文地图分类号:基于15个主题的实时网页分类研究马建宏,张晨光(河北工业大学计算机科学与软件工程学院,天津30040 0)摘要:本文,一般分类首先研究模型,并在此基础上分析通用模型实时分类的不足之处,针对20种更适合实时分类的模型,提出了一种基于分类的模型,构建了垂直搜索引擎的主题。通过Nutch进行爬虫,并且可以一直对网页进行爬网,因此可以通过主题结尾处理Nutch的爬网结果来确保实时,部分删除与分类无关的网页可以通过实验25进行爬取,结果表明,根据实时的网页分类大数据需求,可以提高速度和准确性,该模型可以有效地优化合并输入样本并节省计算时间。关键词:计算机应用技术;计算机辅助设计主题;分类;实时分类30 0简介随着Internet技术的迅猛发展,Internet上的信息量急剧增加。同时,网页的数量也呈指数增长。

  但是,由于信息的复杂性,用户越来越难以迅速地及时找到和获取信息。结果,网页分类技术逐渐发展。网页分类技术可以对网页进行自动,快速的分类,在当前的热门搜索领域和推荐系统中具有重要的应用价值和发展前景。 35网页分类系统主要分为4个主要模块:网页预处理,特征提取和权重分布,特征选择和分类器[1]。目前,国内科研人员已经对每个模块进行了详细的研究。在网页预处理和特征选择方面,熊忠阳等。使用布隆过滤器算法确定获得的特征指纹的相似性,并提出了一种新的*敏*感*词*网络重复数据删除算法[2]。周其年等。提出了一种基于词的特征选择方法[3]。就实现分类器而言,K最近邻算法(KNN)目前被证明是用于网页分类的最佳算法,并且已经进行了深入研究。 40其中,黄建华等。考虑样本的分布,并提出了局部加权的Citation-KNN算法[4];陆峰等。提出了一种模糊证据KNN分类方法[5]。由KNN算法实现的分类模型通常分为训练过程和测试过程。该模型具有较高的分类精度和较短的训练时间,但也存在一定的缺陷。当类别的数量相对较大时,由于主题分散,因此需要庞大的语料库。计算量巨大,不利于网页的实时分类。

  本文提出了一种基于主题的分类模型,通过45 Nutch为垂直搜索引擎构建了主题采集器,并提出了一种用于主题去噪的预处理方案,优化了输入样本,并设计了一种更适合实际使用的模型网页的时间分类。 1网页分类模型通用分类模型KNN分类模型的基本思想是首先对文件的一部分进行预处理,提取特征,转换文本向量,并进行分类标注以形成训练样本;然后,当测试样本到达时,执行和训练样本的处理类似;最后,它们由KNN分类器分类。过程如下图所示:图1-1通用分类模型55通过KNN分类模型的过程,我们可以看到在对网页进行分类时,每个测试样本必须与训练样本一起计算。对于大量样本数据集,由于要分类的样本包括广泛的类别,因此,如果您对网页进行实时分类,则会发现计算量很大;此外,在实时分类中有很多嘈杂的样本。这些将导致分类速度慢和分类精度低。为了解决这些问题,本文对模型进行了改进。改进的分类模型60通过研究和分析,可以看出网页的分类准确性和速度与要分类的网页的质量密切相关。待分类的网页的质量可以定义为:在实时分类网页的过程中,如果待分类的网页明确属于训练样本中的某个类别,则该网页的质量为高质量的网页。 如果要分类的网页属于广告或非培训样本,则如果您专注于某类网页,则该网页是低质量网页。

  很明显,对网页进行实时分类的关键是如何优化测试样本并获得一批高质量的输入样本。 65基于以上观点,可以如下改进KNN分类模型,如图所示:图1-2改进的分类模型主要技术主题捕获70通过垂直搜索可以很好地理解“主题”的概念引擎。垂直搜索引擎[6]是特定行业的专业搜索引擎。它是搜索引擎的细分和扩展。它是网页库中特定类型专业信息的集成。每个垂直搜索引擎都有自己的“主题”,它指向特定类别的信息。本文借用主题的概念来执行“主题爬网”,即从Internet上爬网特定类别的网页。例如,本文将以“科学技术”为主题,并通过nutch的采集和主题确定[7]形成“主题抢夺”,最终得到大量的75-3-篇中国科技论文。在线科学技术网页(其中将收录一些嘈杂的网页)。目前,用于信息采集的主要工具是nutnut和hritrix。本文使用小结来捕捉主题。通过注入url*敏*感*词*链接,采集可以到达许多网页地址(CrawlDB)和反向链接地址(LinkDB)。基本上,从图1-3到图1-4的转换可以通过主题捕获来实现。 80图1-3改进的分类模型图1-4改进的分类模型85在该图中,圆圈代表技术类别下的类别A,矩形代表技术类别下的类别B,三角形代表以下网页:与技术类别无关。

  可以看出,通过主题爬网,可以将大多数与分类无关的页面排除在外。但是,获得的页面仍将与一些低质量的页面混合在一起,这也是影响分类准确性和速度的主要原因。主题降噪在主题捕获后必须实时分类但与分类无关的所有这些页面都被分类为90噪声级。在网页预处理中,存在网页去噪的概念[8],即删除与网页中的分类无关的信息,例如广告,导航栏等。在这里可以借用此概念来定义主题降噪:所谓的主题降噪是从获取的数据集中删除与主题无关的网页。分析表明,坚果的爬行结果将存储在不同的位置。其中,CrawlDB主要存储爬网页面的URL地址,LinkDB主要存储这些URL地址的反向链接地址。 95 Google的排名算法是著名的PageRank算法。它的主要思想是“高质量的页面A链接到页面B,那么页面B更有可能是高质量的页面”。它使用链接对页面进行评分,然后完成排序。反向链接是其算法的核心。反向链接的定义如下:页面C收录指向页面D的名为“ C-D”的链接,然后对于D,此“ C-D”是反向链接。 100在上述理论支持下,我们可以做出以下假设:“当主题降噪时,如果存在MN,则为了确定第N页是否是无关页面,可以通过其反向链接页面M来确定;如果M是垃圾网页,例如广告,可以排除N”。

  这样,可以排除与推荐页面无关的许多页面,同时减少了分类过程中的计算时间,提高了分类效率。主题降噪流程图如下图2-3所示。4-中文科技论文在线105图1-5主题降噪流程图在判断url是否为广告页面时,可以使用url的特征。在实验中,采集访问了许多科技网站的网页,并从CrawlDB中发现其中一些是淘宝下的页面,有些属于搜狐下的运动模块。根据URL的特性,可以使用52个反向链接删除具有该URL的页面,这证明110个主题降噪可以有效消除不相关的页面,例如广告。 KNN分类算法KNN(k-Nearest Nei*敏*感*词*or)分类算法,即K最近邻分类算法,是一个发展已久的理论上成熟的方法[9]。这种方法的实现思路是:假设我们有一个样本A,如果它最接近的K个样本中的大多数都属于某个类别M,则我们将样本A归为M类别。其中,A的K个邻居中有115个指定了他们的类别。 KNN算法的决策过程是基于最新的一个或几个样本的类别来确定要分类的样本的类别。当K = 1时,要分类的样本属于最近样本的类别。

  KNN算法的决策过程如下图所示:图1-6 KNN算法的决策过程120-5-分配给绿色圆圈,是红色三角形还是蓝色正方形?如果K = 3,则由于红色三角形的比例为2/3,因此将为绿色圆圈指定红色三角形的类别;如果K = 5,则由于蓝色正方形的比例为3/5,因此将为绿色圆圈分配那种蓝色正方形。 KNN算法的实现步骤如下:125 1)预处理期望的库网页以形成网页向量V(v1,v2,v3 ... vi)。 2)在测试网页上执行分词和特征提取,以形成网页向量U(u1,u2,u3 ... ui)。 3)计算要分类的样本和训练样本之间的相似度。计算公式为:(,)sim uv = 21()nii iu v = -∑ 4)从小到大对相似度进行排序,选择前K个页面。目前,K的值没有定性值。随着实验的进行,它需要不断变化以选择最合适的K值。5)在所选的K个网页中,分别计算每个类别要分类的样本的次数,计算公式为:(, )jp uc = 1(,)(,)ki jisim uvyvc = ∑其中(,)jp uc = 1(,)(,)ki jisim uvyvc = ∑其中(,)jp uc = 1(,)(,)ki jisim uvyvc = ∑)i jy vc是类别属性函数。当vi属于cj时,值为1;当vi属于cj时,值为1。当vi不属于cj时,该函数为0。

  135 6)最终分类决策函数为max((,))j jRC c p v c =。 2实验过程和结果分析实验结构的设计分类模型有两个主要性能指标:精度和召回率[10]。计算公式可以表示为:m = m + rp =正确分类的样本数实际分类的样本数为140 q = mmn = +正确分类的样本数应为样本数在上式中,p表示准确率,m表示正确分类的类别,n表示该分类属于该类别并且没有正确分类,r表示该分类不属于该类别,并且被误分类为该类别。这两个绩效指标代表不同的方面。考虑到精度和召回率,可以获得一个新指标,即1F = 2pqp q +。此外,本文还将跟踪分类速度。在改进的分类模型的基础上,将本文的实验结构分为两部分进行实验。其中,主题捕获和145个主题确定部分采用Java语言并在eclipse编译平台上运行;分类器是用C ++编写的程序,而编译平台是Microsoft Visual C ++。使用十个URL(例如Sina和Yahoo)将*敏*感*词*注入*敏*感*词*,将挖掘深度depth设置为3,并且花费了30分钟和08秒来获得8372个URL。手动选择计算机科学,机械工程,生物工程,航空航天,化学工程和电气工程六个类别的150个新闻项目作为训练样本,并对其进行标记。

  对受试者进行判断后,只获得了原创的8372页中的3008页作为第一组150个测试样本;然后,从8372页中重新获取3008页作为第二组测试样本。带有lucene的分词软件包IKAnalyzer用于预处理,TF方法用于根据词频选择特征词,KNN分类方法用于分类。几个实验表明,当K值为9时,分类效果更好。-6-在线实验结果和中国科技论文分析表1分类实验结果155第一组(改进模型)第二组(一般模型)类别P(%)q(%)F1测试时间(s)P(%)q(%)F1测试时间(s)计算机机械工程生物工程航空航天化工工程电气工程从实验结果出发,提出了改进的分类模型纸张的召回率和精确度都有所提高。 F1值略有增加;从分类时间的角度来看,改进模型的分类时间比普通模型的分类时间缩短了约18%。改进分类效果的原因是,对象捕获可以获取更多的目标输入样本,然后进行对象去噪处理,可以获得一批更适合训练样本分类的样本。 160 3结束语本文提出了一种更适合于网页的实时分类的分类模型-基于主题的分类模型。

  实验证明,通过该模型,可以大大提高网页分类的速度和准确性。对于对网页进行实时分类的大数据需求,该模型可以有效地优化输入样本,节省计算时间,更适合于网页的实时分类。 165 [参考文献](参考文献)[1]段俊峰,黄伟通,卢玉昌。中文网页分类研究与系统设计(J)。计算机科学,2007,34(0 6):210-21 3. [2]熊忠洋,亚曼,张玉芳。一种基于网页主体结构和特征字符串的相似网页重复数据删除算法。计算机应用(J ),2013(0 2):554-55 7. [3]周其年,张振豪,徐登才。基于类别区分词的特征选择方法在中文文本分类中的应用(J)。计算机应用与软件,2013 (0 3):193-19 5. 170 [4]黄建华,丁建瑞,刘家峰。基于局部加权-kNN算法的引文(J)。电子与信息学报,2013(0 3) :627-63 2. [5]陆峰,杜妮,温成林。一种基于模糊证据的kNN分类方法(J)。电子学报,2012(1 2):2390-239 5. [6]吴彦伟,张琳。基于行业知识的垂直搜索引擎的研究与实现(D)。北京:北京邮电大学,201 2. [7]李东海,郝凤玲。主题s的实现基于Nutch技术的Earch引擎(D)。吉林:吉林大学,200 8. [8]朱学芳,冯锡熙。基于文本内容的农业网页信息提取与分类研究(J)。信息科学,2012(0 7):1012-101 5. 175 [9]何莉,贾艳。*敏*感*词*层次分类问题的研究与进展(J)。计算机学报,2012(1 [k22) ]:2101-211 5. [10]张恒,屈景辉。网页文本信息的提取和结果评估(J​​)。微型计算机应用,2007(0 9):921-92 4.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线