中文网页手动分类综述

优采云 发布时间: 2020-08-19 21:42

  中文网页手动分类综述

  1.中文网页手动分类是从文本手动分类的基础上发展上去的,由于文本手动分类拥有比较成熟的技术,不少研究工作企图使用纯文本分类技术实现网页分类。孙建涛强调:用纯文本形式表示网页是困难的,也是不合理的,因为网页收录的信息比纯文本收录的信息要丰富得多;用不同形式表示网页之后再组合分类器的方式才能综合利用网页的特点,但各个分类器的性能难以估计,使用哪些组合策略也未能确定。董静等人提出了基于网页风格、形态和内容对网页分类的网页方式分类方式,从另外的方面对网页分类进行研究;范众等人提出一种用朴素贝叶斯协调分类器综合网页纯文本和其它结构信息的分类方式;试验结果证明组合后的分类器性能都有一定程度的提升;都云琪等人采用线性支持向量机(LSVM)学习算法,实现了一个英文文本手动分类系统,并对该系统进行了针对*敏*感*词*真实文本的试验测试,结果发觉,系统的招回率较低,而准确率较高,该文对此结果进行了剖析,并提出一种采用训练中拒识样本信息对分类器输出进行改进的方式,试验表明,该方式有效地提升了系统的性能,取得了令人满意的结果。鲁明羽等提出一种网页摘要方式,以过滤网页中对分类有负面影响的干扰信息;刘卫红【基于内容与链接特点的英文垃圾网页分类】等提出了一种结合网页内容和链接方面的特点,采用机器学习对英文垃圾网页进行分类检查的方式。实验结果表明,该方式能有效地对英文垃圾网页分类;张义忠提出了一种SOFM(自组织特点映射)与LVQ(学习矢量量化)相结合的分类算法,利用一种新的网页表示方式,形成特点向量并应用于网页分类中。该方式充分利用了SOFM自组织的特性,同时又借助LVQ解决降维中测试样木的交迭问题。实验表明它除了具有较高的训练效率,同时有比较好的查全率和查准率;李滔等将粗糙集理论应用于网页分类,约简一个己知类别属性的训练集并得出判定规则,然后借助这种规则判断待分网页的类别。

  2英文网页分类关键技术

  2.1网页特点提取

  特征提取在整个英文网页分类的过程中十分重要,是才能彰显网页分类核心思想的地方,特征提取的疗效直接影响分类的质量。特征提取就是对词条选择以后的词再度进行提取,提取这些能代表网页类别的词来构成用于分类的向量。特征提取的方式主要依据评估函数估算每位词条的值,再按照每位词条的值进行逆序排序,选择这些值较高的词条作为最后的特点。征提取的常用的评估函数有文档频度(DF)、信息增益(IG)、互信息(MI)、开方拟和检验(CHI)、期望交叉嫡(ECE)和术语硬度(TS)等【The processing technology of Chinese informationin Chinese search engineering】【Developments in automatic text retrieval】通过对上述5种精典特点选定方式的实验,结果表明【A Comparative Study onFeature Selection in Text Categorization】CHI和IG方式的疗效最佳;DF,IG和CHI的性能大体相当,都还能过滤掉85%以上的特点项;DF具有算法简单、质量高的优点,可以拿来替代CHI和IG;TS方式性能通常;MI方式的性能最差。进而的实验结果表明组合提取方式不但提升分类精度,还明显减短分类器训练时间。

  2.2分类算法

  分类算法是分类技术的核心部份,目前存在多种英文网页分类算法,朴素贝叶斯(NB),K一近邻(KNN ) 【A study of aproaches to hyertext categorization】、支持向量机(SVM )【,Text categorization with support vector machines:Learning with many】、决策树(Decision Tree)和神经网路(NN)等。

  朴素贝叶斯(NB)算法首先估算特点词属于每位类别的先验概率,在分类新文本时,根据该先验机率估算该文本属于每位类别的后验机率,最后取后验概率最大的类别作为该文木所属的类别。很多学者对贝叶斯分类算法进行了改进,如结合潜在语义索引的贝叶斯方式,结合模糊降维的朴素贝叶斯方式,贝叶斯层次分类法等。

  K一近邻(KNN)是传统的模式识别算法,在文本分类方面得到了广泛的研究与应用。它通过估算文本间的相似度,找出训练集合中与测试文本最相仿的k个文本,即新文本的k个近邻,然后按照这k个文本的类别判断新文本的类别。

  支持向量机(SVM)以结构风险最小化原则为理论基础。通过适当选择函数子集及其该子集中的判别函数让学习机的实际风险达到最小,保证了通过有限训练样本得到的小偏差分类器对独立测试集的测试偏差相对也小,从而得到一个具有最优分类能力和推广一能力的学习机。SVM算法具有较强的理论根据,在应用到文本分类时取得了挺好的实验结果。李蓉【SVM-KNN分类器—一种提升SVM分类精度的新方式】等提出了KNN与SVM相结合的分类算法,取得了更好的分类疗效。目前,比较有效的SVM实现方式包括Joachims的SVMlight系统和Platt的序列最小优化算法。 决策树(Decision Tree)是通过对新样本属性值的测试,从树的根节点开始,按照样本属性的取值,逐渐顺着决策树向上,直到树的叶节点,该叶节点表示的类别就是新样木的类别。决策树方式是数据挖掘中十分有效的分类方式,它具有较强的噪声排除能力及学习反义抒发能力。可以使用几种流行的归纳技术如C4.5 , CART , CHAID来构建决策树。 神经网络(NN)是一组联接的输入/输出单元,输入单元代表词条,输出单元表示文木的类别,单元之间的联接都有相应的残差。训练阶段,通过某种算法,如后向传播算法,调整残差,使得测试文本才能依据调整后的残差正确地学习。土煌等提出了基于RBf和决策树结合的分类法。

  3.中文网页分类的评价指标

  对于网页分类的效率评价标准,目前还没有真正权威和绝对理想的标准,通用的性能评价指标:召回率R (Recall)、准确率P(Precision)和F1评价。

  召回率为分类的正确网页数和应有的网页数的比率,即该类样本被分类器正确辨识的几率。准确率统称为分类的精度,它是指手动分类和人工分类结果一致的网页所占的百分比。召回率和准确率不是独立的,通常为了获得比较高的召回率一般要牺牲准确率;同样,为了获得比较高的准确率一般要牺牲召回率。因此须要有一种综合考虑召回率和准确率的方式来对分类器进行评价。F1测度是常用的组合形式:F1= 2RP /(R + P) 。其实,网页数目非常巨大,单纯的查全率己经没有实际价值,查准率的意义也要作相应的变通;数据库规模,索引方式,用户界面响应时间应当列入评价体系作为评价指标。

  4.中文网页分类系统简介

  TRS网路信息需达系统(TRS InfoRadar)是北京托尔思信息技术股份*敏*感*词*开发,该系统实时监控和采集Internet网站内容,对采集到的信息手动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布下来,实现统一的信息导航。同时提供包括全文、日期等在内的全方位信息查询。TRS InfoRadar集信息采集监控、网络舆情、竞争情报等多种功能于一体,被广泛地应用于政府、媒体、科研、企业等各个行业中。TRS InfoRadar在内容营运的垂直搜索应用、内容监管的网络舆情应用以及决策支持的竞争情报等方面的应用,将极大的提升组织对外部信息的获取效率,极大增加信息采集成本,全方位掌控环境脉动,并提升各个组织的快捷反应效能。

  百度电子政务信息共享解决方案以百度先进的信息整合处理技术为核心,为政府外网和政府信息门户建设高性能信息共享平台,能够将相关地区、机构、组织等多种信息源的信息集中共享,让用户在一个地方即可获取到所须要的各类相关信息,使电子政务由”形象工程”变成”效益工程”,有效提升政府工作效率,大幅提高政府威信和公众形象。其具有强悍的信息采集能力、安全的信息浏览、准确的手动分类、全面的检索功能、丰富的检索结果展示和基于Web的系统管理平台的特性。

  清华同方KSpider网路信息资源采集系统是一套功能强悍的网路信息资源开发借助与整合系统,可用于订制跟踪和监控互联网实时信息,建立可再利用的信息服务系统。KSpider才能从各类网路信息源,包括网页,BLOC、论坛等采集用户感兴趣的特定信息,经手动分类处理后,以多种形式提供给最终用户使用。KSpider才能快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规、学术文献等网路信息内容可广泛用于垂直搜索引擎、网络敏感信息监控、情报搜集、舆情剖析、行情跟踪等方面。

  5结束语

  随着因特网的迅速发展,中文网页手动分类成为搜索引擎实现分类查询的关键。这就要求英文网页手动分类技术在网页的处理方式、网页疗效辨识、分类精度和评价指标等方面有进一步的提升所以英文网页手动分类技术是一个常年而繁重的研究课题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线