关键词手动提取方式的研究与改进

优采云 发布时间: 2020-08-30 04:02

  关键词手动提取方式的研究与改进

  ComputerScience 关键词手动提取方式的研究与改进 Vol.41No.6 June2014 (湖南大学信息科学与工程学院广州410082 (邵阳学院信息工程系长沙422000 TFIDF算法中存在的不 InverseDocumentFrequency)权值中没有考虑特点词在类内以及类别间的分布情况 。因此 有的TFIDF 方法会出现有些不能代表文档主题的低频词的IDF 值很高 ,而有些才能代表文 档主题的高频词的IDF 值却太低的情 ,这会导致关键词提取不确切。通过降低一个新的残差 特征词条的权重,提出了一种新的算法 DI-TFIDF 。实验中使用的是搜狗语料库 ,选择其中的体育 1000篇作为实验的语料库,分别用基于传统 TFIDF 方法和基于 DI-TFIDF 方法提取关键词。 实验结果表明 提出的DI-TFIDF 方法提取关键词的准确度要低于传统的 TFIDF 算法。 关键词 关键词提取 DI-TFIDF中图法分类号 TP391.1 文献标识码 ResearchandImprovementofTFIDFTextFeatureWeightingMethod HUANG Lei 1,2 WU Yan-peng ZHUQun-feng (SchoolofInformationScienceandEngineering,HunanUniversity ,Changsha410082,China) (DepartmentofElectricEngineering,ShaoyangUniversity ,Shaoyang422000,China) AbstractKeywordsextractionmethodplaysaveryimportantroleintheareasoftextclassificationandinformationre- trie val.ThispaperfirstlyanalysedtheshortageoftheoriginalTFIDFalgorithm,thatistheIDF (InverseDocument Frequ ency )algorithmdoesnotconsiderthedistributionoffeaturetermbetweencategories.Sosomeproblemswillap- pear,suc hasthetermswithlowfrequencyandthehighIDFweights,andsomewordswithhighfrequencyandlowIDF weights,wh ichcancausethattheprecisionofkeywordsextractionisnotaccurate.Afteranalysisoftheseproblems,by increasingan ew weightDI(DistributionInformation),wegotanew DI-TFIDFalgorithm.Acorpususedintheexperi- mentwasdownlo adedfromtheSogoucorpusand weselectedthe1000articleofsports,educationand militarydocu- mentsasanexperime ntbasedonthetraditionalTFIDF methodandtheDI-TFIDF method.Experimentalresultsshow thatourproposedDI-TF IDF methodcanextractthekeywordsinahigheraccuracythantraditionalTFIDFalgorithm. Keywords Keywordsextra ction 引言随着Internet的 广泛 的信息资源以文本方式存在。

  信息世界的不断发展 ,极大地丰富了人类的生活 带来了棘手的问题:如何在庞大的信息世界中迅速找到所需 的信息。这一问题成为了一项具有重大研究意义的课题。 在文档信息中 ,关键词起到了关键作用 是才能反映一篇文档主题内容的成语或与文档所在领域高度相关的成语, 帮助人们在搜救所需的信息时就能迅速地定位到相应的文 档。然而 这些文档的关键词又是十分历时和困难的,所以迫切需要对 关键词进行手动提取。 关键词提取技术应运而生 ,帮助人们迅速找到相应的文本信息,满足了人们对信 求的渴求。综上所述 础工作。本课题研究的目的是基于改进的TFIDF 出关键词,由于文本特点权重算法对关键词提取的准确率有 着重要的影响 TFIDF的改进就十分有必要。 最终研究成果是设计出关键词提取系统 ,该系统可以应用到 键词提取系统,可以在一定程度上帮助用户更为确切和快 地搜救到相应的信息,有利于信息的传播和知识的推广 轻人工标明关键词的负担,具有深刻的意义 *敏*感*词*研究现况和成果美国对关键词提取研究较早 ,20 出了基于词频统计的抽词标到稿日期 :2013-11-20 返修日期 :2014-03-18 本文受湖南省教育厅通常项目(09C887):基于语义网的网路教学资源检索系统研究捐助 引法。

  经历了50多 引的研究渐渐消失,其原因是传统的自动标引方式的效率达到了极限 们广泛地使用全文 始用电子计算机编制关键词索引 法相结合的方式来提取关键词。20 关键词提取的研究也渐渐深入,许多学者提出了不同的 方法, 取得了令人瞩 遗传算法GenEx的 关键词 2003年Tomokiyo与 Hust Bagging算法进行了基于集成学习的关键词提取 。2006 提出以标点符号和停用词为成语间隔 ,先提取出一个成语序列 ,再借此序列和 序列 N-gram为候选对象 算候选关键词的特点项的TFIDF 位置、短语厚度等特征值 ,进而从候选关键词中提取特点 将能表示特征项在类内分布程度的信息与信息增益综合上去考虑 ,利用信息熵对特点词权重进行调整 ,从而提升了特 权重的估算精度,提高了关键词提取的准确度 对辞典的依赖较大,提取疗效有赖于辞典的完整性 智能也同样须要训练库和知识库,对它们的依赖较大 因此本文重点研究TFIDF ,发现其存在的不足并有针对性地加以改进 出了新的DI-TFIDF 算法。 特征权重算法TFIDF 的改进 文本是由成语构成的 ,要在文本中提取出关键词 必须赋于特点项相应的权重 ,权重越大的特点项越能代表文本的 主题。

  特征权重算 TF可以反映特点项在文本 中出现的频度 ,IDF 可以 反映特点项反比于文档集中出现特 征项的频度 好地结合了TF 和IDF。 3.1 TFIDF TFIDF 实际 的作为关键词。2007 TFIDF现的次数 ,IDF 是指反文档频度。 其估算公式是: 改进的 过词汇链来提高成语之间语义联系的方式 。2008 Niraj[10] 滤出不合适的词句,计算这种成语的权重 ,最后提取权重 作为关键词。国外 wi=tfi idfi=tfi log ni因为考虑到文档的内容宽度会影响到残差 tfijlog +0〃01)1999年 RobertoBasils 出了TF*IWF*IWF,该 niwij 法有效提升了特点词在语料库的权重,但没有充分考虑到词 的重要性,因为特点权重并不仅仅是由成语在语料库中出现 其中 ijlog ni +0〃01 的频度决定,而是由成语在文档和语料库中出现的频度共同 决定 ,这促使该算法 还存在着 BongChihHow Narayanan[12] 根据不同类别的文档数可能存在数目 CTD(Category Term Descriptor)来 国内也有好多学者对TFIDF 算法进行了研究 且取得了明显的成果 。

  2006年 DF在类别中的分布情 ,有效提升了准确率。2007 小莉等人[14] 把信息论中的 信息增益应用到文本集合的 类别 ,提出了一种改进的TF*IDF*IG BOR-TFIDF(BasedOn Ratio- ,该算法重新针对特点词对类别的区分度进行了 入到类别内部,没有考察类内的分布情况 TFIDF算法在不同领域的改进 、聊天文本权重估算、网页权重等方面提出了不同的 改进 高了TFIDF 算法对不同领域文本的处理能力 。2011 张保富等人[17] 提出了一种结合特征项的类间和类内信息 TFIDF特点加 分布熵进行了剖析,综合考虑了特点项在类间和类内的分 补了传统TFIDF 算法 不足。2012年 TFIDF算法 ,该方式针对信息增益只考 虑特点词在类 的分布情况,而没有考虑特点词在类内的分布情况的 问题, ij 是特点 项ti 在文档dj 中出现的次数 是指出现特点项ti ti的文档数。 3.2 TFIDF 的不足 用传统的 TFIDF 公式来提取关键词 ,一般存在两个问 TFIDF中IDF 的算法没有考虑到特征项在类间和 分布情况。具体剖析如下:(1)IDF 没有考虑到特征项在类间的分布信息 假设某一类的 Ci 收录词 条ti 的文档数为n 其他类收录的ti 的文档数为 含词条ti的文档数为 随着n变化 增大时w也变大。

  可是根据IDF 的公式 到的IDF值却太小。但是按实际剖析可知 条ti在Ci 类中频繁出现 ,可以作为特点词代表这一类 条ti均匀地分布在各个类间 分能力,不应当作为特点词 ,应该赋于较低的权重 。但是根据 传统的 TFIDF 算法 (2)IDF没有考虑到特征项在类内的分布信息 在同一类中不同的特 ,但是根据传统的TFIDF t44个特征项在各个类别和文档中的分布 各个特点项在文档中出现的频度C1 C2 C3 离散度是各个文档中特点词的差别程度 ,可以挺好地反映在 同一个类中不同文档特点词频度的不同。类内的离散度估算 公式如下: tfij-tf′ij 用传统TFIDF 算法估算各个特点项的残差(没 有进行归 DI= 其中 tfij表示特点词ti 各个特点项的TFIDF C1C2 C3 特征项 t12.39 1.91 2.87 t21.91 4.79t3 1.43 t40.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004 类内各个文档中出现次数的平均值。 如果特点词只在某一篇文档 特征词在类内文档中整篇文档的TF 内离散度DI可以取到最小值 在传统TFIDF 算法的基础上 们对IDF进行改进并增 加类内离散度 终得到DI-TFIDF 算法 ,算法的公式如下 wij=tfij log +0〃01)(1-DI)明其没有关键信息 TFIDF算法的优点, 即才能过滤掉均匀分布的特点项 C1中出现 ni+m考虑到类内离散度与特点词的分类能力成 理得到公式:ni 果IDF相同 ,TF 就决定了特征项的权重的 tfijlog t2的文档数相同 有t2的文档中 TF wij niij ,但是假如依照传统的TFIDF 算法估算 ,却会得到较高 的权重。

   这就是传统 TFIDF 算法中IDF 没有考虑特点项在 、类内的分布情况而形成的偏差。 3.3 改进的 TFIDF 针对 TFIDF 出基于特点项分布差别的DI-TFIDF 特征权重改进算法。 于IDF没有考虑到特征项在类间的分布信息 wij表示特点 项ti 在某类别C IDF=log ni ni+m0〃01 示特点项ti的反文档频度 DI(t,c)表示特点项在 类别 DI值。我们对表 1中各个特点项在类别中的 DI- TFIDF 权重进行估算(没 有进行归 各个特点项的DI-TFIDF 特征项C1 C2 C3 们考虑对IDF加以改进 加这些在一个类中频繁出现的特t1 t2 4.77 3.14 5.05 1.01 2.53征项的权重。改进的IDF 算法为: t3 2.06 +0〃01)t4 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004 ni+m 其中 t2在各个类别的 Ci中富含特点词 条ti 表示文档集中其他类富含特点词条ti 的文档数。 、类内的分布情况,使得到的权重更为确切 实验及结果剖析ni ni当含特点词条ti 的文档数w 一定时 ni越大 中收录特点词条ti 的文档数多 其他类中收录特点词条ti 的文档数少 ,则ti 能够代表这个类Ci 的权重。

  故改进的算法才能有效填补传统TFIDF 于IDF没有考虑到特征项在类内的分布信息 们考虑降低类内离散度DI来观察特点项在类内的分布情况 1000篇文档作为实验所需语料库。 中训练样本和测试样本分布都 150篇文档 各个类中,训练文档和测试文档的比 了验证改进算法的有效性,本文进行了两 为基于传统TFIDF 的关键词提取和基于 DI-TFIDF 用查全率、查准率对提取的结果进行评价 。基于传 TFIDF算法和 DI-TFIDF 算法的关键词提取疗效如表 基于TFIDF算法(a)和 DI-TFIDF算法(b)的实验结果(体育类) SearchingofLiteraryInformation[J].IBM JournalofResearch 特征维数查全率 查准率 500 66.3 56.3 1000 68.5 57.5 2000 70.8 58.8 4000 71.0 59.6 6000 72.7 61.6 8000 74.3 62.3 70.659.4 特征维数查全率 查准率 500 72.1 61.9 1000 73 63.5 2000 74.5 64.5 4000 75.6 66.7 6000 76.4 67.6 8000 77.5 68.1 74.965.3 andDevelopment,1957,1(4):309-317 EdmundsonHP,OswaldVA.AutomaticIndexingandAbstrac- tin goftheContentsofDocuments[R].PlaningReserarchCorp DocumentPRC R-126,ASTLA AD No.231606.Los Angeles, 1959:1- 142 LoisLE.Experimentsin AutomaticIndexingand Extracting [J].InformationStorageandRetrieval,1970,6:313-334 TurneyPD.LearningtoExtractKeyphrasesfrom Tex 基于TFIDF算法(a)和 DI-TFIDF算法(b)的实验结果(军事类) NRC TechnicalReportERB-1057.NationalResearch Council, 特征维数查全率 查准率 500 54.1 46.6 1000 55.6 47.5 2000 56.6 48.9 4000 57.8 49.6 6000 58.4 51.1 8000 59.4 52.1 5749.3 特征维数查全率 查准率 500 63.2 51.9 1000 65.5 52.6 2000 66.7 53.8 4000 67.3 55.3 6000 68.4 56.7 8000 69.5 58.2 66.854.8 Canada,1999:1-43 WittenIH,PaynterG W,Frank E,etal.PracticalAutomatic KeyphraseExtraction[C] California:ProceedingsofThe4th ACM ConferenceonDigitalLibraries.1999:254-256 TomokiyoT,Hurst M.Alanguage ModelApproachto Key- ph raseExtraction[C] Proceedingsofthe ACL Workshopon Mul tiword Expressions:Ananlysis,Acquisition Treatment.Sapp oro,Japan,2003:33-40 HulthA.ImprovedAutomaticKeywordExtractionGivenMore 基于TFIDF算法(a)和 DI-TFIDF算法(b)的实验结果(教育类) LinguisticKnowledge[C] Proceedingofthe2003 Conference 特征维数查全率 查准率 500 58.3 51.3 1000 59.9 52.6 2000 60.6 53.5 4000 61.2 55.6 6000 62.3 56.7 8000 63.5 57.2 6154.5 特征维数查全率 查准率 500 63.8 54.3 1000 64 55.7 2000 65.1 57.9 4000 67.2 58.1 6000 68.1 59.4 8000 69.9 60.6 66.457.7 onEmpricalMethodsinNaturalLanguageProcessing.Sapporo, Ja pan,2003:216-223 Proceedingof3thIEEEInternationalConferenceonInno-vati onsinInformationTechnology.2006:1-5 ErcanG,CicekliI.UsingLexicalChainsforKeywordExtraction[J].InformationProcessing Management,2007,43(6):1705-171 词的疗效比传统的TFIDF 方法提取关键词的疗效要好 虑了特点项在类间和类内的分布情况,对于这些在某个类别 中频繁出现的特点项赋于了较高的权重 ,降低了在类内文档 中碰巧出现的特征项的权重。

   因此 DI-TFIDF 算法对 取关键词起到了一定的积极作用。结束语 本文以关键词提取为研究对象 词提取进行了总结,介绍了*敏*感*词*对关键词提取的研究 成果, 并对关键词提取中具 要影响的特点权重TFIDF 发展及*敏*感*词*TFIDF 改进成果进行了介绍。 法做了详尽的研究,提出了改进的方式 DI-TFIDF算法 别对基于传统的TFIDF 算法的关键词提取和基于 DI-TFIDF 算法的关键词提 法的关键词提取疗效要比传统算法好,证实了改进的有效性 中文动词的研究较少,而是引用了现 ,根据实验动词疗效还不够理想,下一步须要研究采用 分词 效果更好的动词工具。 TFIDF算法的改进 的分布情况,并未考虑特点词的动词 、特征词宽度和特点 文档中出现的位置,导致了特点权重估算不够确切 要在之后工作中不断研究和测试数据 ,并按照现有的改进方式提出 更有效的改进方式。 P.AStatisticalApproachto MechanizedEncodingand [10]NirajK,KannanS.AutomaticKeyphraseExtractionfromScien- ti ficDocumentsUsing N-Gram Filtration Technique[C] Pro- ce edingofDocEng ’08Conference.2008:199-208 [11]BasilsR,MoschittiA,PazienzaM.Atextclassifierbasedonlin- gu isticprocessing ProceedingsofUCAI,MachineLearningfo rInformationFiltering.1999:36-40 [12]How BC,NarayananK.Anempiricalstudyoffeatureselection ortextcategorizationbasedontermweightage[C] Proceeding the2004IEEE/WIC/ACMIntemationalConferenceonWeb Inte lligence.Washington DC:IEEE Computer Society ,2004: 599- 602 [13] 于文本分类TFIDF 方法的改进与应用 算机工程,2006,32(19):77-78 [14] 于信息增益的特点词权重调整算法研究[J].计算机工程与应用 ,2007,43(35):159-160 [15] 师范大学学报 程技术版,2008,8(4):95-149 [16] ,2009,29(6):167-170[17] TFIDF文本特点加权方式的改进 研究[J].计算机应用与软件 ,2011,28(2):17-21 [18] .基于信息增益与信息熵的TFIDF 算机工程,2012,37(8):37-40 [19] WangD X,Gao X,AndreaeP.AutomaticKeywordExtraction romSingle-Sentence NaturalLanguage Queries[C] PRICAI 012.Berlin:Springer-Verlag,2012:637-648 [20] 算机工程,2010,36(19):93-95 [21] 算机学报,2010,33(7):1246-1255

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线