根据关键词文章采集系统(本文:文本内容过滤,推荐系统,聚类,K-means算法 )

优采云 发布时间: 2021-11-15 22:27

  根据关键词文章采集系统(本文:文本内容过滤,推荐系统,聚类,K-means算法

)

  摘要:本文考察了当前的文本过滤技术,在此基础上以空间向量模型作为用户需求模板,利用余弦距离计算文本相似度,利用K-means算法优化文本聚类效果。分析。关键词的文本内容过滤模型可以为人民网用户亲自推荐新闻、广告、文章等信息,缩短信息检索时间,最大程度地为用户提供感兴趣的内容,创造经济和社会价值。

  关键词:文本内容过滤,推荐系统,聚类,K-means算法

  1 简介

  人民网是一个以新闻为主,融合现有电子媒体创新的大型网络信息发布平台。它是互联网上最大的中文和多语种新闻之一网站。人民网新闻报道具有权威性、时效性、多样性、评论性等特点。报道内容包括政治、经济、法律、新闻、科学文化、广告等。内容丰富,权威。

  近年来,个性化推荐已经成为各大主流网站必不可少的服务,但与电商网站相比,新闻个性化推荐水平仍有较大差距。人民网拥有庞大的用户群,某些年龄段的用户甚至比购物还多网站。如果能有效挖掘用户的潜在兴趣,并进行个性化的新闻资讯推荐,就能产生巨大的社会价值。

  在人民网下一步发展战略中,新媒体融合论坛副总编辑陆新宁等 阐述了发展方向,强调了新的创新和内容生产的作用,强调了对人民网、手机人民网、人民网客户端、数据中心等平台的影响。基于关键字的文本内容过滤算法迎合了人民日报的新发展。以人民日报为基础,为用户提供个性化的新闻、广告等信息,可为用户提供指导性建议,也可为用户提供对第十九届人民日报的指导。大会宣传党的路线方针政策,推动社会主义新闻理论创新,

  本文采用基于关键词的文本过滤技术,通过用户特征,从海量信息中快速有效地找到用户感兴趣的新闻。个性化推荐新闻。使用内容过滤算法建立用户之间的连接,如移动客户端、网络通信、数据采集等,根据现有用户已经建立的用户兴趣实体推荐实体。

  2 技术背景

  目前,智能推荐系统的主要推荐技术包括基于规则的推荐和基于内容过滤的推荐。基于规则的推荐主要是通过基础判断来引出相关结论。当处理问题比较简单,判断规则较少时,系统可以快速处理并得出结论,但随着问题的细化和问题规模的扩大,系统会增加判断的处理时间,同时也不利于系统规则的扩展和维护。在内容过滤中,由于网络中的主要信息是文本,因此内容过滤的研究主要集中在信息文本上。

  2.1文本过滤相关技术

  内容过滤系统中使用了相关的文本过滤技术。文本归档是指计算机根据用户的信息需求,从大量文本流中搜索相应信息或剔除不相关信息的过程。对用户需求的判断以及采用何种方法使其适应需求对于提高文本过滤的效果非常重要。

  在国外文本过滤相关技术的研究中,Belkin和Croft提出了用户特征过滤对文本过滤系统的影响和积极意义;林等人。对个人兴趣的优雅检测算法进行了研究;Yang 和 Chute 基于示例的线性和感兴趣的最小二乘法。该模型改进了文本分类器;Mosafa 为智能信息过滤构建了多级分解模型。国内对文本过滤的研究包括,刘永丹、童海权等提出了基于语义分析的趋势文本过滤;姚天顺等。构建了基于语义框架的中文文本过滤模型;程宪义、杨天明等。研究了文本过滤;

  在实现技术上,文本过滤主要借鉴和使用了自动检索、自动分类、自动索引等信息自动处理方法和技术。根据文本过滤和内容过滤的不同,可以分为用户特征过滤和安全过滤。本文针对的内容主要是用户特征过滤。

  2.1.1 文本过滤过程

  文本过滤有五个步骤:(1) 表示要过滤的文本(2) 确定用户需求模板:通常包括过滤特征描述和数据特征表示;(3)User需求和非Filter文本匹配;(4)获取效果匹配反馈;(5)根据匹配效果反馈修改需求模板。上述流程如图2-1所示。

  

  对原创数据流进行处理得到待过滤的文本表示,通过文本匹配计算相似度,通过机器学习过程不断训练模型,通过人工干预模式不断优化需求模板,提高过滤处理结果的准确性。

  2.1.2 文本过滤的核心工作

  文本过滤的核心工作主要是基于用户需求模板和文本匹配。

  用户需求模型采用的方法主要有向量空间模型、预定义的主题词、分层概念集、规则和分类目录。复旦大学吴立德教授和黄玄景博士研究的文本过滤系统是基于向量空间模型的。武汉大学信息资源研究中心张玉峰教授和蔡娇杰博士研究了Web环境下基于用户兴趣本体学习的文本过滤。同样基于空间向量模型,东北大学姚天顺教授和林鸿飞博士等人提出了基于实例的中文文本过滤模型,其中也使用了向量空间模型。与其他用户需要的模板方法相比,

  在文本匹配过程中,计算相似度就是判断文本是否满足用户的需求,可以看作是一个分类问题。常用的分类方法有:中心向量算法、朴素贝叶斯算法、支持向量机分类算法、基于KNN的文本分类算法。

  (1)中心向量算法:利用向量空间模型划分不同的训练类别进行计算,将相似度高的归为一类,然后进行标准化,最后得到相似度值。设训练集为C,如公式2-1所示。

  

  分类时,对于一个新的文本,基于空间模型,生成一个表示该文本的向量,计算该向量与每个类别的特征向量的相似度,将文本分类到相似度最大的类别中。计算向量相似度有两种主要方法。如果 x 和 y 表示向量,则 xi 和 yi 表示向量分量。

  欧几里得距离如公式 2-3 所示。

  

  dis (x, y) 值表示向量与类别特征向量之间的距离。值越小,距离越近,向量相似度越高。

  矢量 b 的角度如公式 2-4 所示。

  

  cos(x,y) 值越高,角度越小,向量相似度越高。

  当类之间的相似度差异较大时,中心向量算法具有更好的分类效果。在实际应用中,类之间的差异可能不会那么突出,实际数据分布存储在偏差中,这会导致算法判断错误,分类效果不好。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线