最好用国外网页视频抓取工具软件(基于分布式的新闻爬取和推荐系统是山东省科学院内部立项“智慧科学院”的重要组成部分之一)

优采云 发布时间: 2022-02-05 09:05

  最好用国外网页视频抓取工具软件(基于分布式的新闻爬取和推荐系统是山东省科学院内部立项“智慧科学院”的重要组成部分之一)

  摘要:分布式新闻抓取与推荐系统是山东省科学院内部项目“智慧学院”的重要组成部分之一。智慧科学院旨在利用先进的大数据处理技术开发各类热点技术,促进团队/机构间的科研合作,完善人才筛选和综合评价。科研、服务和人才工作,推动科学院精细化管理和业务升级。随着机器学习技术的不断发展和市场竞争的加剧,*敏*感*词*市场的新闻推荐应用越来越成熟和稳定。但是,在一般的新闻阅读和推荐应用中,新闻源是新闻应用所属企业的责任,用户不能对新闻源提出进一步的定制化要求,只能被动接受。本文制作的系统支持用户自定义自己感兴趣的新闻页面,系统后台处理用户的自定义需求,将用户感兴趣的新闻源添加到爬虫的数据源中,更方便更准确地为用户获取感兴趣的新闻信息。同时,系统还为用户提供信息检索服务和个性化推荐服务,进一步降低了用户获取信息的难度。本文的主要工作是利用网络爬虫根据用户'

  使用Spark分布式计算框架对从互联网爬取的新闻数据进行挖掘和分析。使用用户建模数据和新闻建模数据的个性化新闻推荐。本项目集成了互联网新闻爬虫、搜索引擎、机器学习挖掘新闻数据、日志采集与分析、推荐系统等多种技术,具有一定的复杂性,因此整个系统分为5个子系统。新闻爬取子系统使用Nutch分布式爬虫软件对互联网上的新闻数据进行爬取,二次开发Nutch源代码,准确解析新闻数据的各个字段,将数据的中文分词写入HBase 数据库创建新闻语料库。新闻检索子系统使用分布式开源搜索引擎软件Solr,根据用户的信息检索需求开发搜索API。新闻特征学习子系统使用Spark分布式计算平台的机器学习库MLlib对新闻语料库中的新闻数据进行预处理和建模。使用主题模型LDA作为新闻的特征表示来训练新闻的主题分布向量。用户特征建模子系统使用JavaScript脚本客户端采集用户行为日志,通过HTTP协议发送到后台,利用Spark Streaming流处理技术实时处理用户日志,对用户进行建模。新闻推荐子系统利用新闻的建模结果和用户的建模结果计算用户' s 推荐新闻的偏好评分,按照评分排序作为推荐结果,使用Spring框架开发Restful API供前端调用。本论文完成时,该系统已开发成功,并在山东省计算中心投入试运行。本文提出的方案对用户定制新闻的推荐系统具有一定的参考价值。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线