我司【1+X】大数据应用开发(Python)案例
优采云 发布时间: 2021-08-09 03:25我司【1+X】大数据应用开发(Python)案例
规范配置:我司提供的【1+X】大数据应用开发(Python)案例【中级】对应我司资源的规范模型:TipDM-CL,提供的资源参数完全符合要求采购单位 参数要求及具体响应如下:1、市财政收入分析与预测 通过学习本案例,您应该能够掌握相关性分析、使用Lasso模型特征选择方法、灰色预测和支持向量回归算法主要应用方法和技巧,并为后续的相关课程和数据分析工作打下基础。 (1)课时SET 理论教学4小时,实践教学4小时,共8小时。(2)▲案例资源4个培训指导,19个案例视频,1个案例PPT,1个资料,5份代码(我公司提供本资源截图及厂商印章)(3)案例内容包括财政收入预测背景介绍;基础数据介绍;分析目标解读;项目流程介绍;解人相关系数;解读人物相关系数;理解Lasso回归方法;Lasso回归选择关键特征的实现;Lasso回归数据写入及对应解读;关键特征数据读取与准备;GM11特征值预测;GM11特征数据整理与写入;数据标准化;模型训练与预测;结果可视化;教学目标确认;案例任务点拆解;技能梳理与级联;分析是和重要和难点的分享。 (4)技术点包括特征的相关性;套索回归;灰色预测算法;SVR算法,预测模型评估。
2、《浪地球》豆瓣影评采集通过本案例的学习,您应该能够掌握Selenium获取网页数据HTML代码的主要方法和方法,XPath提取关键信息,处理获得数据,以及可视化分析技能,为后续相关课程和未来数据分析工作打下基础。 (1)课时SET 8小时理论教学,8小时实践教学,共16小时。(2)▲案例资源4个培训指导,28个案例视频,1个案例PPT,2份资料,4份代码(我司提供本资源截图及厂商印章)(3)案例内容包括案例背景和挖掘目标;短评数据爬取介绍;安装selenium和配置chromedriver;获取用户名;获取短评正文;设置cookie;获取用户居住地和加入时间信息;单页数据排序;自定义获取单页数据函数;判断网页是否已加载;翻页抓取;代码整理汇总;短评论文本数据预处理;词频统计;绘制整体评论数据词云图;正负评论词云图绘制与汇总;得分分布统计s;短评数量与日期的关系;短评次数与时间的关系;不同分数的数量与时间的关系;评论最多的前十名城市;分数与城市的关系;概括;确定教学目标; case 任务点拆解;技能梳理和系列;重点难点分析;分享教学技巧。 (4)技术点包括Selenium爬虫;XPath网页分析;数据存储;pyplot图形绘制。
3、家用热水器用户行为分析 通过学习本案例,您应该能够掌握冗余特征处理、事件划分、阈值确定、特征构建、BP神经网络模型构建等主要方法和技巧,以及为后续的相关课程学习,并为以后的数据分析工作打下基础。 (1)课时置9小时理论教学,10小时实践教学,共19小时。(2)▲案例资源3个培训指导,9个案例视频,1个案例PPT,5个数据,3个代码。(我们的公司提供此资源截图及厂商印章)(3)案例内容收录案例背景;删除冗余特征;划分用水事件;确定单个用水事件的持续时间阈值;构建用水持续时间和频率特征;构建暂停特征;构建耗水量和波动特征;筛选候选沐浴事件;模型构建。(4)技术要点包括冗余特征处理;事件划分;阈值确定;特征构建;神经网络模型。 4、城市公交用户出行分析 通过学习本案例,可以掌握数据约简、缺失值处理、数据合并、DBSCAN聚类模型、OD矩阵的主要方法和技巧ix构建,为后续相关课程和未来数据分析工作打下基础。 (1)Class hours设置理论教学5小时,实践教学6小时,共11小时。(2)▲案例资源2培训指导,13个案例视频,1个案例PPT,21个数据,6 (我司提供本资源截图及厂商印章)(3)case 内容包括案例背景;数据情况及挖掘目标;分析方法与流程,数据提取;数据探索;数据预处理;数据读取(实现于Python);数据预处理(Python实现);数据探索(Python实现);案例思路和密度聚类分析;OD矩阵模型的构建;密度聚类(Python实现);时间划分(Python实现);构建OD矩阵模型(Python实现))。
(4)技术点*敏*感*词*提出相关建议。(1)课时设计理论教学g 8小时,实践教学8小时,共16小时。 (2)▲案例资源包括11个培训指导、26个案例视频、1个案例PPT、2个数据、3个代码。(我司提供此资源截图及厂商印章)(3)案例内容包括背景和目标;信息抓取介绍;获取职位名称数据;获取目录页面的所有字段信息;获取二级网站的网页链接;获取二级网站的所有字段信息;抓取所有二级网页单个目录页信息;保存第一目录页数据;批量抓取和数据存储;抓取数据导入;按职位名称过滤招聘信息;统一职位名称;按工资栏过滤数据;完成工资数据处理;工作地点字段处理;公司类型字段处理;行业字段数据处理;职位描述字段处理;公司规模字段处理;数据预处理汇总;可视化热门招聘职位;热门行业及公司招聘分析;热门职位薪资水平;可视化综合分析;工作技能分析;案例总结。
(4)技术点收录data采集;XPath查询语言;字符串处理;数据可视化;数据合并;词云。6、*敏*感*词*高风险客户识别通过学习这个案例,可以掌握描述性统计分析方法、K-means聚类算法、雷达图绘制等,为后续相关课程和未来数据分析工作奠定基础。为促进*敏*感*词*业务的良性发展,降低坏账风险,各大银行都实施了*敏*感*词*客户风险识别相关工作,建立了相应的客户风险识别模型。客户类别及差异比较 客户风险;评估机构*敏*感*词*业务风险,并根据当前情况提出风险控制建议t 情况。 (1)课时SET 5小时理论教学,6小时实践教学,共11小时。(2)▲案例资源包括5个A培训指南,10个案例视频,1个案例PPT,1个数据,5个代码。 (我司提供本资源截图及厂商印章)(3)case内容包括案例背景;描述性统计分析;数据探索;数据清洗;属性构建;聚类参数优化;模型构建;客户分类;模型评估;服务组织资金流向预测,通过学习本案例,掌握平稳性检验、非平稳序列处理、纯随机性检验、模型排序、ARIMA模型构建等主要方法和技巧,学习后续相关课程,从事数据为以后的工作分析奠定基础。
金融全球化浪潮正以不可阻挡的趋势席卷全球。随着我国加入世贸组织和社会主义市场经济的快速发展,我国金融市场也得到了快速发展。为了更有效地发挥金融活动对实体经济的重要意义,资本流动预测已成为金融服务机构的一项重要工作。本案例的主要分析目标是基于用户资金流入和资金流出的记录数据构建准确的资金流入预测模型。 (1)课时SET 5小时理论教学,5小时实践教学,共10小时。(2)▲案例资源包括2个培训指导,1个案例PPT,1个数据,1个代码。(我公司提供本资源截图及厂商印章)(3)案例内容包括案例背景;验证数据的稳定性和纯随机性;模型构建。(4)技术点包括平稳性测试;非-平稳序列处理;纯随机性检验;模型顺序;ARIMA模型。8、Operator Lost User Analysis 通过学习本案例,您可以掌握数据特征分析、K-Means聚类、决策树模型构建、神经网络模型构建,以及朴素贝叶斯模型构建、支持向量机模型、模型优化选择的主要方法和技巧,为后续相关课程和未来数据分析工作奠定基础。在技术方面,移动运营商希望能够使用数据挖掘技术来识别哪些用户可能会流失以及何时会发生。通过建立流失预测模型,分析用户的历史数据和当前数据,提取关键数据辅助决策,从中发现隐藏的关系和模式,进而预测未来可能发生的行为,帮助移动运营商满足这些要求。
(1)Case 资源包括视频、PPT、培训说明、资料、代码。(2)Case 目标包括用户短信使用、流量、通话、消费使用情况、客户基本信息等。划分用户分组;分析不同用户群体的使用模式,识别每个群体客户流失的重要特征;建立不同群体的用户流失模型,并结合结果为运营商提供差异化的意见和建议。(3)案例内容收录背景和挖掘目标;数据加载和数据预处理;去重和降维;数据整合;缺失和异常处理;特征分析;其他特征和特征消除;月平均成本特征聚类分析;不同客户群体的重要特征提取;低成本客户群模型构建;循环选择最优模型;总结。(4)技术点包括字符的选择特征变量;构建不同的模型;模型评估和比较。 9、基于基站定位数据的商圈分析 在个人手机终端普及的今天,手机在出行群体中的拥有率和使用率已经达到了非常高的比例,手机移动网络基本实现了全覆盖覆盖城乡。根据手机信号在真实地理空间的覆盖范围,将手机用户时间序列的手机位置数据映射到实际地理空间位置,可以完整客观地还原手机用户的实际活动轨迹,从而挖掘人口空间分布和活动接触特征信息。 (1)案例资源包括视频、PPT、培训指导、数据、代码。(2)案例目标包括用户的历史定位数据,利用数据挖掘技术对基站进行分组;分析不同商圈的特点,比较不同商圈品类的价值,选择合适的区域开展运营商的促销活动。
(3)案例内容包括背景和挖掘目标;分析方法和过程;总结。(4)技术点包括标准差处理;谱系聚类;层次聚类算法。10、金融理财的广告牌精准投放,通过学习本案例,掌握数据协议、数据清洗、数据变换、K-means聚类模型构建、时间格式数据处理、时间窗口划分、可视化分析等主要方法和技巧为后续课程学习和未来的数据分析工作奠定基础。案例主要总结不同客户对理财的个人偏好,建立模型对客户进行分类,识别对理财感兴趣的关键点和潜在客户群,然后利用这些顾客个人喜好的时空轨迹来定位和确定热门的聚会地点和聚会时间。(1)Case resour ces包括视频、PPT、培训说明、数据和代码。 (2)Case 目标包括用户上网行为数据的数据预处理),包括属性规范、数据清洗和数据转换;通过K-means聚类进行客户细分,筛选出对财务管理感兴趣的关键和潜在客户群;将上述客户与其时空数据相关联,并对数据进行预处理,包括缺失值、重复值的处理和周末日期的去除;划分客户群的时间窗,画图观察总结不同时间窗客户的热门聚集地和聚集时间。 (3)case 过程包括缺失数据的插补和时间点删除;重复数据的处理和删除;排序k-means聚类模型;构建k-means聚类模型;进行一级和二级聚类,获取目标客户ID ;根据目标客户时空轨迹信息,挖掘热门时间段和Region,服务于广告精准定位。
(4)技术点包括K-means聚类;模型排序;流行时间段和地区挖掘。11、二手车销售价格预测。通过学习这个案例,你可以掌握seaborn的视觉分析library 和 sklearn 回归模型建模的主要方法和技巧,为后续相关课程学习和以后的数据分析工作打下基础。(1)case 资源包括视频、PPT、培训说明、数据和代码。 (2)case) 目标包括探索整体数据的分布,检测缺失值和异常值。探索变量之间的关系以及变量与预测值之间的关系,使用matplotlib等库进行可视化分析。已知意义的数据,将数据转化为能够更好地代表潜在问题的特征,选择合适的算法建立和训练模型,选择合适的评价m方法,并根据结果调整参数以优化模型。 (3)案例流程包括数据读取:读取二手车销售数据。数据集划分:将二手车数据集划分为训练集和测试集。数据统计分析:进行分布分析、统计分析、相关分析、缺失数据集上的值和离群值分析数据预处理:是缺失值和离群值的处理,数据标准化,数据离散化,属性构建等模型构建:基于XGBoot模型的分析和建模模型预测:预测价格(4)技术点包括探索性分析;数据预处理;属性构建;XGBoot模型。
12、Automobile 用户销售投诉数据抓取。通过学习本案例,可以掌握request、selenium等库爬取数据的主要方法和技巧,为后续相关课程和以后的数据分析工作打下基础。投诉信息收录消费者对特定产品和服务的主观感受,反映人们的态度、立场和意见,具有非常宝贵的研究价值。一方面,对于企业来说,企业需要基于海量的投诉文本数据,更好地了解汽车存在的问题和用户想要改进的功能,从而提高产品质量、改善服务,获得竞争优势。在市场上。另一方面,新消费者在看到实际产品实体并做出购买决定之前,需要根据其他购物者的投诉和公司的解决方案了解公司的售后服务,为购物决策提供参考和保障。 . (1)Case 资源包括视频、PPT、培训指南、数据和代码。(2)Case 目标包括采集汽车消费网关于汽车用户消费者投诉的数据。对客户投诉内容进行数据可视化分析,获取汽车投诉的现状。(3)案例流程包括在汽车消费网中抓取汽车用户消费投诉数据。在Python中导入原创数据集,并进行文本去重、文本清洗、分词和停用词数据去除 分析预处理数据的投诉趋势情况和投诉品牌情况,使用口吃分词技术对投诉进行汇总。(4)技术点包括数据预处理;网络爬取;数据分析可视化;口吃分词。
13、二手车交易数据爬取通过学习本案例,可以掌握request、selenium等库爬取数据的主要方法和技巧,为后续相关课程和未来的数据分析工作打下基础。案例使用Python网络爬虫获取主流二手车交易网站上二手车交易数据。 (1)Case 资源包括视频、PPT、培训说明、数据、代码。(2)Case 目标包括爬取主流二手车交易网站上二手车交易数据。(3)Cases 流程包括使用Selenium打开网页,使用XPath解析网页,获取汽车类别、制造商、品牌、型号、里程、注册日期、车身类型、燃油类型、变速箱、发动机功率、汽车有未修复损坏、位置、报价类型,汽车销售时间,二手车交易价格等信息,循环获取后清洗数据,保存为文件。(4)技术点收录网络爬虫;数据预处理。14、Population growth and医疗需求预测通过学习本书案例,可以掌握时间序列数据探索与处理、ARIMA模型构建、Leslie矩阵应用的主要方法和技巧,为后续相关课程和未来数据分析工作打下基础。最快的之一中国成长中的城市 30年来,健康产业取得了长足的进步,形成了市、区、社区医疗服务体系,解决了现有人口的医疗问题。
未来的医疗需求与人口结构、数量、经济发展等因素有关。合理预测,使医疗设施建设正确匹配未来人口健康保障需求,是保障深圳社会经济可持续发展的重要条件。然而,面对深圳的情况,现有的人口和社会发展模式已经不能满足人口和医疗预测的要求。为了解决这个问题,本案例根据深圳人口的发展变化和全社会的医疗卫生需求,采集数据,针对深圳的具体情况建立数学模型,预测深圳未来的人口增长和医疗卫生。需要。 (1)课时SET 8小时理论教学,8小时实践教学,共16小时。(2)Case资源包括8个培训指导,8个案例视频,1个案例PPT,5份资料,8复制代码。(3)Case 内容包括时间序列数据探索;平稳性和随机性检验;模型识别与参数确定;ARIMA 模型验证与预测;人口年龄结构数据探索;Leslie 矩阵构建与预测;Leslie 矩阵改进;基于改进Leslie矩阵预测。(4)技术点包括平稳性检验;ARIMA模型系数确定;残差检验;Leslie矩阵构建和改进。15、MySQL-basedcoupon特征处理可以通过学习本案例掌握MySQL的基本表创建、数据查询、数据处理、函数使用、表连接等功能,对O2O商户优惠券数据进行组织和特征构建,作为数据库的典型操作e数据处理,为后续机器学习奠定数据基础。
Case MySQL 实现了所有的数据清洗和数据处理程序。 (1)课时置理论教学2小时,实践教学6小时,共8小时。(2)Case资源包括视频、PPT、培训说明、资料、代码。(3)Case内容包括案例背景)和挖掘目标;构建样本标签;数据清洗;特征表构建;数据特征构建;数据特征合并。(4)技术点包括表查询;表更新;函数;索引;组聚合;表连接。