[发明专利]一种基于分类回归树来用于检测教师亚健康状态的方法在审
申请号: | 201810933342.7 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109147949A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 易俗;王延明;宋朋;张一川 | 申请(专利权)人: | 辽宁大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/70;G06F16/2458 |
代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 郑贤明 |
地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于分类回归树来用于检测教师亚健康状态的方法,传统高校教师亚健康评估缺乏时效性、客观性、高效性。大数据环境下,利用机器学习技术能够更有效的建立亚健康评估模型,以支持高校教师亚健康状态的预测与预警。基于分类回归树来用于检测教师亚健康状态的方法首先针对高校教师亚健康影响因素进行多维分析和概念建模,其次对样本数据特征进行分析及数据预处理。在此基础上,利用分类回归树算法给出亚健康决策模型建模的详细过程,并分析评价指标。最后,利用Spark分布式计算框架给出了模型构建的并行实现。本发明提供了一种更加高效、客观且能够即时反映教师的亚健康状况,以及支持高校教师亚健康的预测与预警的方法。 | ||
搜索关键词: | 亚健康 分类回归树 亚健康状态 高校教师 教师 检测 预警 分布式计算框架 机器学习技术 数据预处理 并行实现 多维分析 概念建模 决策模型 模型构建 评估模型 评价指标 样本数据 影响因素 大数据 高效性 时效性 预测 建模 算法 分析 评估 | ||
【主权项】:
1.一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:1)分析处理样本数据:1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;2)利用CART算法对亚健康决策树进行建模:2.1)构造用于检测教师亚健康状态的决策树;2.2)对初步构造生成的决策树模型进行剪枝算法优化;2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:
设真实应用过程中采集n个教师的数据样本实例,其中y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1;结合精确度、召回率和综合各评价体系指标的衡量,整体分析效评价该模型的有效性:
其中precision表示精确率,TP代表所有被正确分类到亚健康的样本数量,FP代表所有未能正确分类到亚健康的样本数量;
其中recall表示召回率,FN代表被错误分类的亚健康样本数量。综合评价指标采用F1‑measure值,即精确值和召回率的调和均值,即:
推导得:
3)基于spark的并行实现:3.1)确定决策树模型的构建架构:利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构建决策树的效率;通过样本数据在Spark分布式框架下运行CART算法,计算教师亚健康评估决策树模型;最终得到的决策树;3.2)CART算法模型在spark上的并行实现:首先,考虑CART算法利用Gini指数计算最优分割点时,面向属性类别较多的教师多维影响因素数据集,根据属性的个数创建多个并发任务分别求解各属性最优分割点,在此基础上,比较并确定最小分割点;其次,对部分属性进行属性内并行化处理,将连续型数据的各分割点拆分至不同任务进行处理,最后,将计算结果合并,计算最优分割点;再次,针对连续型数据样本属性,通过减少高密度连续数据中的重复值提高算法计算效率;针对离散型数据样本属性,通过减少属性类型值中具有对称性的取值减少离散型数据的取值情况,从而缩小计算范围;最后,针对剪枝操作同样需要进行并行化处理:在各节点计算完成后,比较各任务计算结果,求出拥有最小误差增益值的节点,作为非叶子节点的剪枝优化目标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810933342.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种皮肤检测平台的商业模式
- 下一篇:一种家庭成员健康档案管理方法