机器学习技术在疗养数据挖掘中的应用初探

李盼盼1,谭庆平1,曾平1,王重2,张浩宇1,谢勤政1,颜颖1

1.国防科技大学 计算机学院,湖南 长沙 410005;2.战略支援部队 兴城疗养院,辽宁 兴城 125105

[摘 要] 本文以介绍机器学习技术在疗养数据挖掘领域的应用为目的。文章对疗养数据挖掘的技术现状进行了分析,对机器学习的概念与相关技术进行了介绍,以及对机器学习技术在疗养领域的应用基础进行了说明,最后还指出了机器学习技术在我军疗养领域的应用。机器学习技术的应用对于提升我军疗养数据的利用率、拓展疗养服务功能、制定疗养保健政策、合理配置卫勤资源等具有积极的意义。

[关键词] 机器学习;数据挖掘;疗养院;感知器;支持向量机

引言

疗养机构是军队卫勤保障体系的重要组成部分,担负着预防保健、功能康复,以及特勤人员的健康鉴定、医学训练等疗养保健任务,是军队卫勤保障链中不可或缺的重要组成部分[1]。近十年以来,我军疗养机构的信息化建设取得了跨越式发展,工作效率和卫勤保障能力都有了显著提高,但在基于疗养领域的数据分析研究方面基础薄弱。目前,疗养机构使用的系统均缺乏对疗养数据进行深层分析以及对疗养知识进行自动获取的功能,制约了我军疗养领域的进一步发展。

当前,在改革强军的背景下,疗养服务模式正由传统经验模式向以疗养与科研有机融合为核心的循证疗养模式转变[2],因此引入机器学习技术和数据挖掘技术对于提升疗养数据的利用率、拓展疗养服务功能、制定疗养保健政策、合理配置卫勤资源等具有积极的意义。

1 疗养数据挖掘现状

在传统的疗养数据分析过程中,一般采用通过问卷调查或是平行组实验来获得实验数据,然后进行统计学分析的技术路线,指标一般是带有检验的回归误差或分类精度。例如,张燚德等[3]采用明尼苏达满意度问卷短式版对246名特勤人员实施随机抽样问卷调查并对结果采用单因素方差分析和Spearman相关分析进行统计分析,得出论特勤人员工作满意度的主要影响因素;任佰慧[4]通过对97名特勤疗养员行进行心理护理的平行组实验,然后对相关实验数据进行统计分析,得出心理护理能够提高和改善特勤疗养员心理健康水平和自我和谐程度的结论。

上述方法适用于对数据维度低、质量好、符合统计规律的小样本数据分析,但在面对低数学特征、非规范化形式的复杂数据分析时往往效果不好。而疗养数据具有多态性(纯数据、图像、文字等)、不完整性、冗余性等特征,这些特征决定了疗养数据的复杂性。此外,上述方法只对临时采集的数据进行了分析,没有利用历史数据,而历史数据中往往蕴含着宝贵的信息规律。因此,现阶段真正意义上的疗养数据挖掘尚处于探索阶段,本文即是对机器学习技术在疗养数据挖掘中的应用探索进行介绍。

2 机器学习介绍

机器学习是对能通过经验自动改进的计算机算法的研究,是从大量数据中自动或半自动地寻找有用模式的过程[5]。基于数据的机器学习是现代人工智能技术中的一个重要研究内容和方向,其主要研究是从观测数据(样本)出发寻找规律,并利用这些规律对未来数据或无法观测的数据进行预测[6]

机器学习的概念是阿瑟·萨缪尔在1956年的达特茅斯会议上首次提出的,萨缪尔将其定义为“不显式编程地赋予计算机能力的研究领域”。1957年,Rosenblatt[7-8]提出了第一个学习机器的模型,称作为感知器,这标志着人们对学习过程进行数学研究的真正开始。感知机是神经网络和支持向量机的基础,它的提出对机器学习乃至整个计算机科学都具有里程碑的意义[9]。二十世纪80年代,是机器学习成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期。而二十世纪90年代中期到21世纪00年代中期是机器学习发展的黄金时期,主要标志是学术界涌现出一批重要成果,比如,基于统计学习理论的支持向量机[10]、随机森林和Freund等[11]集成分类方法,基于正则化理论的稀疏学习模型及应用等。

从2010年以后,深度学习带来了机器学习的一个新的浪潮,受到从学术界到工业界的广泛重视,也导致了“大数据+深度模型”时代的来临[12]。今天,机器学习已经与我们的生活密切相关,例如在天气预报、能源勘探、环境监测等方面,有效地利用机器学习技术对卫星和传感器发回的数据进行分析可以提高预报和检测的准确性;在商业营销中,有效地利用机器学习技术对营销数据、客户信息进行分析,不仅可以帮助商家优化库存减低成本,还有助于针对用户设计特殊营销策略[13]

3 机器学习技术在疗养领域的应用基础

3.1 数据基础

我军疗养机构的信息化建设比较完善,军队疗养院信息管理系统、一卡通系统、体检系统等信息系统的应用在方便疗养工作的同时也累积了大量结构化和非结构化的疗养数据,这些数据是非常珍贵的资源,包含了疗养员的基本信息、体检信息、疗案信息等。除此以外,还有很多非结构化的数据对于分析疗养行为、制定个性化疗养方案也非常有用,比如疗养员的心理测评报告、满意度调查问卷等纸质资料。这些累积的信息数据为机器学习的应用提供了非常好的数据支撑。

3.2 技术基础

机器学习技术的种类很多,回归算法、神经网络、支持向量机(Support Vector Machine,SVM)、聚类算法、降维算法、推荐算法等技术在不同领域都取得了非常好的应用效果。例如在医疗领域,崔文等[14]采用反向传播(Back Propagation,BP)神经网络算法,解决了医疗监护中存在的病人体征缓慢变化监测问题;杨静等[15]基于主成分分析和BP神经网络算法,实现血液中肝癌细胞的自动识别;胡启东等[16]基于SVM提出了一种有效的医疗图像血管识别方法。疗养数据与医疗数据具有类似的数据特征,因此我们可以参考机器学习技术在医疗数据上的成熟技术[17-18]。除此之外,面向机器学习的可用框架也迎来了爆发式增长,这些为机器学习在疗养数据挖掘提供了非常好的技术基础。

4 机器学习技术在疗养领域的应用分析

4.1 在疾病辅助诊断中的应用

疗养机构虽然不同于以疾病治疗为主的医院,但也担负着我军疗养员的健康鉴定、预防保健、功能康复等医疗任务。应用机器学习中的神经网络、关联规则等技术,通过分析疗养数据中疗养员的入院诊断、体检信息、用药信息、出院诊断等各种医疗信息,挖掘出有价值的诊断规则,从而辅助医生做出诊断[19-20]。例如,Khosla等[21]提出一种集成机器学习的方法,用来解决卒中疾病的预测问题;Palaniappan等[22]应用如决策树、贝叶斯等机器学习技术开发智能心脏病预测系统。

4.2 在个性化疗养工作中的应用

个性化疗养是近几年为了提高我军的疗养保障质量而提出的新概念,具体是针对不同疗养个体和疗养团体的特点,在体能训练、心理治疗、景观活动、文化娱乐、饮食营养及自然疗养因子治疗等方面制定个性化疗养活动,具有针对性强、疗养效果好的优点[23-24]。在实施过程中,利用机器学习技术可以分析得出不同特征疗养员的特点和需求,以此来制定针对性的疗养方案。

4.3 探索自然疗养因子对疗养员的影响

自然疗养因子,是在疗养地和疗养院的特定环境中被应用的具有医学价值的自然界的物理、化学和生物因子,其性质属于生态学因子范畴[25]。疗养学的一个研究分支,就是研究自然疗养因子的连续作用对阻断人体有害因子作用的机制,采用机器学习中的关联规则算法,可以从历史数据中挖掘疗养因子和疗养员生理指标之间的关联性。例如,胡瑞娟等[26]利用改进的Apriori算法对乳腺疾病数据进行分析,建立肿瘤复发和其他属性间的关联规则,取得了很好的效果。田亚凯等[27]将改进的关联规则算法应用在了医疗监控中,提高了效率,为监护人员针对一些突发性疾病做出及时诊断提供了良好的决策支持。

4.4 在疗养信息统计和疗案质控管理中的应用

疗养信息的统计上报和疗案的质控管理是疗养院的一项重要工作,利用机器学习中的异常检测技术,对疗养系统中的数据进行实时管理,发现问题及时提醒相关人员修改,保障疗养信息录入质量达到上级的数据采集标准,保证疗案质控质量。陈小杰等[28]基于机器学习算法对光电反射传感器采集的心率大数据,研制了心律异常智能可穿戴预警系统,取得了不错的效果。

4.5 在疗养资源管理中的应用

我军的疗养机构很大一部分集中在我国北方,这些疗养机构的特点就是季节性非常明显,在疗养旺季时车辆、理疗设备、医护资源、温泉场所等资源非常紧张[29],因此疗养资源的管理和分配非常重要。可以利用机器学习中的回归算法和神经网络等技术,分析疗养数据中疗养员的入院时间、入院人数、入住天数、理疗次数等信息,得出疗养员的住院规律和疗养需求,构建出相应的预测模型,从而做好疗养资源的最优化合理分配,提高疗养保障能力。例如,徐晓明[30]在分析分布交互仿真任务特有需求的基础上,提出了一种基于SVM机器学习的仿真资源调度模型,实验表明,该调度模型可以获得整体最优的调度结果。

5 结语

不同于传统的基于统计学处理的疗养数据分析方法,机器学习技术在面对低数学特征、非规范化形式的复杂数据分析时往往具有更好的效果。而且到目前为止,人们在进行疗养数据分析时很少利用大量积累的历史数据,一个重要的原因就是传统的统计学更适合于小样本数据分析。因此,机器学习技术的使用,为我们开展疗养大数据分析提供了技术基础。在疗养领域,机器学习技术目前在疾病辅助诊断方面开展的研究较多,且取得了非常好的临床使用效果,但在其它方面的研究还很少,特别是在个性化疗养方面的基础薄弱。

虽然目前机器学习技术在我军疗养领域的研究尚处于研究阶段,但随着相关工作的开展,机器学习技术在疗养领域的发展趋势必将越来越深入、越来越广泛。机器学习技术在我军疗养领域中的应用不仅能够有效提升疗养数据挖掘的效率和质量,为我军疗养机构工作的开展提供有效支持,而且为解决疗养领域存在的问题提供了新思路,对于促进数据挖掘等新技术在疗养行业的研究和应用起到了极大的推动作用。

[参考文献]

[1] 王月兵,田径.加强新时期军队疗养院疗养保障建设的思考[J].临床合理用药杂志,2017,10(13):172-173.

[2] 廖忠友,李学成,宋大宇,等.对加快中西部地区军队疗养院疗养康复学科建设的思考[J].西南国防医药,2014,24(3):321-322.

[3] 张燚德,杨文华,吴明兰.特勤人员工作满意度调查分析[J].海军医学杂志,2016,37(6):481-483.

[4] 任佰慧.疗养期间特勤人员心理护理效果分析[J].中国疗养医学,2017,26(4):395-397.

[5] 威滕.数据挖掘实用机器学习技术[M].北京:机械工业出版社,2006.

[6] 任力安,何清,史忠植.分类超曲面方法在海量数据分类中的应用[J].计算机科学,2002,29(9):33-35.

[7] Rosenblatt F.The perceptron—a perceiving and recognizing automaton[A].Math. Stat[C].1957.

[8] Rosenblatt F.The perceptron: a probabilistic model for information storage and organization in the brain[J].Psychol Rev,1958,65(6):386.

[9] 王珏,石纯一.机器学习研究[J].广西师范大学学报(自然科学版),2003,21(2):1-15.

[10] 唐发明.基于统计学习理论的支持向量机算法研究[D].武汉:华中科技大学,2005.

[11] Freund Y,Schapire R,Abe N.A short introduction to boosting[J].J Japan Society Artif Intel,1999,14(771-780):1612.

[12] 何清,李宁,罗文娟,等.大数据下的机器学习算法综述[A].中国计算机学会人工智能会议[C].2013.

[13] 周志华.机器学习[J].中国民商,2016,(3).

[14] 崔文,金杉.基于BP神经网络的病人体征缓变监护方法[J].电子技术与软件工程,2017,(3):19.

[15] 杨静,王成,谢成颖,等.基于主成分分析和反向传播神经网络的肝癌细胞后向散射显微光谱判别[J].生物医学工程学杂志,2017,(2):246-252.

[16] 胡启东,李建强,张苓琳,等.一种基于SVM的医疗图像血管识别方法:中国,CN106530283A[P].2017.

[17] Lehrstühle.Machine learning in medical applications[J].Circulation,2015,132(20):1920-1930.

[18] Criminisi A.Machine learning for medical images analysis[J].Med Image Anal,2016,33:91-93.

[19] 陈轶.机器学习技术在医疗数据挖掘中的应用[J].电子测试,2015,(3):93-95.

[20] 严旭.机器学习技术在医疗数据挖掘中的应用探讨[J].信息系统工程,2016,(1):89.

[21] Khosla A,Cao Y,Lin CY,et al.An integrated machine learning approach to stroke prediction[A].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].New York:ACM,2010:183-192.

[22] Palaniappan S,Awang R.ntelligent heart disease prediction system using data mining techniques[A].IEEE/ACS International Conference on Computer Systems and Applications[C].Trier:DBLP,2008:108-115.

[23] 吴晓青,于方,侯志峰.个性化疗养处方的提出与实施[J].解放军医院管理杂志,2014,(2):165-166.

[24] 于绍冰.个性化疗养路径信息系统在军队干部保健疗养中的应用[J].中国疗养医学,2014,23(11):1051-1053.

[25] 张卫兵.特勤疗养学[M].北京:人民军医出版社,2009.

[26] 胡瑞娟,李岩芳,何昀.基于关联规则算法的医疗数据挖掘[J].长春理工大学学报(自然科学版),2009,32(2):282-284.

[27] 田亚凯,陈小惠.改进关联规则算法在医疗监控中的应用[J].计算机技术与发展,2015,(10):183-186.

[28] 陈小杰,曹国华.基于机器学习的心律异常智能可穿戴预警系统[J].电子技术与软件工程,2017,(15):102.

[29] 刘铭.优化卫生资源配置推进军队疗养院持续发展[J].中国疗养医学,2006,15(4).

[30] 徐晓明.基于SVM机器学习的仿真网格资源调度模型[J].武汉理工大学学报(信息与管理工程版),2013,35(4):555-559.

Application of Machine Learning Technology in Data Mining of Sanatorium

LI Panpan1, TAN Qingping1, ZENG Ping1, WANG Zhong2, ZHANG Haoyu1, XIE Qinzheng1, YAN Ying1
1.School of Computing, National University of Defense Technology, Changsha Hunan 410005, China;
2.Xingcheng Sanatorium, Strategic Support Force, Xingcheng Liaoning 125105, China

Abstract: To analyze the machine learning technology in the field of medical data mining. Firstly, the state-of-art technologies in medical data mining was analyzed in this paper. Secondly, the concept of machine learning and related technology were introduced,and the application of machine learning technology in the recuperation field was explained. Finally, the application of machine learning technology in the field of military recuperation was pointed out. The adoption of machine learning technology in medical data mining greatly helps to improve the utilization of military medical data, strengthen medical services, develop complete medical policies, and con figure medical resources.

Key words: machine learning; data mining; sanatorium; perceptron; support vector machine

[中图分类号] TP311.13

[文献标识码] A

doi:10.3969/j.issn.1674-1633.2018.04.027

[文章编号] 1674-1633(2018)04-104-04

收稿日期:2017-08-25

修回日期:2017-09-21

基金项目:总后卫生保健项目全军保健专项课题(16BJ44)。

通讯作者:谭庆平,教授,主要研究方向为软件工程、智能软件。

通讯作者邮箱:593925817@qq.com

本文编辑 王婷