基于数据挖掘的大型医疗设备配置预测模型建立与评估

基于数据挖掘的大型医疗设备配置预测模型建立与评估

朱伟,方舸,严郁

南京中医药大学附属医院(江苏省中医院) 设备处,江苏 南京 210029

[摘 要]目的 为进一步解决大型医疗设备合理配置的问题,以CT为例建立医疗设备配置预测模型。方法 首先采用投资回报法评价CT的经济效益,然后使用皮尔逊系数分析医院门诊量、CT检查量及时间的相关性,最后利用回归分析法建立预测模型并进行评价。结果 CT检查量与全院门诊量的皮尔逊相关系数为0.797(P<0.001),高度线性相关。根据预测模型(y=-0.51t2+184.2t+9166.5),未来5年内至少需要增加3台CT才能满足医院的CT检查最低需求。结论 通过挖掘医院数据,建立大型医疗设备配置预测模型,为医院合理编制预算提供决策依据。

[关键词]大型医疗设备;数据挖掘;相关性;回归分析

引言

近年来,医院对医疗设备的投入力度不断增加,据统计,大型医院固定资产总值中约50%~70%为仪器设备类投入,为医院带来了约30%的收入[1],可见,医疗设备购置对医院收入增加有重要影响。此外,医院发展的一个重要标志是引进大型医疗设备,其有利于提高医院竞争力[2]。以南京中医药大学附属医院放射科为例,仅10台计算机断层(Computed Tomography,CT)/ 磁共振成像(Magnetic Resonance Imaging,MRI)就占据全院医疗设备资产总值的1/8。因此,如何引进,何时引进,购置数量如何,如何有效利用和维护才能为医院带来更高的效益,是医院需要积极思考的问题[3]

在大型医疗设备效益分析及合理配置研究方面,目前常用的评价方法是以社会效益为指导,经济效益作为客观评价指标,反映的是设备的单机效益和投资回报周期。薛美婵等[4]以经济收益和使用效率等指标探索引进医疗设备成本效益,分析对大型医疗设备配置管理的积极意义。朱懿恒等[5]应用单机核算方法、投资报酬率法计算经济效益,以设备在科研和教学任务的使用次数评价其社会效益,综合评价大型医疗设备成本效益。汪长岭等[6]通过德尔菲法筛选出合适经济效益和社会效益指标,为不同类别的设备选择适合的评价指标和指标权重,初步拟定了一套医疗设备综合效益的评价方案。陶琳[7]运用医学、经济学及统计学理论,通过德尔菲法设计与制定大型设备配置评价指标体系。吉利侠[8]通过文献分析、德尔菲法、问题卷调查等确定综合评价指标和相应的权重,进一步制定大型医用设备综合评价体系。以上方法对于评价PET-CT等特殊大型设备来说较为合理,但对于CT、MRI等常规大型设备来说则不够完整,因为此类设备效益较好,大型三甲医院甚至1年就能回本[9]。对这类设备医院更需要考虑的是长远配置规划。此外我国对大型医疗设备实行配置审批制度,如果配置不够,未来1~2年内会导致排队时间长、流失病人,不仅影响医院效益,还会产生一定社会影响[10];反之则会导致设备使用效率低,同时会影响医院在其他科室的设备预算投入。因此,借助恰当的分析手段对上述问题进行深入分析,对大型设备配置做3~5年的长远规划,有效保障医院经济和社会效益,具有十分重要的现实意义。

为弥补当前主流大型设备配置评价体系的不足,进一步解决大型医疗设备合理配置问题,本研究以CT为例,在大型设备单机效益分析的基础上,基于医院大数据分析的角度,使用相关性分析和回归分析建立CT检查量的数学模型,并对本研究提出的预测模型进行分析及评价。

1 材料与方法

1.1 数据来源

研究对象是江苏省中医院放射科CT,所有基础数据来源于医院信息系统(Hospital Information System,HIS)、影像存储与传输系统(Picture Archiving and Communication Systems,PACS),包括2016年1月至2019年9月共45个月的医院门诊量、放射科CT检查量等,以月为单位进行统计分析。根据收费方式的不同,门诊量以人次为单位,CT检查以部位为单位。

1.2 分析及评价方法

1.2.1 CT运行统计

统计CT的基本信息,包括购置日期、使用年限、开机率、临床使用率、维保、投资回收期等。其中开机率采用大型设备标准计算方法,即全年故障时间/全年理论正常运行时间。临床使用率按工作日计算,使用率=每小时实际扫描部位/每小时理论扫描部位[11]。考虑摆位时间,平扫约3 min/部位、增强8 min/部位,加权平均5 min/部位(权重=CT增强量/CT总量)。若只做平扫,则理论20例/h/台(160例/d),此时使用率为100%。若平扫平均检查量16例/h/台则使用率为80%,增强以此类推。投资回收期=设备单价/年净利润,其中年净利润=年检查收入-年运营成本,运营成本包括水电、人员工资、维保、折旧及耗材等[12]。CT折旧期为6年[13],据此制定标准:投资回收期≤2年为“优”,2~4年为“良”,4~6年为“中”,大于 6 年为“差”,负数为“亏损”。

1.2.2 医院门诊量、CT检查量及时间的相关性分析

相关性分析是验证两组数据之间的线性相关程度,从相关系数可知道两组数据是否呈线性关系以及线性关系的强弱[14]。通过相关性进行分析可发现关键影响因素,并对发展做出预测。本研究采用皮尔逊相关系数[15]分析2016—2019年医院门诊量、CT检查量及时间的相关性,并进行双尾显著性检验,以P<0.05表示差异有统计意义,分析工具为SPSS 25.0。相关系数介于-1与+1之间,一般认为:|r|≥0.8为高度相关;0.5≤|r|<0.8为中度相关;0.3≤|r|<0.5为低度相关;|r|<0.3为基本不相关。

1.2.3 CT检查量回归分析及评价指标

回归分析是利用数据统计原理确定因变量与某些自变量的相关关系[16],建立一个相关性较好的回归方程,用于预测因变量变化的分析方法。回归方程的精度是用来表示实际观测点和回归方程的拟合程度的指标,一般使用RMSE和决定系数(R2)来度量,具体公式如式(1)~(2)。

其中,Y_actual代表实际值,Y_predict代表预测值, 代表Y的均值。RMSE代表预测值与真实值的误差平方根的均值,RMSE越小说明模型具有更好的精确度。R2正常取值范围为0~1,越接近0表明模型拟合越差,越接近1模型拟合越好。根据经验,当R2>0.4时拟合效果较好。

本研究使用python 3.6及scikit-learn 0.22建立CT检查量回归模型。使用前36个月的CT检查量建立训练模型,使用后9个月数据测试模型,得出模型的训练分数(Train_score)及测试分数(Test_score),并根据RMSE和R2选择最优预测模型。此外,考虑设备故障、检查意外等情况,将单台CT理论检查量的90%设为阈值, 即144例/d,一旦当年单台平均CT检查量等于或超过此值,则下一年必须增加CT数量。

2 结果与分析

2.1 CT运行与效益概况

截至2019年9月30日,放射科共有5台CT,具体如表1所示。5台CT平均开机率为98%,整体故障率较低。为提高使用效率,CT专机专用,CT 1、2、4只做平扫,CT 3、5只做增强。CT 1兼顾急诊,24 h运行,使用率123.2%,属超负荷状态。其他4台CT平均使用率94.5%,属基本满负荷状态。从表1可以看出,CT 4投资回收期最长(仅1.09年),所有CT经济效益均为“优”。CT的折旧期一般为6年,根据对南京部分三甲医院的调查,绝大部分医院CT至少使用10年,因此对医院来说单台CT的纯盈利期约有8~10年。表1和调查结果进一步说明仅从效益出发评估此类设备是不够的,医院更多的是需要考虑长远配置规划。

2.2 2016至2019年门诊量/CT检查量统计及相关性分析

2016至2019年CT检查量统计如图1所示,可以看出CT检查的增幅较为明显。根据计算CT检查量年平均增长21.3%,单台CT检查量从113例/d增加到141例/d。根据HIS数据,医院平均月门诊量为从39.8万增加到48.1万,平均同比增长9.1%。因二者数量级不一样,为便于分析对比,归一化处理后得出CT检查量与医院门诊量趋势基本一致,皮尔逊相关系数高达0.797(P<0.001)。此外,医院门诊量、CT检查量与时间的相关性分别为0.622(P<0.001)、0.861(P<0.001),相关性极强,说明医院处于高速发展阶段。

表1 放射科CT运行统计表

编号 规格 单价/万元 购置日期 开机率/% 使用方式 使用率/% 维保/(万元/年) 投资回收期/年CT1 16层 351 2010/10/18 97 平扫 123.2 60 0.32 CT2 64层 516 2015/10/26 99 平扫 94.7 80 0.49 CT3 256层 干保 2017/12/19 99 增强 96.5 保5年 /CT4 64层 1054 2011/12/31 98 平扫 92.1 76 1.09 CT5 64层 585 2017/09/18 99 增强 95.4 78 0.56

2.3 CT检查量预测模型建立与评估

由 图 1、 图 2可 知,2016年 2月、2017年 1月、2018年2月及2019年2月的门诊量和CT检查量远低于当年的全年平均水平。从数据分析角度,这4个月份是农历新年期间,说明过年期间病人量减少,属于正常降低。但对数据拟合来说,这些属于异常点,需要进行补偿。为建立更合理的回归模型,本研究使用全年平均月检查量代替异常点,如图3所示。从图中可明显看出,CT检查量和时间呈现比较明显的近似线性相关,因此可建立以时间为自变量,CT检查量为因变量的预测模型。

图1 2016至2019年放射科CT检查量统计

图2 2016至2019年全院门诊量和放射科CT检查量对比

图4是本研究建立的1~4阶的线性回归模型拟合曲线图,从图中可看出3阶及以上模型已明显过拟合。表2为1~4阶模型的训练及测试分数,从表中可以看出2阶模型的得分最高,3阶及以上模型的Train_score及Test_score差别较大,再次确定3阶以上函数不适合作为CT检查量的预测模型。

图3 补偿后的2016至2019年放射科CT检查情况

图4 多阶线性回归预测模型预测曲线

注:a. 1阶模型;b. 2阶模型;c. 3阶模型;d. 4阶模型。

表2 多阶线性回归预测模型得分

Score 1阶 2阶 3阶 4阶Train_score 0.847 0.848 0.854 0.873 Test_score 0.650 0.699 0.403 0.333

使用回归模型的定量评价指标(表3)进一步评价预测模型的性能,从表中可以得出2阶模型的评价指标得分依然最高(RMSE=0.015,R2=0.862),对应预测函数为:

其中,t代表月份,y代表对应月份的检查量,该函数以2016年1月作为第1个月。根据预测函数,2019年12月(第48个月)时CT检查量应为16697例。2019年平均单台CT检查量增加到141例/d,高度接近设定阈值,因此2020年必须增加1台CT。同理,2021年、2022年、2023年及2024年平均单台CT检查量分别为133例/d、145例/d、132例/d、140例/d。因此,未来5年内至少需要增加3台CT才能满足医院的CT检查最低需求。

表3 多阶线性回归预测模型评价指标

评价指标 1阶 2阶 3阶 4阶RMSE 0.017 0.015 0.029 0.033 R2 0.862 0.876 0.403 0.333

3 讨论

为弥补当前主流大型设备配置评价体系的不足,解决大型医疗设备合理配置问题,本研究从数学建模的角度出发,对医院HIS及PACS进行数据挖掘及分析,以CT为例提出了一种大型影像设备配置预测模型。根据研究结果得出了3条结论:① CT的投资回收期极短,仅从效益分析考虑是不够的,医院需要对CT配置做长远规划;② CT检查量、医院门诊量与时间三者显著线性相关。说明医院处于高速发展阶段,应该根据医院门诊规模的扩大适当增加CT以满足临床需求;③ 根据建立的数学模型,未来5年内至少需要增加3台CT才能满足医院的CT检查最低需求。

此外,预测模型的准确率仍具有一定的提升空间,需要在以下两个方面进行改进:① 本研究仅使用了2016至2019年数据建立模型,数据基础不够,6年以上数据量会使模型预测效果更好;② 各临床科室的CT开单情况差别巨大,据统计有些科室CT开单量可达全院20%以上,如将此类科室作为变量纳入到预测模型里,模型更加精确模型。

本研究从医院大数据及效益分析的角度建立CT配置预测模型,可作为医院规划CT配置的决策依据,尤其是在申请乙类大型设备配置证方面。但实际上对于此类大型设备的配置规划,医院不仅要考虑经济效益、还要从社会效益、医院用房、财政预算、宣传效应以及各科室平衡发展等角度综合权衡[17]。因此,对于大型设备配置更合理的办法是医院设立设备管理委员会,以医院大数据作为依据,专家进行二次评价,最终建立更合理的大型设备配置规划。

4 结论

当前医院管理及发展精细化、科学化的理念已深入人心,合理的设备配置尤其是大型医疗设备配置是医院精细化管理的重要一环[17]。本研究基于数据挖掘角度,弥补了当前主流大型设备配置评价体系的不足,以CT为例建立了大型医疗设备配置预测模型,为医院配置大型医疗设备提供决策依据。

[参考文献]

[1]李天鹏,严郁,马靖武,等.基于预算管理的公立医院大型医疗设备效益分析[J].中国医疗设备,2018,33(10):148-150.

[2]朱伟,李永刚,严郁,等.基于HERP的医疗设备维修管理系统的设计与开发[J].中国医疗设备,2018,33(1):194-196.

[3]刘健,朱伟,严郁.柏拉图分析在DR高故障率探究中的应用[J].中国医疗器械杂志,2019,(2):154-156.

[4]薛美婵,何暖超.医疗设备成本效益分析在大型设备资源配置中的应用价值[J].医疗装备,2017,(2):70-70.

[5]朱懿恒,廖云粤.基于社会效益与经济效益的大型医疗设备成本效益分析[J].中国医学装备,2017,(5):38-40.

[6]汪长岭,沈华强,黄亚萍,等.建立医疗设备效益评价体系的探讨[J].中国医疗设备,2019,34(12):127-130.

[7]陶琳.大型医用设备配置合理性评价指标体系研究[J].中国医疗设备,2008,23(6):1-4.

[8]吉利侠.大型医用设备配置综合评价体系的构建[J].中华医院管理杂志,2012,28(1):47-50.

[9]吴文忠,严郁,马靖武.医疗设备预算的编制实践与思考[J].中国医疗设备,2017,32(5):166-168.

[10]高虹,缪建成,耿向南,等.医疗设备单机成本绩效分析中数据获取相关因素考量[J].中国医疗设备,2016,31(9):132-135.

[11]徐玉红.医改新常态下公立医院财务精细化管理研究[J].当代会计,2017,(4):57-58.

[12]孔德友,刘肖肖,宋振华,等.基于多科室协作的医疗设备年度预算管理方法的研究[J].中国医疗设备,2017,32(10):162-165.

[13]王芳.从某医院大型医疗设备效益分析看设备资源配置[J].医疗卫生装备,2014,35(3):129-131.

[14]丁然,王克英,张铂,等.效益双平衡模型在医疗设备购置决策分析中的应用研究[J].中国医学装备,2019,16(5):33-36.

[15]赵海龙,张丹丹,黄松,等.基于皮尔逊相关系数的海南省地闪密度与雷击故障关系分析[J].高压电器,2019,55(8):186-192.

[16]胡菊华.基于残差分析的线性回归模型的诊断与修正[J/OL].统计与决策,2019,(24):5-8.

[17]杜振伟,张和华,吴旋,等.基于效益-效果评价的大型医疗设备成本效益分析[J].中国医疗设备,2015,30(2):114-116.

Establishment and Evaluation of Large-scale Medical Equipment Configuration Prediction Model Based on Data Mining

ZHU Wei, FANG Ge, YAN Yu Department of Equipment, Affiliated Hospital Nanjing University of Chinese Medicine (Jiangsu Province Hospital of Chinese Medicine),Nanjing Jiangsu 210029, China

Abstract: Objective To solve the problem of rational allocation of large-scale medical equipment, CT was taken as an example to establish a prediction model of medical equipment configuration. Methods Firstly, the economic benefit of CT was evaluated by the return on investment method. Then, Pearson coefficient was used to analyze the correlation between the hospital outpatient quantity, the CT examination quantity and time in hospital. Finally, regression analysis method was used to establish the prediction model. Results The Pearson’s correlation coefficient between the CT examination quantity and the hospital outpatient quantity was 0.797 (P<0.001), which was highly linear. According to the prediction model (y=-0.51t2+184.2t+9166.5) at least 3 additional CTs will be needed to meet the minimum requirements for CT examinations within the next 5 years. Conclusion By mining the hospital data, a large-scale medical equipment configuration prediction model is established to provide a decision-making basis for the hospital’s reasonable budget.

Key words: large-scale medical equipment; data mining; correlation; regression analysis

收稿日期:2020-01-05

通信作者:严郁,高级工程师,主要研究方向为人工智能和模式识别。

通信作者邮箱:yanyucan@126.com

[中图分类号]R197.39

[文献标识码]A

doi:10.3969/j.issn.1674-1633.2020.12.016

[文章编号]1674-1633(2020)12-0063-04

本文编辑 崔丽君