基于Access的大规模住院病案首页数据挖掘

王妮,陈婕卿,刘文艳,陈卉

首都医科大学 生物医学工程学院,北京 100069

[摘 要]目的探索基于Access数据库进行大规模住院病案首页数据挖掘的方法.方法收集某市2002~2013年的住院病案首页,经过数据清理和疾病编码转换,利用Access数据库的窗体和VBA技术编程,按年度对住院病案首页数据进行汇总分析.以慢性阻塞性肺疾病(简称慢阻肺)为例汇总分析相关住院指标.结果对近600万条住院病案首页记录进行汇总分析总耗时267 s.2002~2013年,该市因慢阻肺住院的患者逐年增加,平均住院天数下降,平均住院费用上升,30 d再住院率尚无明显变化趋势.60岁以上慢阻肺患者的住院天数、费用均高于其他年龄段患者.结论时间连续的住院病案首页数据提供了对单病种患者住院指标进行时间趋势分析的可能性,其结果可为卫生和医院主管部门在医院管理决策、流行病学监测、卫生经济学等方面提供重要信息.

[关键词]住院病案首页;慢性阻塞性肺疾病;医院管理;数据挖掘

引言

如今是一个数据共享化、智能化的时代,因此出现了爆炸性增长的quot;大数据quot;.大数据的应用首当其冲的就是智慧医疗,具体可应用在临床诊断、远程监控、药品研发、防止医疗诈骗等方面[1].研究表明,大数据即将到达期望膨胀期,能够在5~10年的时间里达到一个成熟的阶段进而稳步发展直至变为实际生产力[2].在医疗卫生领域,目前国内医院信息化建设不断完善,经过不断积累,各种形式的电子化医疗系统产生了体量庞大的医疗大数据,它们成为生成医学证据的巨大来源.

住院病案首页是目前标准化程度最高、最易于挖掘、具有很高价值的一类医疗大数据[3-5].对连续多年、覆盖某一地区所有医院的住院病案首页数据进行分析,可以了解该地区某一病种患者住院天数、住院费用、再住院率等的变化趋势,为卫生和医院主管部门在医疗卫生资源分配、医院管理决策、流行病学监测、卫生经济学等方面提供重要信息.但是,由于存在数据量巨大、疾病编码复杂且不一致、数据质量参差不齐等问题,在对海量住院病案首页进行分析时仍然存在很多困难.针对这些问题,我们在Access数据库中编程实现了数据清理、疾病编码转换、住院指标统计,并以慢性阻塞性肺疾病为例进行了统计分析,取得了满意的效果.

1 材料与方法

1.1 数据来源

收集某市2002~2013年所有二级及以上医院的住院病案首页数据,共约600万条记录,按年度存储在Access数据库中.提取病案首页中患者的病案号、性别、出生日期、入院时间、出院时间、住院天数、出院主要诊断、出院其他诊断、住院费用等信息用于本研究.

1.2 数据预处理

数据预处理分为数据清理和疾病编码转换两部分.

(1) 数据清理.通过对字段排序,发现异常的年龄值(如gt;150岁)、出生日期(如1878年3月15日)、住院费用(如lt;10元),并剔除相应记录;利用入院时间和出生日期得到住院时的年龄,利用出院时间和入院时间得到住院天数,如果计算结果与记录中保存的数据相差较大,则认为该条记录可靠性差,予以剔除.对由于首位为数字0造成的同一患者病案号不同的情况,补足所有病案号的前置0,减少由此造成的无法识别多次入院的同一患者的问题.

(2)疾病编码转换.现在通用的疾病编码为国际疾病分类(International Classification of Diseases,ICD)编码,是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统,现通用ICD-10疾病编码[6].由于ICD-10编码庞大、过于细致,不利于进行病种统计,因此我们采用了目前在国外已有较多应用的临床分类软件(Clinical Classifications Software,CCS)编码体系[7-9].它根据ICD-10编码将疾病归为259种,为诊断和手术分类提供了便利.我们在Access中编程实现了ICD-10编码到CCS编码的转换.

1.3 编程汇总住院指标

在Access中,利用窗体和VBA技术,按年度对住院病案首页数据进行汇总分析.汇总指标包括因以CCS编码表示的指定病种D(在本文D表示本研究所选取的示例慢性阻塞性肺疾病)住院的患者人数、平均住院天数、平均住院费用、出院后30 d再住院率.所有指标均按照性别(男和女)、年龄段(0~17、18~35、36~60以及60岁以上)分层计算.计算30 d再住院率时,还区分以病种D为出院主要诊断的再住院、病种D为出院其他诊断的再住院,以及出院主要及其他诊断中均无病种D的再住院这3种情况.

计算30 d再住院率是此次软件编制过程中的难点.需要提取以病种D为出院主要诊断的患者的病案号,并根据病案号回溯这些患者所有的再住院情况,并判断与上次因病种D住院的时间间隔是否在30 d以内.

2 结果

在联想服务器ThinkServer上运行程序,服务器的基本配置为两颗Intel® Xeon E5六核(主频2.4 GHz)CPU、64 GB内存、4块2 TB硬盘,Windows 8操作系统,Microsoft® Access 2016.

慢阻肺的CCS编码为127,对应的ICD-10编码为J40-J44以及J47.以2004年为例,共有316105条记录,程序运行用时7 s,结果见图1.

图1 2004年慢性阻塞性肺病的住院指标统计结果

从2004年的统计结果可以看出,在所有出院主要诊断为慢阻肺的患者中,男性患者明显多于女性患者(3262:2273),60岁以上患者为4201人次,所占比例最大(76%);平均住院天数为12.8 d,平均住院费用为4761元,出院后30 d内因慢阻肺再次住院的发生率为4.28%.

图2~5展示了2002~2013年出院主要诊断为慢阻肺的患者的住院人次、平均住院费用、平均住院天数及30 d再住院率的变化趋势.

图2 慢性阻塞性肺疾病住院人次的变化趋势

图3 慢性阻塞性肺疾病平均住院费用的变化趋势

图4 慢性阻塞性肺疾病平均住院天数的变化趋势

图5 慢性阻塞性肺疾病30天再住院率的变化趋势

3 讨论

目前,慢阻肺每年导致死亡的人数超过100万,已成为我国城市人口的第四大杀手[10].中国慢阻肺患者达4300万,40岁以上人群的发病率已上升为8.2%,其中男性患病率达12.4%[11-12].随着人口总数的增加、吸烟人群的扩大以及空气污染的加重,因慢阻肺住院的患者数逐年增加[13-14].平均住院费用总体呈上升趋势,从2002年的4096元逐年上升到2013年的9384元,与何权瀛等[15]调查723例慢阻肺患者后报告的8755元(2006年)基本一致.随着医疗水平的提高,平均住院天数总体呈下降趋势,从2002年14 d的逐年递减到2013年的11 d,与关丽婵等[16]报告的12.04 d(2008~2014年)基本一致.60岁以上患者的平均住院天数与平均住院费用总体来说普遍高于其他年龄段.出院后30 d内因慢阻肺再次住院的患者比例总体呈上升趋势,特别是在36岁以上的中老年患者中.这些基于大规模住院病案首页数据的分析结果,既与多数小规模临床调查结果相一致,又提供了10多年间的变化趋势,为今后的临床诊疗和医院管理提供了有益的参考.

本研究编制的住院指标统计分析软件,界面简洁,结果显示清晰明了,运行情况良好.对近593万条记录进行分析累计运行267 s,基本满足海量数据分析的速度要求,说明了进行大规模住院病案首页数据分析的可行性和可操作性.我们将在今后的研究中增加更多的统计分析功能,如提供中文病种名称下拉列表供用户选择,可以保存年度分析结果,直接得到各种分析曲线图,对时间趋势进行统计分析等.此外,利用住院病案首页所能提供的信息(患者基本信息、住院医疗与诊断信息、住院费用信息),对病案首页数据进行更深入的挖掘,以获得更多、更有价值的知识,充分发挥住院病案首页数据在临床决策、管理决策中的作用.

[参考文献]

[1] 高汉松,肖凌,许德玮,等.基于云计算的医疗大数据挖掘平台[J].医学信息学杂志,2013,34(5):7-12.

[2] 张振,周毅,杜守洪,等.医疗大数据及其面临的机遇与挑战[J].医学信息学杂志,2014,35(6):2-8.

[3] 吴良湘.信息化建设对病案首页数据质量的影响[J].中国病案,2016,17(3):47-49.

[4] 徐宁.病案首页数据的挖掘与利用[J].医疗装备,2016,29(5):49-50.

[5] 熊志刚,姚刚.基于病案首页的医疗大数据挖掘研究[J].中国数字医学,2016,11(9):11-14.

[6] 董景五.疾病和有关健康问题的国际统计分类(第10次修订本)(第1卷))[M].第2版.北京:人民卫生出版社,2008.

[7] (AHRQ)Bata Clinical Classifications Software (CCS) for ICD-10-CM/PCS[EB/OL].[2016-11-21].http://www.hcup-us.ahrq.gov/toolssoftware/ccs10/ccs10.jsp.

[8] Alshekhlee A,Horn C,Jung R,et al.In-hospital mortality in acute ischemic stroke treated with hemicraniectomy in US hospitals[J].J Stroke cerebrovasc Dis,2011,20(3):196-201.

[9] Bynum JP,Rabins PV,Weller W,et al.The relationship between a dementia diagnosis,chronic illness,medicare expenditures,and hospital use[J].J Am Geriatr Soc,2004,52(2):187-194.

[10] 慢性阻塞性肺疾病诊治指南(2013年修订版)(一)[J].全科医学临床与教育,2013,11(5):484-491.

[11] Zhong N,Wang C,Yai W, et al.Prevalence of chronic obstructive pulmonary disease in China: a large,population-based survey[J].Am J Respir crit care Med,2007,176(8):753-760.

[12] Lopez AD,Mathers CD,Ezzati M,et al.Global Burden of Disease and Risk Factors[M].England:Oxford University Press and the World Bank,2013:70.

[13] 杨柯君.吸烟是quot;慢阻肺quot;最重要的危险因素[J].上海医药,2013,34(18):59.

[14] 王情,王蛟男,李湉湉.空气污染与慢性阻塞性肺疾病的关系研究进展[J].中国医学前沿杂志(电子版),2016,8(9):9-13.

[15] 何权瀛,周新,谢灿茂,等.慢性阻塞性肺疾病对中国部分城市患者生命质量和经济负担的影响[J].中华结核和呼吸杂志,2009,32(4):253-257.

[16] 关丽婵,金丛凯,陈美珠,等.慢性阻塞性肺疾病患者住院状况分析[J].现代临床护理,2015,14(6):4-6.

本文编辑 刘峰

Access-Based Data Mining of Large-Scale Database of Hospital Discharge Data

WANG Ni, CHEN Jieqing, LIU Wenyan, CHEN Hui
School of Biomedical Engineering, Capital Medical University, Beijing 100069, China

Abstract:ObjectiveTo investigate how to mine a large scale dataset of inpatient discharge data based on Access.MethodsInpatient discharge data in one city from 2002 to 2013 was collected. After the data cleaning and disease recoding, hospitalization measures were analyzed by year using the form and VBA programming in Access. Hospitalizations of chronic obstructive pulmonary disease(COPD) were analyzed as an example.ResultsIt took totally 267 s to analyze the whole dataset with almost 6 million records. From 2002 to 2013, the number of hospitalized patients with COPD increased, and the length of stay decreased with the increment of the charge per stay, while the readmission rate within 30 days had no significant change trend. The hospitalization days and costs of COPD patients aged over 60 years were higher than those of other age groups.ConclusionIt is feasible to analyze the time trends of hospitalization based on inpatient discharge data during a long period of time. The results can provide valuable information for health care and hospital authorities on hospital management decisions, epidemiological surveillance and health economics, etc.

Key words:hospital discharge data; chronic obstructive pulmonary disease; hospital management; data mining

[中图分类号]TP31;R197

[文献标识码]C

doi:10.3969/j.issn.1674-1633.2017.10.033

[文章编号]1674-1633(2017)10-0126-03

收稿日期:2016-11-21

修回日期:2016-12-08

通讯作者:陈卉,副教授,硕士生导师,主要研究方向为医疗大数据挖掘.

通讯作者邮箱:chenhui@ccmu.edu.cn