区域医疗影像重复检查分析及关联挖掘

倪杭建1,何必仕1,徐哲1,沈伟富2,何炜2

1.杭州电子科技大学 自动化学院,浙江杭州 310018;2.杭州市卫生信息中心,浙江 杭州 310001

[摘 要]本文对区域内两家三甲医院影像重复性检查进行了分析,并从医疗特色和检查设备先进性两方面来分析患者转院治疗原因,最后利用关联规则算法挖掘了疾病类型与检查设备的关联性,为管理决策提供更准确的参考依据。

[关键词]区域医疗;影像重复检查;关联分析

0 引言

近年来,患者在医院就医必先做大量医技检查,其中重复检查成为影响医患关系的原因之一,某种程度上加重“看病难、看病贵”问题。张丽等[1]曾对跨医院短期重复超声检查现状进行了调查、分析,但是研究局限在超声检查。本文将针对区域内的两家三甲医院,并从医疗特色和检查设备先进性两方面对影像重复性检查现象展开分析研究,同时挖掘各类疾病与检查设备之间的关联性。本文所研究的区域是以行政区域来划分,具体以某市某一区来进行划分,所研究的两家三甲医院是同一城市内的两家综合性医院。

1 影像重复检查分析

1.1 数据预处理

为稽查重复性检查,需要对验证重复性的相关指标进行说明:首先,转院患者主要按照患者姓名、性别以及出生日期三个关键字段来核查;其次,同一患者重复性检查主要以检查设备和检查部位两个字段来进行核对,并且规定重复检查的时间跨度在1个月之内。根据上述关键字段以及时间限制等因素,针对原RIS数据库中的患者信息、检查信息和报告信息3个数据表进行抽取、转换、加载(ETL),构建“患者检查表”,见表1。为保护患者隐私,仅提取2013年9月~2014年8月历史数据,“患者姓名+性别+出生年月”用同样的Hash算法生成患者代号,既严格实现患者个人信息脱敏,又不影响患者核查及后续分析。

表1 患者检查表

1.2 重复比例分析

从区域内两家三甲医院提取到各自的患者检查表,使用T-SQL语句对两张表的数据进行分析,根据患者代号确定两张表中的同一患者,将这两个患者检查表合并,分析患者转院诊疗情况,以1个月内患者是否出现在不同的医院作为判断患者转院的依据。现针对区域内两家三甲医院,分别以医院B转到医院A,医院A转到医院B为研究对象进行分析,结果见表2。

表2 患者转院情况

注:转院人数指在1个月之内到过两家医院进行过检查的患者人次;重复检查人数指转院患者通过检查设备、检查部位近似核对所确认的同类检查次数。

从表2中的对比分析可以得出以下结论:

(1)从转院人数可以看出,从医院B转院到医院A的患者人数要高于医院A转到医院B的转院人数,说明医院A更有优势;

(2)从重复检查人数以及重复检查比例可以看出,医院A转到医院B的平均重复检查人数只为57人远少于从医院B转院到医院A的平均重复检查人数290。同时,医院B转院到医院A的平均重复检查比例高达36%,而医院A转院到医院B的平均重复检查比例只有12%。以上数据说明对于不同级别的医院,上一级别的医院对于下一级别医院的影像检查认可度较低,大部分患者需要重新检查;而下一级别的医院对于上级别医院的影像结果认可度较高,患者影像重复检查较少。

1.3 医院医疗特色验证分析

患者转院治疗的原因很多,比如医疗技术水平、医疗设备的差异等,但是其主要原因可以从医院的特色医疗着手分析,绝大多数患者会根据所患疾病选择该医疗领域较强的医院。故针对转院患者转院前检查出来的疾病类型进行分析,校验其转院原因是否和特色医疗相关。

首先通过文献[2]方法,分析得知医院A的特色领域主要是“泌尿生殖系统”、“呼吸系统”以及“肌肉骨骼系统和结缔组织”3类疾病,而B医院的特色领域主要是“妊娠、分娩和产褥期”、“泌尿生殖系统”和“呼吸系统”3类疾病。从上述转院的患者中,按患者转院前检查出的疾病类型进行分析,结果见图1,并按照患者疾病类型数量进行降序排列,见表3(表中为疾病类型简称)。

结合图1(a)和表3可以发现,从医院B转到医院A的患者在医院B检查出来的疾病主要为泌尿生殖系统、呼吸系统以及肌肉骨骼系统和结缔组织3大类疾病。由此可知,医院A的医疗特色是促使医院B的患者检查后转院的因素,同时佐证了医院A的医疗特色的确为泌尿生殖系统、呼吸系统以及肌肉骨骼系统和结缔组织3类疾病。结合图1(b)和表3可以发现,转院的患者在医院A检查出来的疾病数量最多的前3类是呼吸系统疾病、泌尿生殖系统疾病和循环系统疾病,与医院B的医疗特色领域相比较后,可知转院患者符合医院B的医疗特色领域。

图1 患者疾病堆积柱形图

1.4 检查设备比较分析

不同级别的医院,医疗设备配置存在差异,患者转院前后所做的检查项目存在差异。张丽[3]在文章中表明影响重复检查的一个主要原因在于医生为了避免医患纠纷,医生往往需要借助影像学检查来证明其处方合理性,故出现大量重复检查,例如患者都会进行血常规、US检查等。在此对患者转院前后做的检查设备进行比较分析,以验证上述观点。

表3 转院患者疾病类型数量排列表

注:B:医院B转到医院A患者;A:医院A转到医院B患者。

分别研究两个医院特色医疗内的患者在转院前后做的设备检查,按照转院前检查出来的疾病结果分类,抽取2013年9月~2014年8月的设备检查量进行分析。其中,患者从医院B转到医院A前后的设备检查人数,见表4,患者从医院A转到医院B前后的设备检查人数,见表5。

表4 患者从医院B转到医院A前后的设备检查人数

表5 患者从医院A转到医院B前后的设备检查人数

从表4可知:① 对于呼吸系统疾病,转院前在医院B患者大部分做的检查集中在CT、DR两类较为普通的检查手段,而转院到医院A后,患者一般都会先进行常规的US检查,同时除了做CT、DR等医院B常规设备检查,部分患者还会使用更先进的检查设备,如ECT、ES、URO设备等;② 对于泌尿系统疾病,转院前患者在医院B做的检查集中在US检查,而转院到医院A后,患者所做的检查少数仍使用US检查,但大部分患者使用DR、CT等设备检查,同时部分患者使用医院B没有的设备进行检查,如MR、ES设备等;③ 对于肌肉骨骼系统类疾病,转院前患者在医院B主要集中在DR、CT和MR检查;而在转院后,患者除了上述3种检查外,大部分患者还做了US检查。从表5可知,患者从医院A转到医院B医院后,3类疾病的患者在转院后还是以US检查为主,并且患者转院前后做的检查设备基本一致,患者转院后没有做高端设备检查。

对上述表4和表5总结分析有以下结论:

(1)患者在不同级别医院之间转院治疗,无论是从上级医院A转到下级医院B,还是从下级医院B转到上级医院A,患者在转院后,进行检查项目最多的为US常规超声检查。这也充分验证了患者转院后,大部分医生都会选择做基本的常规检查,即使有时这些常规检查作用并不明显。

(2)从下级医院B转到上级医院A后,大部分患者会做更先进医疗设备的检查,说明医疗设备差异是导致影像重复检查的一个原因。

(3)从上级别医院A转到下级别医院B的患者,从检查项目中可以发现大部分患者在医院B做的检查都是基础的检查,如泌尿生殖系统疾病和妊娠、分娩和产褥期疾病,在转院前后检查设备主要都是以US检查为主,故可以判定大部分转院到下级医院的患者是在做康复期的定期复检。

2 重复检查的关联挖掘

上述对区域内患者转院以及重复检查进行了分析验证,利用图表形式分析了促使患者转院的两大因素:医院的医疗特色以及医院的检查设备。但是对于深层次的数据挖掘,例如患者转院与患者性别、年龄和患者类型之间,疾病类别和检查设备之间是否存在关联性等,需使用关联规则算法对这些隐藏的信息进行深层的挖掘。

2.1 关联规则概念

关联规则可以描述如下[4]:设I = {i1,i2,…,im}是一项目集合,称为项,事务数据库D = {T1,T2,…,Tm},其中T包含在I中。在事务数据库D中,其中项目集A包含的个数,称为项目集A的支持数,记为σA。项目集A的支持数与D中事务总数的比值称为项目集A的支持度,记为Support(A)来表示A在D中出现的概率:

若规定了最小支持度阈值min_Support,当A的支持度大于等于min_Support,则将A项集称为频繁项集。

关联规则可以用A→B的形式来表示,其中A∈I,B∈I且A∩B =,A是条件,而B是结果。关联规则中包含有三个中重要的属性[5]

(1)支持度(Support),主要是指D中包含A和B的并的百分比,其支持度的表达式如下所示:

(2)置信度(Conf dence),指事务D中同时包含A、B,其表达式如下所示:

(3)重要性,也称为提升度或者改善度(lift),主要描述了规则的先决条件和结果的关联程度。重要性的表达式为:

2.2 Apriori算法

Apriori算法的核心思想是逐层搜索,其具体的迭代步骤为下述所述:① 第一次迭代,找到的是频繁1项集的集合,并将此集合记为P1;② 第二次迭代,算法会根据第一次迭代的P1集合,通过再次查找数据库来计算候选集的支持度,并将不满足最小支持度的选项删除,即可得到大小为2的频繁项集,记为P2;③ 以此类推,重复以上两步,就可以得到3、4、5…的频繁项集,直到i项集。Apriori算法实现的伪代码,可参考文献[6],从伪代码可以看到,在剪枝的过程中调用了has_infrequent_subset(c,LK-1)函数,该函数主要用来判断CK中是否含有非频繁项集,删除非频繁项集,将会有利于提高算法的效率。

2.3 关联规则算法应用分析

本文对于关联规则挖掘的内容主要从两个方面进行,首先针对患者转院前后做的检查设备以及检查部位,分析验证患者重复检查的规则性;其次,分析挖掘患者所做的检查设备与疾病类型之间的关联性。

2.3.1 患者转院前后重复检查关联规则分析

由于从医院A转院到医院B的患者数量较少,关联分析结果不明显,故主要针对患者从医院B转院到医院A后,对转院前后的重复检查关联性进行分析。以患者类型、患者性别、患者在医院B的检查部位、检查项目、患者在医院B的检查设备为输入,以患者在医院A的检查项目、检查部位、检查设备为预测值。设定输入、预测值,以及设置最小概率(置信度)为0.7,最小重要性为0.50后,总共得到了99条规则,对这些规则进行初步筛选后,抽取以下几条进行分析:

(1)规则“DB2 Studies Examine Alias =胸部(肺部)CT平扫(XBBFBB), DB2Studies Modalities = CT -> Studies Modalities = CT”,该条规则的置信度为1,重要性为0.767。

(2)规则“DB2 Studies Examine Alias = 头部(平扫)(TBBPSS), DB2 Studies Modalities = CT -> Studies Modalities = CT”,该条规则的置信度为1,重要性为0.626。

(3)规则“DB2 Patients Sex = F, DB2 Studies Modalities = US -> Studies Modalities = US”,其置信度为1,重要性为0.558。

(4)规则“DB2 Studies Examine Alias = 螺旋CT平扫(肺部), DB2 Patients Sex = M -> Studies Bodies Alias = 肺”,其置信度为0.7,重要性为1.088。

(5)规则“DB2 Studies Bodies Alias = 肾输尿管膀胱, DB2 Patients Sex = M -> Studies Examine Alias = 双肾+输尿管+膀胱+前列腺(彩超)”,其置信度为0.750,重要性为1.403。

(6)规则“DB2 Studies Bodies Alias = 甲状腺颈前淋巴结,DB2 Studies Modalities = US -> Studies Examine Alias =甲状腺+颈部淋巴结(浅表器官彩超)”,其置信度为0.721,重要性为0.725。

从以上6条规则中,表明患者从下级医院B转院到上级医院A后,从检查设备和部位的关联规则中发现转院后的重复性检查较为严重,并且部分患者做的检查,重复性的置信度都100%,其中有很多部位的设备检查存在严重的重复检查,例如胸部的CT扫面、头部的CT扫描等。

2.3.2 患者疾病类型与检查设备的关联规则分析

参见医院A和医院B中患者检查表(表1),输入值字段为患者类型、患者性别、患者年龄、患者检查部位、患者检查项目以及患者检查设备,预测字段为患者疾病类型。并且设定医院A、医院B关联规则的最小概率为1.00,最小重要性为0.80。经过关联分析计算,医院A获得66条关联规则,医院B获得22条关联规则。分别对所有的这些规则进行筛选,以预测的患者类型为筛选的条件,由于患者疾病有10大类之多,先主要针对两个医院的医疗特色进行分析,医院A抽取呼吸类、泌尿生殖类和骨骼系统疾病,而医院B抽取妊娠类、呼吸类和泌尿生殖类进行分析。分别从两家医院的规则中选出几条来分析,见表6。

表6 医院A和医院B患者疾病类型与检查设备及部位间关联规则

表6中所列规则,其置信度都是大于0.8的,重要性都大于0.5,故其规则质量与其它规则相比,质量还是比较可靠的。对表6分析后有以下结论:

(1)对于医院A,在3类特色医疗中,呼吸系统疾病与DR检查设备关联系较好,表明在做胸部DR的患者中,患有呼吸系统疾病的概率会比较大,而骨骼疾病中,虽然检查部位存在多样性,但检查设备主要集中在DR和MR上,泌尿系统疾病其检查部位也存在多样性,且其检查设备也没有固定性,但以DR、MR和URO为主。故医院A的检查设备中DR、MR的检查数量将会比较突出。

(2)对于医院B,其三类特色医疗领域中,呼吸系统疾病的检查设备以CT、CR为主,妊娠疾病由于其特殊性,以超声检查US为主,而泌尿系统疾病其检查设备主要为US。故医院B的检查设备中CT、CR、US的检查数量会比较突出。

(3)对比医院A、医院B的疾病类型与检查设备之间的关系,可以发现,对于呼吸系统疾病和泌尿生殖系统疾病,医院A所使用的检查设备较医院B先进。

3 结论

本文对区域内患者转院检查情况进行分析,得出上下级两家三甲医院之间的重复检查相关结论,并验证了医疗特色、设备先进性与患者转院治疗相关,最后使用关联规则算法,挖掘出患者疾病类型与检查设备之间的关联性。

[参考文献]

[1] 张丽,董蓓莉,王丹丹,等.跨医院短期重复超声检查现状的调查与分析[J].全科医学临床与教育,2011,9(4):415-417.

[2] He BS,Ni HJ,Xu Z,et al.The Automatic Classif cation Research to Regional Medical Imaging Disease Based on Support Vector Machine [A].The International Conference on Computers and Information Processing Technologies[C].2015.

[3] 张丽,董蓓莉,任彦斌,等.影像学重复检查原因剖析与应对策略[J].浙江临床医学,2011,13(4):477-478.

[4] 赵洪英,蔡乐才,李先杰.关联规则挖掘的 Apriori 算法综述[J].四川理工学院学报 (自然科学版),2011,24(1):66-70.

[5] 郭涛,张代远.基于关联规则数据挖掘 Apriori 算法的研究与应用[J].计算机技术与发展,2011,21(6):101-103.

[6] 石正喜,葛科奇,曹财耀.基于关联规则的利润加权并行算法[J].计算机与网络,2013,(2):65-67.

Analysis and Associated Mining of Regional Repeated Medical Imaging Examinations

NI Hang-jian1, HE Bi-shi1, XU Zhe1, SHEN Wei-fu2, HE Wei2
1. School of Automation, Hangzhou Dianzi University, Hangzhou Zhejiang 310018, China; 2.Hangzhou Health Information Center, Hangzhou Zhejiang 310001, China

Abstract:In this paper, the repeated medical imaging examinations in two hospitals in the region were analyzed. And the reasons of patients’ referral were also analyzed from two factors, including medical features and the advancement of examination equipment. Finally, the association between the diseases and examination equipment were mined by using association rule algorithms, which provided more accurate references for management decision-making.

Key words:regional medical; repetitive medical imaging examinations; association analysis

[中图分类号]R445;R197.3

[文献标志码]A

doi:10.3969/j.issn.1674-1633.2016.10.051

[文章编号]1674-1633(2016)10-0154-05

收稿日期:2016-03-02

修回日期:2016-03-21

基金项目:浙江省重点企业研究院建设项目;浙江省智慧城市区域协同创新中心项目。