基于机器学习和数据挖掘技术进行MDR风险预警的研究初探

杜红阳1,吴世福2,黄琳2,杜卫红1,王淑玉3

1.菏泽市药品不良反应监测中心,山东 菏泽 274000;2.山东省药品不良反应监测中心,山东 济南 250012;3.菏泽市立医院,山东 菏泽 274000

[摘 要]本文针对目前我国医疗器械不良事件(Medical Device Reporting,MDR)风险预警功能的不足,结合山东省药品不良反应监测中心医疗器械不良事件数据分析预警项目3年来的探索成果,尝试将机器学习和数据挖掘技术引入医疗器械不良事件预警领域,提出基于聚类分析和word2vec的MDR预警系统框架,并结合医疗器械不良事件报告实际数据进行分析。根据实际需要,从生产企业、注册证号、产品批号、生产日期等多个维度实现预警,为MDR风险预警问题提供一种新方法,为医疗器械不良事件监测人员提供决策支持。

[关键词]风险预警;医疗器械不良事件;机器学习;信号检测;数据挖掘

引言

为探索和研究医疗器械不良事件,我国的医疗器械不良事件(Medical Device Reporting,MDR)监测网络覆盖了全国各地区药品不良反应监测中心、医疗器械生产经营企业、医疗机构等。近年来,随着医疗机构、生产企业及公众对医疗器械不良事件监测工作的知晓度和熟悉度的不断提高,每年收集的医疗器械不良事件报告数量逐年增长,2016年,全年可疑医疗器械不良事件报告数已超过35万份。日益增长的报告数量和医疗器械本身的复杂性为进行及时分析发现可疑风险信号提出严峻的挑战,决定了一般常规性的预警方法无法完全满足其需求。例如通过设定警义、警限,以及报警区间来进行预警,未能考虑不良事件发生类型和不同医疗器械间的差异性对于MDR预警效果不佳。报告比例比法、报告比值比法、综合标准法、贝叶斯置信网络法等针对药品不良反应信号检测方法,也因医疗器械不良事件发生类型及缺少医疗器械专业术语标准库而不能直接应用于MDR预警。

为解决传统预警方法的不足,本文结合山东省药品不良反应监测中心医疗器械不良事件数据分析预警项目3年来的探索成果,将机器学习和数据挖掘技术应用到MDR预警研究中,依托国家食品药品监督管理局的医疗期器械信息数据库、山东省医疗器械不良事件报告和维基百科作为支持数据进行建模,为MDR风险预警问题提供了一种新方法。

1 相关技术原理介绍

1.1 word2vec

随着深度学习的发展[1-3],基于神经网络的自特征抽取的词向量表示方法越来越受工业界和学术界的关注。基于前人的对词语编码的研究,Mikolov等[4]在2013年提出了word2vec模型[5]用于计算词向量。word2vec模型利用词的上下文信息将一个词转化成一个低维稠密实数向量,越相似的词在向量空间中越相近。将词向量应用于自然语言处理非常成功,已经被广泛应用于中文分词[6-7]、POS Tagging[8]、情感分类[2-3,9]、句法依存分析[2,10]等,因学习到的词向量代表了词的语义,也可以用来做分类、聚类、也可以做词的相似度计算。

word2vec本质上来说就是一个矩阵分解的模型,简单地说,矩阵刻画了上下文的词的集合的相关情况[1]。对这个矩阵进行分解,只取每个词对应在隐含空间的向量,邻近的词之间关联很强,甚至可以通过一个词的上下文大概预测出中间那个词是什么。本文就是利用word2vec强大的词向量编码能力来实现文本信息的数值化,是进行文本数据挖掘的基础。

1.2 文本聚类

作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法[11-18]

1.3 链接挖掘

传统机器学习的处理对象是数据属性值。对多个属性值用向量来表示,而网络数据中的节点不是简单的统计上独立的采样点,节点之间存在着联系。因此,使用机器学习技术,需要考虑数据之间的关系。这给传统机器学习带来新的挑战,并产生了一个新兴的研究方向——链接挖掘[19-20]。通过对链接的分析,我们可以获得关于实例更丰富、更准确的信息。我们借助链接分析其在关系反应,量化结构之间优势,可以展示同品种不同企业或者注册证号之间的风险量化和关联。

2 MDR关键预警指标

2.1 批次优势

批次优势(odds)指标反应某一批次产品不良事件发生数量与平均批次产品发生不良事件数量的比值,用来度量某一批次产品为可疑风险信号的可能性。

其中,a为某一批次医疗器械不良事件报告数量;b为去除分子批次后平均批次报告数量;α为平滑因子,消除报告的自然增长趋势和周期趋势影响,如果知道企业每一批次产品数量信息可加上作为修正;β为窗口,对风险比较大的批次,重点关注邻近批次不良事件发生情况。

比如某一批次产品如果发生了不良事件较多,odds可以把它度量出来,根据经验,这个时候它邻近批次需要重点关注,窗口的概念即是实现对关键批次邻近批次信息的关注。窗口可以分为两种,一种是固定窗口,一种是滑动窗口,窗口在本文的介绍中是一个可以需改的参数。举例:数据库中涉及某一医疗器械产品批次为170102,170113,170114,170115,170415,170116,170117,170205, 如果通过预警发现170115是一个可疑风险信号,设定窗口为1,如果是固定窗口则关注批次为:170114,170116,如果是滑动窗口则关注批次为:170113,170114,170116,170117。

2.2 最大聚合度

最大聚合度(MDP)反应某一批次最多不良事件类型例次占所有不良事件例次的比例,反应了类型最多的不良事件占比。

举例:某一批次产品,发生不良事件10例,事件表现为A,B,C。A事件发生7例;B事件发生1例;C事件发生2例。

最大聚合度=7/(7+2+1)=0.7。

由上例中容易理解最大聚合体这个预警指标的含义,它代表了不良事件发生类型的聚集程度。最大聚合度指标的具体构建用到了自然语言处理word2vec词向量编码技术,将数值化后的文本通过聚类算法进行文本聚类,对各个类别报告数量进行统计然后计算最大聚合度。

Mi:某一不良事件类型发生数量;max(Mi):最大类不良事件报告数量。

2.3 聚合风险比

聚合风险比(ARR)的计算公式:

聚合风险是批次优势和最大聚合度两个指标的乘积,是对聚集性风险信号的综合度量指标。

2.4 优势比

优势比(OR)反应了同一产品不同生产企业或者不同注册证号发生某一不良事件优势相对于产品平均发生某一不良事件的优势[21]

n11:某企业产品(注册证号产品)发生某类型不良事件报告数量;n1:某企业产品(注册证号产品)发生不良事件报告数量;n*1:某产品发生某类型不良事件报告数量;n*:某产品发生不良事件报告数量。

3 MDR风险预警流程框架

医疗器械不良事件预警流程分为两个阶段:数据挖掘阶段和数据可视化阶段。在数据挖掘阶段,原始数据经过数据清洗、数据规整、数据转换、数据分析和数据挖掘等步骤构造出MDR预警指标,并将原始数据和预警指标进行关联。在数据可视化阶段,我们将预警指标通过条形图、网络图、气泡图、盒须图、词云图的形式展示,并赋予图形可交互的性能,方便医疗器械不良事件监测人员对预警风险信号进行初步筛查和验证。基于此思路,本文构建了基于机器学习、数据挖掘和数据可视化技术的MDR风险预警流程,见图1。

图1 基于机器学习技术的MDR风险预警流程

注:国家局数据库为国家食品药品监督管理局的医疗期器械信息数据库,不良事件报告是指山东省的医疗器械不良事件报告。

3.1 数据清洗

数据清洗这一步主要是删除一些逻辑性错误报告和医疗器械信息明显错误报告,例如:为降低后期数据处理的复杂度和预警的混杂,注册证号位数不对、产品和注册证信息不匹配、产品注册地和产品类别不匹配、产品注册有效期明显超期等产品信息存疑的报告将被删除。

3.2 数据转换

数据转换是指利用国家食品药品监督管理局的医疗期器械信息数据库建立映射规则,采用MYSQL数据库技术对原始数据中的医疗器械信息进行映射以实现原始报告中医疗器械信息的批量规整和标准化,采用VBA电子表格编程实现对批次优势、最大聚合度、聚合风险比、优势比等关键预警指标的构建。

3.3 数据建模

Word2vec技术实现对文本的编码,词向量编码是否能有效反应语义信息取决于模型的选择和语料库的选择,本文所使用的模型是Skip-Gram模型,构建语料库多是与医疗器械专业领域相关数据:国家食品药品监督管理总局发布的医疗器械召回信息、抽检不合格信息和警戒信息,山东省医疗器械不良事件报告和维基百科医学、药学、医疗器械相关百科数据作为支持语料进行建模,词向量语义编辑距离测试结果,见图2。

图2 word2vec词向量语义编辑距离测试结果

为寻找聚类方法和距离定义方式的最优组合,本文聚类方法选取了KMEANS聚类、DBSCAN聚类、层次聚类法和谱聚类4种方法,距离定义方式选取了欧式距离、曼哈顿距离、余弦夹角距离、相关系数和熵5种,对20种组合聚类结果人工观察与验证发现“KMEANS聚类+余弦夹角”和“层次聚类法+余弦夹角距离”组合聚类效果较优,考虑层次聚类算法拥有聚类前指定编辑距离阈值的优势,最终本文选取了“层次聚类法+余弦夹角距离”的方法。

3.4 建模结果的应用

建模结果的可视化展示,方便医疗器械监测人员从多个维度同时对一个风险信号进行评估,高效的发现假阳性和假阴性信号,同时弥补了传统预警结果不能交互式修改预警参数的缺陷,可根据监测、监管的需要进行回顾性分析及时验证医疗器械监测人员的经验假设。

去掉敏感信息后的聚集性风险信号预警可视化结果,见图3。气泡图反应了3个维度的信息,分别是聚合风险比,报告数量和风险信号打分,每个条形图反应了4个维度的信息,长度反应了风险信号涉及报告数量,宽度反应了odds值,颜色种类代表了报告单位,条形图上的数值代表了最大聚合度。建模结果使用过程如下:首先,气泡图和条形图是关联的,交互式气泡图可以对风险信号起到初筛作用,然后通过观察条形图4个维度信息可以进一步确定风险信号的等级,最后进一步查看条形图关联到每份报告的详细信息辅助医疗器械不良事件监测人员找出有价值风险信号并导出原始报告。据此流程进行聚集性风险信号的预警与传统预警方法相比可以提高人工分析验证风险信号的效率,也可以减少假阳性信号的出现。

图3 聚集性风险信号预警可视化展示

去掉敏感信息后的同品种不同注册证号不良事件对比可视化结果,见图4。图4a是社会网络分析图初始形态,通过对预警指标的调整而衍生出后面的4b~d等有价值的可视化图形。

图4 同品种不同注册证号不良事件对比可视化展示

图4b是关于不同注册证号多参数监护仪“黑屏”故障发生情况的分布图,图示中的连接边粗细反应了预警指标优势比值大小。图4c和图4d是关于某一注册证号婴儿培养箱独有不良事件发生情况的展示,图4c利用词云图的方式展示了独有不良事件表现的关键词,关键词的大小反应了独有不良事件的报告数量,图4d则是利用网络图的形式展示了婴儿培养箱不良事件故障表现、婴儿培养箱涉及注册证号个数、婴儿培养箱总体报告数量、独有不良事件占比等婴儿培养箱不良事件报告的相关信息。建模结果充分展示在图4b~d,不同注册证号(生产厂家)之间医疗器械不良事件的相同点和差异点得到清晰展示,据此设定阈值可以得到风险信号,修改阈值则可验证监测人员想法,辅助监测人员进行信号的筛选。

4 讨论

医疗器械不良事件报告数据库的定量风险信号预警工作正日益受到人们的重视,但目前仍处于探索阶段,尚无相关信号检测方法的金标准,各研究机构和监测机构罕有提出关于医疗器械不良事件信号检测方法。本文提出的基于机器学习和数据挖掘技术进行MDR风险预警的研究将定量风险信号预警方法应用于我国的医疗器械不良事件报告数据库能有效的发现上市后医疗器械存在风险。本次研究虽只采用了山东省医疗器械不良事件监测的数据,但鉴于各省市采用了统一的国家药品不良反应监测系统,因此本文所建立的方法完全可以做进一步推广。

本文提出的医疗器械不良事件风险预警方法仍有优化空间,结合本文研究效果期望来者在聚类算法的优化、非结构化数据预处理以及知识图谱、图模型、深度学习模型在预警工作中的应用上展开相关研究。

[参考文献]

[1] Ian Goodfellow.深度学习[M].北京:人民邮电出版社,2017.

[2] Socher R,Bauer J,Manning CD,et al.Parsing with compositional vector grammars[A].Meeting of the Association for Computational Linguistics[C].Bulgaria:Sofia,2013:455-465.

[3] Socher R,Perelygin A,Wu JY,et al.Recursive deep models for semantic compositionality over a sentiment treebank[A].Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)[C].American:Stanford,2013:1631-1642.

[4] Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Adv Neur Inform Proce Sys,2013,26(9):3111-3119.

[5] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space [A].International Conference on Learning Representations[C].American:Google,2013:1-12.

[6] Sun Y,Lin L,Yang N,et al.Radical-enhanced chinese character embedding[J].Lect Notes Comput Sci,2014,8835(1):279-286.

[7] Mansur M,Pei W,Chang B.Feature-based neural language model and Chinese word segmentation[A].International Joint Conference on Natural Language Processing (IJCNLP)[C].Japan:Nagoya,2013:127l-1277.

[8] Zheng X,Chen H,Xu T.Deep learning for chinese word segmentati-on and POS tagging[A].Conferenceon Empirical Methods in Natural Language Processing (EMNLP)[C].American:Seattle,2013:647-657.

[9] Tang D,Wei F,Yang N,et al.Learning sentiment-specific wordembedding for twitter sentiment classification[A].Proceedings of the 52ndAnnual Meeting of the Association for Computational Linguistics(ACL)[C].American:Baltimore,2014:1555-1565.

[10] Zhang M,Zhang Y,Che W,et al.Chinese parsing exploiting characters[A].Proceedings of the 51stAnnual Meeting of the Association for Computational Linguistics(ACL)[C].Bulgaria:Sofia,2013:125-134.

[11] 史忠植.知识发现[M].北京:清华大学出版社,2002.

[12] 宗成庆.统计自然语言处理[M].北京:清华大学出版社,2013.

[13] 周志华.机器学习[M].北京:清华大学出版社,2016.

[14] Jiawei H.数据挖掘:概念与技术[M].北京:机械工业出版社,2012.

[15] 李航.统计学习方法[M].北京:清华大学出版社,2012.

[16] 黑斯蒂.统计学习基础[M].广州:世界图书出版公司,2015.

[17] 郑泽宇,顾思宇.TensorFlow:实战Google深度学习框架[M].北京:电子工业出版社,2017.

[18] 黄文坚,唐源.TensorFlow实战[M].北京:电子工业出版社,2017.

[19] Getoor L.Link mining: a survey[J].ACM SIGKDD Explorations Newsletter,2005,7(2):3-12.

[20] Maksim T.社会网络分析:方法与实践[M].北京:机械工业出版社,2013.

[21] 张淑梅.属性数据分析引论[M].北京:高等教育出版社,2008.

 

Research on Early Warning of MDR Risk Based on Machine Learning and Data Mining Technology

DU Hongyang1, WU Shifu2, HUANG Lin2, DU Weihong1, Wangshuyu3
1.Adverse Drug Reaction Monitoring Center of Heze, Heze Shandong 274000, China; 2.Shandong Center for ADR Monitoring, Jinan Shandong 250012, China; 3.Heze Municipal Hospital, Heze Shandong 274000, China

Abstract:In view of the shortcomings of early warning function of medical device adverse events (MDR) in our country, combined with the exploration results of early warning project of MDR data of Shandong Province in the past three years, the machine learning and data mining techniques based on data cube into the field of warning of MDR were introduced firstly in this paper. Then the warning system framework of MDR based word2vec and Cluster analysis was proposed, and the analysis was carried out combined with the actual data of adverse event report of medical devices. According to actual needs, early warning can be realized from production enterprises, registration certificate number, product batch number, production date and other dimensions, which provides a new method for MDR risk early warning and decision support for medical device adverse event monitoring personnel.

Key words:risk warning; adverse events of medical device; machine learning; signal detection; data mining

[中图分类号]TP311.52

[文献标识码]C

doi:10.3969/j.issn.1674-1633.2018.07.038

[文章编号]1674-1633(2018)07-0138-04

收稿日期:2017-12-06

修回日期:2017-12-18

通讯作者:吴世福,主任药师,主要研究方向为医疗器械不良事件监测与再评价。

通讯作者邮箱:wushifu01@shandong.cn

 

本文编辑 王婷