专论——人工智能医疗器械质量评价探索 编者按:人工智能近来在医疗健康领域展现了卓越的技术实力和发展前景,国内外都有大量产品进入市场转化阶段。作为医疗器械的新兴分支,国内外目前没有人工智能医疗器械的评价标准,而此类产品的黑盒特性和快速迭代特性,对医疗器械质量评价和监管提出了新的挑战。为了更好地服务行业发展和支撑监管需求,中国食品药品检定研究院进行了一些卓有成效的探索,建成了糖尿病视网膜病变眼底图像、肺结节CT影像这两个标准测试集,用于质量评价实践,并初步建立了以标准测试集为主、对抗测试等其他方法为辅的技术保障体系。本专栏特邀该团队介绍研究认识和成果。 栏目主编:任海萍 任海萍,博士,中国食品药品检定研究院光机电医疗器械检验室主任,从事十余年注册检验和国家监督抽验工作。主要研究方向为有源医疗器械、医用软件的检测及质量控制,检验经验丰富。正在或曾主持和参加国家支撑项目、国家自然科学基金、国家重点研发计划课题等多项科学研究,在国内外期刊上共发表论文100余篇。全国医用电器标准化技术委员会委员,全国医学计量技术委员会委员。 人工智能医疗器械用数据集管理与评价方法研究
引言近年来,在计算科学与半导体工艺高速发展的推动下,人工智能技术在医疗器械领域取得一系列重要学术成果[1-12],加速推动人工智能医疗器械产业的发展。我国也有大批产品进入技术转化和准备注册上市的阶段,而产品评价与监管目前尚无国际和国内标准,其中急需研究的问题之一,是数据集的质量评价与管理。 人工智能医疗器械较多采用监督学习的算法设计,产品的全生命周期都离不开高质量带标注的医学数据集。在研发阶段,研发人员从训练集中提取特征,形成算法模型。在验证阶段,研发人员使用另一部分数据(验证集)对算法模型进行验证、迭代和优化,形成终产品。在产品评价阶段,参考国外监管机构(例如美国食品药品监督管理局)的经验,产品的性能评价需要在封闭测试集上进行。产品上市后,其部署与运行的验证与确认、产品再评价等活动也依托数据开展测试。简而言之,数据集扮演着原材料、质控品等多种关键角色,其质量对于产品质量有重要影响。 目前,业内对于数据集的需求旺盛,随着产品预期用途不断增加,对数据集在病种、数据格式、标注细节、规模等方面的要求也越来越复杂,缺口很大,由少数机构开展数据集建设无法及时满足行业需求,有必要鼓励全社会力量开发数据集,包括用于研发的公开训练集、用于监管的标准测试集或第三方测评数据集等,也符合国外呼吁大规模开发数据以服务监管的潮流[13]。在这种背景下,数据集的质量管理需要建立统一的标准和规范,指导参与数据集建设的各方力量共同提高数据质量,化解风险,最终保障产品的有效性与安全性。 人工智能医疗器械用数据集的质量管理需要依托体系进行,有待细化明确,缺乏标准。它一方面可以借鉴信息技术领域数据治理[14-16]的宏观框架与思路,但医疗器械行业的特殊性需要具体体现;另一方面,原国家食品药品监督管理总局在2016年发布了《临床试验数据管理工作技术指南》《医疗器械临床试验质量管理规范》两个重要文件,也具有一定的参考价值,但不完全体现人工智能产品对数据集的专有要求。 在结合检验用标准测试集的建设经验基础上,本文提出了一套人工智能医疗器械用数据集管理与评价设计具体方案,以帮助明确数据集质量管理体系的建设,促进人工智能医疗器械用数据集发展的规范化,推动行业有序发掘医学数据资源,更好地辅助对人工智能医疗器械的质量监管。 1 人工智能医疗器械用数据集的常见质量问题一般来说,数据集相关活动包含五个主要阶段:数据集设计、数据收集、数据标注、数据归档、数据管理。在不同阶段,质量问题的表现形式不同。 1.1 数据集设计数据集的设计工作一般包含预期代表的患者群体、场景、人数、病种比例、数据来源等基本内容的确定。数据集设计阶段的主要质量风险有以下几种。 (1)数据偏倚。数据集在统计意义上出现偏倚,不能充分覆盖产品预期临床使用的各种多样性因素。例如,当数据集中的患者病例太低,健康人比例太高,就会导致抽样偏倚,结果是产品训练中学习的患者特征偏少,难以识别更多患者的病情。 (2)样本量过低。容易导致抽样误差过大,对产品性能的估计不准。随着数据量的增加,算法性能的波动可能较大,对研发与改进造成困惑。 (3)数据陈旧。如果训练集或测试集的数据采集时间距离当前较远,那么无论是硬件设备技术水平、数据质量还是当时医生标注的原则和水平,都难以保证与现状一致,从而可能导致产品性能的系统性偏差。 1.2 数据收集数据集应当收集由伦理委员会批准或脱敏后豁免的临床数据,满足我国相关法律法规要求。数据集的收集阶段容易出现的质量风险包括数据造假、数据重复、数据不完整、数据不可用、数据未授权使用、数据来源无法追溯等情况。 1.3 数据标注数据标注的准确性决定了数据集的使用价值。标注阶段的风险主要体现在一致性方面。数据标注在某些条件下无法调用医学金标准,而只能采取其他手段建立参考标准,例如肺结节CT影像的标注不可能对患者的每一个结节都做活检和病理,而通常采用医生阅片。此时,医生阅片的标准、资质、操作流程、决策过程都有可能导致标注结果的系统性偏差,使不同机构对相同数据的标注理解不一致,引起困惑与争议。 1.4 数据归档数据归档是数据标注完成后进行盲态审核,将数据检查整理入库的过程,其风险体现在人为操作失误、记录不全等。仍以肺结节CT影像为例,病例入库前如果未经审核,有可能把标注阶段的误操作当做最终标注结果。病例入库前如果只记录了最终标注结果,而丢失标注人员、历史结论等记录,那么当最终标注结果出现争议时,无法回溯原始标注者进行分析和解决。 1.5 数据管理数据管理包含数据集存储、分发、使用、扩容、更新、删减等活动。数据管理的质量风险体现在数据流转的方方面面,如数据泄露、数据误修改/误删除/误增加等,与网络安全、隐私保护方面的法规和数据集本身的重复性都有关系。 2 人工智能医疗器械用数据集管理与评价的原则根据前一节的问题分析,建议数据集质量管理与评价的基本原则至少应包括以下九点。 (1)真实性。数据及其附属文件、标注结果应当是真实可信,不得出现伪造、篡改、拼接、盗用、重复等情况,贯穿于数据流转的全过程,需要必要的审核与记录。 (2)完整性。数据应当包含完整的病理生理信息,保证临床诊断或标注的有效性和可靠性,在收集阶段应当进行审核。以肺部CT影像为例,图像应能覆盖需要诊断的整个肺段,否则将影响人工标注和机器学习过程。 (3)可用性。数据应当以标准格式存储,能被正常读取和分析,不得出现源文件、头文件、数据字典、元数据等不可识别的情况,在收集阶段同样需要审核与记录。 (4)合规性。数据应当符合网络安全法律法规、医疗器械法规和其他相关法规的要求,临床数据必须得到伦理委员会的批准并且脱敏后方可入库。合规性也是贯穿始终的要求,在收集阶段进行重点把关,剔除不合规的数据;在全过程里保护好患者隐私。 (5)可追溯性。数据全生命周期内的一切行为必须可追溯,包括伦理批准、采集、预处理、标注、管理、分发、使用、数据质疑、数据稽查、更新等环节。加强可追溯性,必须建立完备的质量管理体系文件,在下一节中会详细介绍。 (6)临床代表性。数据集应具有临床代表意义的描述,明确数据集的统计指标、预期场景、患者人群分布和适用范围等关键属性,明确对统计偏倚的评估与控制。临床代表性应当在设计阶段提出预期目标,并在数据归档后进行确认;如果归档后不符合预期,应采取改进或纠正措施。 (7)时效性。应当描述数据采集、标注、管理、使用的时效性,明确与现行医疗器械标准、医学标注标准的依从性,定义数据存储与使用的有效期和数据更新周期。例如记录采集数据的时间就是时效性的一种体现,便于追溯采集时刻的技术现状和医学认识。 (8)安全性。应当确保患者隐私、数据完整性、使用权限的安全,防止数据泄露、数据篡改、数据丢失,以文件形式记录脱敏、网络安全、物理隔离等关键措施。安全性与合规性存在一定的交集,例如患者隐私保护,但更多是对数据集所在软硬件平台提出的要求,有必要对安全性措施进行描述。数据集的安全性设计应当与预期用途相匹配。例如,用于第三方评测产品的数据集应当保证其保密性和独立性,要求有效的隔离措施,严防数据泄露和未授权访问;而用于共享的训练数据集,则应该在开放的网络环境下考虑安全性。 (9)一致性。数据标注应当符合医学标准或专家共识,保证参考标准的一致性。前一节在数据分类和比例分布方面汇总的问题,体现了一致性原则的重要性。一致性原则也决定了不同渠道、不同机构建立的数据集能否相互兼容、合并使用。 数据管理体系应围绕以上原则建立标准操作规程(Standard Operation Procedure,SOP),维持有效运行。该体系的设计在下一节进行介绍。 3 数据管理体系设计3.1 人员与职能划分数据质量管理体系需要明确的组织机构,实行专人负责,各司其职。一般来说,应当有扮演如下角色的人员:① 负责领导、监督和维护整个数据质量管理体系的管理者代表;② 负责在技术层面具体设计规则和流程、参与开发、评估和改进数据集质量的研究者;③ 负责提供医学参考标准、控制标注质量的标注人员;④ 负责对质量体系进行内部审查、对数据质量问题开展纠正和预防措施的审查员;⑤ 负责在数据入库前进行确认和审核、在数据入库后进行日常管理维护的数据管理员。 总体说来,人员的要求与一般医疗器械的质量管理体系类似。这里要特殊重点强调的是对标注人员的要求。标注人员决定数据的标注质量,应当按照其在标注决策中的角色规定其基本的职业资格(例如普通标注医生可以是中级职称,而标注审核专家应当是副高及以上);标注能力应当通过考核(例如病灶检出的精确度、疾病分类的准确率、病灶分割的交并比等);标注前应当进行统一培训。在标注过程中,研究者还需要对标注人员之间的一致性和自身的一致性进行评价与控制。为避免记忆偏倚和保持公正,标注过程设计应注意盲态,标注人员不应当与数据集有利益相关,属于中立的技术人员。 3.2 设备与工具要求数据管理体系的运行需要借助于数据清洗、标注、存储、抽样等软件系统,而软件功能的确认需要使用仿真模型、体模等工具。这些软硬件资源统称为设备与工具,影响数据的准确性、时效性和可追溯性,因此建议对它们的设计、修改、验证、确认等活动建立文件记录,包括但不限于软件版本号、型号、测试用例、硬件设备与体模型号、序列号、生产厂家、计量状态、原始试验记录、操作人员、日期等流程信息。设备与工具的功能描述、性能指标、不确定度等衡量有效性的信息应当形成报告。 3.3 流程控制与文件要求在适用的前提下,建议数据质量管理体系在以下14个方面形成文件记录,相关操作形成SOP,并将测试与验证结果整理成研究报告。每个方面应当重视的要点描述如下。 (1)标注结果报告与输出。应当真实记录源文件出处、最终标注结论、人员信息、标注人员和初始结论、审核人员的审核与仲裁结果,标注软件版本信息、标注日期,保持标注过程的可追溯。以眼底影像公开数据库EyePACS为例,Cuadros等[17]介绍了其建库采用的协议和数据库的输出,包括标注结果的记录格式、电子报告系统等信息,考虑了病变严重程度、图像质量、标注过程等因素,对结果记录内容给出了详细的解释,值得借鉴。 (2) 数据库的设计输入。应当把建库方案形成书面报告,描述数据集预期目标、多样性设计、代表人群、病种分布、容量要求、分类标准、病灶定义、数据格式、质量控制方法等关键信息,作为评价数据管理体系依从性的参考。以肺结节数据库(The Lung Image Database Consortium,LIDC)为例,Armato等[18]介绍了其设计出发点、数据来源、成像设备与配置多样性的分析、结节的分类与分布、结节标注流程与示例、影像及标注数据格式、质量控制等内容,向用户阐明了库的设计定位,以方便基于库的研究结果的可比性。 (3)数据接收与录入。应当将数据收集、数据清洗、伦理批件确认、脱敏确认、数据查重等主要操作形成SOP,对数据来源医院、采集设备、采集参数配置、脱敏的患者信息等建立记录,对用到的软件工具形成测试记录。这些记录能够有效地帮助数据集的管理人员了解数据的多样性,解决医院、设备、配置方面的偏倚问题。 (4)数据核查。应当建立内部数据核查SOP,对人员资质、设备和工具进行确认,对过程记录进行审核,对数据完整性、合规性进行检查,对核查结果形成工作报告,对发现的问题建立纠正与预防SOP。 (5)数据质疑的管理。应当记录原始数据信息、质疑内容、发起人、标注人员信息与原始结论、仲裁人员信息与原始结论、数据再确认与修正结论,并以SOP形式规范纠正与预防程序。 (6)数据更改记录。应当对一切数据更改做好记录,包括但不限于原始文件信息、更改内容、操作人员、操作时间、更改工具/方式、更改原因,对更改前后的数据做好备份,对规范和约束数据更改建立SOP。 (7)医学标注规则与流程记录。应当对标注方案、人员考核与选拔方案、标注与决策流程设计形成SOP,对标注标准的确立形成研究报告,对标注工具的确认形成测试报告。同样以LIDC为例,肺结节的标注分为盲读和非盲读两个阶段实施。组织方解释了标注流程设计逻辑,向标注医生提供了详细的书面操作说明,对医生的操作规程、标注决策过程、使用的标注软件信息进行了记录,具有参考价值。 (8)标注方案与结果变更。应当以书面形式对发生变更的必要性进行解释,对变更前的数据和结果做好备份和记录,对变更前后的数据结果做好匹配与比对,对变更流程建立SOP。 (9)外部数据审核。使用外部数据进行研发的企业应当建立外部数据供应商审核SOP,对供应商的资质、能力和数据质量进行检查,以过程审核、文件记录审核、抽样检查等方式进行,并形成工作报告。 (10)盲态审核。应当对数据集的盲态管理与盲态审核建立SOP,在数据标注完成后对数据人群划分进行统计分析,对入组病例进行确认,防止对某些数据进行随意的剔除。 (11)数据库锁定。应当建立SOP保证数据库的锁定机制,防止误操作、误修改、误删除和未授权的访问,保证数据库在扩充、更新、删减过程中的数据完整性与可追溯性。 (12)数据备份与恢复。应当建立数据备份与恢复SOP,记录数据备份的时间、内容、操作人员、操作时间、存储位置、原因,对数据恢复的有效性和数据完整性进行评估并形成报告。 (13)数据存储与分发。应当建立数据存储与分发SOP,建立权限管理记录、数据使用记录、数据分发记录(作为公开训练集),对存储与分发用的计算机系统进行验证与确认,形成记录。以眼底图像公开数据库Messidor为例[19],作为公开训练库,组织方对于用户的访问请求、网站浏览记录、下载记录和文献引用记录建立了完整的追溯,对于数据的分发管理起到了一定的示范作用。 (14)数据隔离与网络安全。应当形成数据隔离与网络安全SOP,明确测试集的物理隔离机制、数据审计、数据加密,保证测试集的封闭性和独立性;明确公开训练集与验证集的网络安全机制,防止未授权访问。对数据的脱敏和患者隐私保护的有效性进行评估,形成评估报告。仍然以EyePACS[17]为例,作为公开训练集,数据存储的网络平台要求对个人用户、临床机构用户设立用户和密码,以保证数据访问的安全性。 3.4 质量控制与质量保证人工智能医疗器械生产企业应当建立质量保证与质量控制机制,保证九大原则的实现。 质量控制指的是质量保证系统内所采取的操作技术和活动,以查证数据符合质量要求。质量控制主要体现在人员资质考核、设备与工具确认、计算机系统有效性与可靠性、内部或第三方审查、过程质控和实时在线质控5个方面,应当以测试验证计划与记录、研究报告、审查报告等形式归档。质量控制的实施可参照临床试验数据管理方案。 质量保证是为确保数据质量符合监管要求和九大原则而建立的所有有计划、成体系的行为,主要包括标准操作规程SOP的建立、数据稽查、纠正与预防措施三个主要步骤。SOP的建立在前文已有介绍。数据稽查工作覆盖数据的全生命周期,由不直接参与研究的人员对数据集是否符合质量管理体系开展系统性检查,主要考察入库数据与源数据的一致性、数据管理的合规性和数据完整性,检查对象是与数据管理过程有关的所有研究报告、数据集的统计分析报告和数据本身。 4 总结本文分析了数据集在不同阶段存在的质量风险,以问题为导向提炼了人工智能医疗器械用数据集质量管理体系建设的主要原则,对各个环节的运作提出了具体的建议,尽量贴近行业现状和监管需求。本方案既包含对企业自行建设数据集的要求,也适用于社会公开训练集、封闭测试集的质量管理,有助于促进医学大数据的开放利用,有助于支持人工智能医疗器械上下游的研发与监管活动。 [1] Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,436. [2] Lindholm E,Nickolls J,Oberman S,et al.NVIDIA Tesla:a unified graphics and computing architecture[J].IEEE Micro,2008,28(2):39-55. [3] Becker AS,Marcon M,Ghafoor S,et al.Deep learning in mammography: diagnostic accuracy of a multipurpose image analysis software in the detection of breast cancer[J].Invest Radiol,2017,52(7):434. [4] Esteva A,Kuprel B,Novoa RA,et al.Dermatologist-level classification of skin cancer with deep neural networks[J].Nature,2017,542:115-118. [5] Lee H,Tajmir S,Lee J.Fully automated deep learning system for bone age assessment[J].J Digit Imaging,2017,30:427. [6] Setio AAA,Traverso A,de Bel T,et al.Validation, comparison,and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: The LUNA16 challenge[J].Med Image Anal,2017,42:1-13. [7] Tufail A,Rudisill C,Egan C,et al.Automated diabetic retinopathy image assessment software: diagnostic accuracy and cost-effectiveness compared with human graders[J].Ophthalmology,2017,124:343-351. [8] Wang X,Peng Y,Lu L,et al.Chest X-ray 8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[A].2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C].2017:3462-3471. [9] Kermany DS,Goldbaum M,Cai W,et al.Identifying medical diagnoses and treatable diseases by image-based deep learning[J].Cell,2018,172:1122-1132. [10] Heijden AAVD,Abramoff MD,Verbraak F.Validation of automated screening for referable diabetic retinopathy with the IDx-DR device in the hoorn diabetes care system[J].Acta Ophthalmol,2017,96(1):63. [11] Pereira S,Pinto A,Alves V,et al.Brain tumor segmentation using convolutional neural networks in MRI images[J].IEEE T Med Imaging,2016,35(5):1240-1251. [12] Rahhal MMA,Bazi Y,Alhichri H,et al.Deep learning approach for active classification of electrocardiogram signals[J].Inform Sci,2016,345:340-354. [13] US Food and Drug.Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices[EB/OL].2017. [14] Calder A.ISO/IEC 38500: The IT Governance Standard[M].USA:IT Governance Publishing,2008. [15] Peterson R.Crafting information technology governance[J].Inform Syst Manage,2004,21(4):7-22. [16] GB/T 34960.5-2018,信息技术服务治理第5部分:数据治理规范[S].中国国家标准化管理委员会,2018. [17] Cuadros J,Bresnick G.EyePACS: an adaptable telemedicine system for diabetic retinopathy screening[J].J Diabetes Sci Technol,2009,3(3):509. [18] Armato S,Mclennan G,Mcnitt-Gray M,et al.WE-B-201B-02:The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed public database of CT scans for lung nodule analysis[J].Med Phys,2010,37(6):3416-3417. [19] Decenciere E,Zhang X,Cazuguel G.Feedbace on a publicly distributed image database: the messidor database[J].Image Anal Stereol,2014,33(3):231-234.
Strategy for Management and Quality Control of Datasets in Artificial Intelligence Medical Device |