人员管理对人工智能医疗器械用数据集质量的影响分析

王权,王浩,孟祥峰,刘艳珍,任海萍

中国食品药品检定研究院 光机电室,北京 100050

[摘 要]人工智能(Artificial Intelligence,AI)医疗器械是医疗器械新发展方向,其研发与质控需要高质量的数据集。人员是数据集的质量管理中的重要组成部分,对产品质量有直接的影响。本文结合人工智能医疗器械用数据集的建设过程和经验,分析了人员在各个环节对医疗影像AI数据集质量的影响,阐述了数据集建设与质控的过程中对人员管理(尤其是标注人员)的要求,例如选拔、评价和考核方面应当注意的因素,加强人员数据集的质控提出了建议。

[关键词] 医疗器械;质量控制;人员管理;人工智能;数据集

 

引言

人工智能近年来呈加速发展态势,在各个领域不断渗透,在医学+人工智能领域也有着比较大的突破,尤其是在医学影像与诊断方面涌现了许多算法和产品,声称计算机辅助诊断与探测,例如病灶检出[1]、疾病分类或分期[2-3]、病灶分割[4]等功能。人工智能医疗器械已成为医疗器械的新生力量,产品的质量评价与管理体系是监管科学急需解决的问题。质量管理方面的一个重要问题是人员如何管理。

目前,该类医疗器械大多使用深度学习[5]、卷积神经网络[6]等监督学习算法,决定了产业的发展需要高质量的数据集。数据集的建设需要在不同环节投入大量人力资源,比如原始数据的采集、数据入库前的筛选与审核、数据标注和数据管理等方面。虽然不同数据集的内容、特点、用途各不相同,各个环节的人员职能和要求也不一样,但人员管理对数据集质量管理的影响力是相似的,具有共性特征。

由于人工智能医疗器械行业的发展对数据集的需求很大,国内外临床机构[7]、科研院所[8]、企业[9]、政府部门[10]等不同团体在广泛开展数据集的建设,然而不同机构在人员资质、能力、组织、管理方面的差异容易导致数据集质量差异。这些差异可能使得同一产品在不同数据集上的性能表现差别巨大,对训练、优化、评价造成困惑,制约产品研发和行业发展。因此需要在人员管理方面加强研究,提高认识,以促进规范的形成。本文的主要研究内容是分析人员对数据集质量的影响,讨论加强人员管理的方法,从人员管理角度帮助提高人工智能医疗器械数据集的质量。

1 人员对数据集质量的影响

人工智能医疗器械用数据集的建设,按时间先后一般可分为四个阶段。人员活动对质量的影响按阶段分别描述如下。

1.1 数据采集阶段

人工智能医疗器械用的数据集一般以采集临床数据为主,其采集流程与临床试验相似,又可分为前瞻式和回顾式两种路径。前瞻式的数据采集路径意味着专业人员实际操作各种数据采集终端或仪器,在临床条件下采集未来患者的数据,例如医学影像、电生理、临床检验等。人员的操作能力、规范程度对数据质量有直接影响。以眼底图像彩照的采集为例,前瞻式路径需要专人操作眼底相机对招募的患者眼底进行拍照,由于临床阅片对照片的分辨率、视野、成像位置、曝光度有明确的要求,人员能否正确执行拍照规范将决定图像质量是否可接受。

回顾式的数据采集路径意味着从过去的临床试验或临床数据中抽取一部分成为数据集。参与抽样的人员必须对抽样方案、原始数据来源和特点有足够的理解,最好有统计学背景或接受培训,否则人员的随意抽样容易导致数据集的统计偏倚,危害数据集的质量。

1.2 数据审核

采集的临床数据在被数据集接收之前,需要专人对数据进行审核与分析,以确认数据的合规性、质量、容量、多样性、完整性等是否满足数据集的要求。这要求数据审核人员充分掌握临床法规、数据格式、统计维度、数据质量评价等要点。例如,对于胸部CT影像肺结节数据集的建设而言,如果数据审核人员不了解CT图像的标准格式,不了解各字段含义,那么将无法对DICOM字段中的关键信息进行审核,容易把未脱敏的数据、不可用的数据纳入数据集,从而带来质量隐患。

1.3 数据标注

数据集必须建立参考标准,需要标注人员对临床数据给出明确的疾病定性、分期、病灶位置、病灶区域分割、尺寸测量等信息。对于某些临床领域而言,临床金标准不容易获得,而标注人员的判断决定参考标准的质量。以胸部CT影像中的肺结节标注为例,由于临床条件限制和患者的意愿,通过穿刺活检获得每一个结节的病理切片是不现实的,病理金标准难以收集,此时参考标准主要基于标注医生对影像的分析。

人工智能医疗器械必须在标注正确的数据集上进行训练和特征提取,才有可能给出符合临床医生判断的辅助诊断结论。如果标注人员给出的参考标准偏离临床实际,将直接导致参考标准的偏倚,产品的性能可能无法满足临床需求,甚至出现系统性的偏差、漏诊、误诊等情况,这也是数据集质量的严重风险。

1.4 数据管理

数据集标注完成后,数据的归档、管理、分发等环节同样需要专人进行操作,管理人员对于数据安全、数据可用性有重要影响。例如,如果管理人员错误地对数据进行归档、命名、分组,容易造成数据分类的错误,或与参考标准矛盾,影响数据的正常使用。如果管理人员在存储方面操作混乱,缺乏溯源,有可能引起数据丢失或重复,也会造成数据集的质量隐患。管理人员的网络安全意识如果淡薄,可能造成数据泄露,这对于封闭测试集、尤其是第三方评测数据集将产生严重后果。

以上列举的种种问题,说明在数据集的建设过程中有必要重视和明晰人员管理,以保证数据集的质量。实际上,人员管理具有共性特征和要素,在下一节进行具体分析。

2 对人员管理要素的思考

由于人工智能医疗器械用的数据集较多使用临床数据,数据集的建设过程与临床试验存在很多相似之处。同时,人员管理作为人工智能医疗器械质量管理的一个子命题,可以借鉴医疗器械监管法规与质量管理标准的思想。从这两个角度出发,人员管理的要素可以概括为以下四个方面。

(1)合规管理。考虑到与临床试验(尤其是回顾式临床试验)的相似性,参与数据集建设的人员无论角色、分工、权限,都可能接触患者数据,其活动应当符合医学伦理、患者隐私保护、网络安全和其他相关法规的要求。这关系到数据集的合法性与合规性,因此合规管理是人员管理的首要内容和强制内容。

(2)能力管理。在数据集的建设中,人员的能力决定了预期目标的实现程度和效率,与最终的数据质量有直接关系,例如标注医生的能力会影响标注结果和参考标准的正确性,成像设备操作人员的能力会影响原始数据的可用性。人员的能力具体包含了人员的从业资质和执行任务的能力。人员能力管理是动态过程,贯穿于数据集建设的全过程,不仅要保证参与数据集建设的人员能力达到预设的要求,还要对人员能力的变化进行观测和控制,并提供及时的指导和干预。

(3)过程管理。数据集的建设是一个有组织有体系的工程,人员活动的效果不仅需要个人能力达标,还需要有效的过程管理,形成战斗力。在数据标注过程中,有效的过程管理尤为重要,能够充分调动人力资源,弥补个体差异和能力限制带来的影响,优化数据标注的决策过程和质量控制;反之会影响参考标准的正确性,降低数据集的使用价值。

(4)责任管理。根据医疗器械生产质量管理体系标准[11]ISO13485-2016的思想,人员管理还应该包含责任管理,使所有参与人员明确自身责任,并对所有人员的活动建立记录。责任管理是过程管理的基础,有助于保证人员活动的真实性和可追溯性,有助于对人员活动进行监控、反馈和纠正。

3 人员管理措施的实例分析

以上四要素概括了人员管理的共性特征,内容较为抽象,但在国内外数据集的建设实践中得到了体现。本节结合具体实例,讨论人员管理应当如何具体实施。

在合规管理方面,主要的措施包括对人员开展法律法规的教育、培训、考核等内容,并以技术手段提供保障。合规管理应当在数据集建设的早期进行。这方面的实例是美国的各种临床数据集建设。在美国,任何需要在工作中接触临床患者数据的人员首先会接受,健康保险携带和责任法案培训,通过考核后方可上岗,并且定期重新温习和考试,作为对患者隐私保护法规的强制培训,目的是保证患者隐私和患者数据不被泄露。同时,涉及患者数据的存储介质、网络访问也要求有严格的加密和权限约束。我国的网络安全法[12]已经实施,国家药监局在临床试验和计算机网络安全方面也发布了相关的法规和指导原则[13-15],建议用于数据集建设相关人员的合规性培训,并根据法规要求配备必要的技术资源,保障合规管理的有效性。

在能力管理方面,主要的措施包括资质审核、考试选拔、规范培训、工作表现监控和过程考核等内容。这方面的案例是英国,国家医疗服务体系)糖网筛查项目中对标注人员的能力管理[16]。英国是运用人工智能进行糖网筛查较早的国家,广泛开展眼底图像的标注,制定了标注质量管理规范。该规范在人员管理方面,要求参与标注的人员根据角色和分工考察职业资质,比如是否有医师执照;报名人员必须接受考试和培训,并讨论了考题的设计;正常工作人员每年有工作量的最低要求,以保证熟练程度;同时,在标注过程中对个人的表现进行监控,例如要求一定量的重复标注;考核不达标的人员可以接受再教育。这些措施从不同角度保证人员的能力,值得借鉴。国内数据集建设实践中,人员的能力管理应当综合国内外临床应用的标准、专家共识和其他指导文件进行设计。

在过程管理方面,主要的措施是明确角色、分工、组织和流程质控。英国的糖网筛查标注规范[16]在角色与分工方面同样提供了良好的参考。该规范把标注任务分成了四个等级,分别是第一级、第二级、仲裁级和转诊级。第一级主要标注健康的眼底图像;第二级主要标注能看到糖尿病视网膜病变的眼底图像;仲裁级主要对第一级和第二级标注人员之间的争议进行仲裁;转诊级主要对于糖网病变给出最终的转诊意见,是其中的最高级别。这种分级标注的机制考虑了不同标注人员在资质和经验方面的差别,同时也允许经过考核的标注人员扮演更高级别的角色。另一个案例是美国肺部影像数据库(Lung Imaging Database Consortium,LIDC)[17]。由于肺部CT每个病例的数据量较大且涉及三维,肺结节的标注相比眼底彩照复杂。根据临床文献报道,医生标注肺结节的个体差异不容忽视[18],因此LIDC的标注过程有四名医生同时背靠背进行一轮标注,然后进行合并。四名医生对合并之后的结果进行再次审核。这种交叉检查与集体决策的组织方式能够起到减少个体差异和提高病灶发现能力的作用。这两个案例表明,过程管理要与数据标注的具体工作和难点相匹配。

在责任管理方面,主要的措施包括领导机制、沟通机制、授权机制和活动记录的建立等。这些措施可以看作是对ISO13485-2016中关于责任、权力与沟通的大原则的细化。仍然以英国糖网筛查标注规范[16]为例,该规范从责任角度定义了四种重要角色,包括糖网筛查服务的提供者(类似于管理者代表,负责标注体系的建立和运行,对质量总体负责,对质量保证活动报告进行审核)、临床/标注领导者(负责执行和维持质量保证活动)、项目委员会(定期开会,监督重要的内部质量活动)、质量审核员(来自外部,对内部质量保证活动进行审核和确认)。同时,这四种角色的日常工作、标注人员的活动、不同角色之间的沟通与反馈、年度考核、人员选拔与晋升等都会形成记录以支持质量保证活动,也是重要的体系文件。其他数据集的建设,可以参照此方式进行人员责任的管理。

4 应用结果分析

上述措施中,能力管理工作较多依赖定量实验,有必要直观描述其过程和结果。本文以糖尿病视网膜病变(Diabetic Retinopathy,DR)标注为背景,举例说明能力管理的实施。标注内容是100张来自国内临床机构已脱敏的彩色眼底图像,具体分类包括:无明显异常、DR Ⅰ期、DR Ⅱ期、DR Ⅲ期、DR Ⅳ~Ⅵ期、其他眼底疾病和图像质量不可接受。糖网图像与其他图像等比例分布,其中糖网分期的依据是2014年临床诊疗指南[19]。参与比对的人员是47名临床医生,职称为主治医生及以上,来自全国的32家医院。

试验分为初测、培训、复测等三个步骤。标注人员的任务是在规定时间内给出所有图像的病种分类,当分类与专家团队给出的参考标准一致时得分。考试成绩以分类准确率来描述,定义为分类正确的图像数量/总图像数量。人员和数据之间保持双盲。在初测阶段,47名医生的考试成绩的直方图,见图1,可见人员之间的差异比较明显。这里要注意,初测成绩的差异实际上由分类能力和分类速度的差异共同决定,主要体现本试验限定条件下的人员比对,不能完全代表医生日常临床工作状态。

在培训阶段,由临床读片中心的专家对初测成绩最好的21名医生进行集中培训。培训内容包含标注软件的操作以及糖网各分期细节特征的识别。在复测阶段,对每个医生的准确率重新进行评估。为降低记忆偏倚的影响,复测与初测时间间隔一周以上,且对其中20%图像进行更新(主要是DR图像的更新)。在DR图像的分类准确率方面,复测结果与初测结果的比较,见图2的箱线图所示。使用t检验可以证明培训后准确率有了显著的提升(α=0.05)。平均准确率由81%提高至85%,说明了人员培训对提升数据标注质量和进而提升数据集质量的必要性。

图1 初测阶段的分类准确率

图2 培训前后DR分类准确率对比图

5 讨论与总结

本文依托于国内外影像类人工智能医疗器械数据集建设和质控工作的实际,分析了人员对于数据质量的影响,提炼了人员管理的共性要素,并结合实例讲解了人员管理的实施方式。由于人工智能医疗器械的多样性和数据的多样性,数据集的建设和质量管理具有很强的个性化。因此,人员管理工作要注意实事求是,根据具体预期用途和问题特征进行细节设计。另外,人工智能医疗器械数据集除了临床数据之外,也可以引入仿真模型、体模、非临床条件下的受试者试验等多种来源,对人员的要求和管理可以参考本文的思路来进行,但临床特色相对弱化,需要根据数据来源进行调整。

总的来说,本文的工作可看作是基础共性意义上的参考,下一步有必要针对具体应用领域深入研究更多规范细节,以帮助人工智能医疗器械各专业方向上具体数据集的建设和质控。

[参考文献]

[1] Setio AAA,Traverso A,de Bel T,et al.Validation, comparison,and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: The LUNA16 challenge[J].Med Image Anal,2017,42:1-13.

[2] Gulshan V,Peng L,Coram M.Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs[J].JAMA,2016,316:2402.

[3] van der Heijden AA,Abramoff MD,Verbraak F,et al.Validation of automated screening for referable diabetic retinopathy with the IDx-DR device in the Hoorn Diabetes Care System[J].Acta Ophthalmol,2018,96:63-68.

[4] Becker AS,Marcon M,Ghafoor S,et al.Deep learning in mammography: diagnostic accuracy of a multipurpose image analysis software in the detection of breast cancer[J].Invest Radiol,2017,52:434-440.

[5] Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521:436.

[6] Hinton GE,Salakhutdinov R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504-507.

[7] Decenciere E,Zhang X,Cazuguel G,et al.Feedback on a publicly distributed image database: the Messidor database[J].Image Anal Stereol,2014,33:231-234.

[8] Moody GB,Mark RG.The MIT-BIH arrhythmia database on CD-ROM and software for use with it[J].Comput Cardiol Confer,1990:185-188.

[9] Gulshan V,Peng L,Coram M,et al.Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs[J].JAMA,2016,316:2402-2410.

[10] Tufail A,Rudisill C,Egan C,et al.Automated diabetic retinopathy image assessment software: diagnostic accuracy and cost-effectiveness compared with human graders[J].Ophthalmology,2017,124:343-351.

[11] ISO.Medical devices—Quality management systems—Requirements for regulatory purposes[S].2016.

[12] 全国人民代表大会常务委员会.中华人民共和国网络安全法[R].2016.

[13] 国家食品药品监督管理总局.临床试验数据管理工作技术指南[R].2016.

[14] 原国家食品药品监督管理总局.医疗器械网络安全注册技术审查指导原则[R].2017.

[15] 原国家食品药品监督管理总局.医疗器械临床试验设计指导原则[R].2018.

[16] Ma XZ,Han S,Bei YU,et al.The grading management of the quality assurance[J].Nucl Safety,2009.

[17] Armato SG,McLennan G,Bidaut L,et al.The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on CT scans[J].Med Phys,2011,38:915-931.

[18] Leader JK,Warfel TE,Fuhrman CR,et al.Pulmonary nodule detection with low-dose CT of the lung: agreement among radiologists[J].Am J Roentgenol,2005,185:973-978.

[19] 中华医学会眼科学会眼底病学组.我国糖尿病视网膜病变临床诊疗指南[J].中华眼科杂志,2017,50(15):851-865.

 

Analysis of Personnel Management on the Quality of Datasets for Artificial Intelligence Medical Device

WANG Quan, WANG Hao, MENG Xiangfeng, LIU Yanzhen, REN Haiping
Division of Active Medical Device and Medical Optics, National Institutes for Food and Drug Control, Beijing 100050, China

Abstract:Novel medical device driven by artificial intelligence (AI) is developing fast. The research, development and quality control activities need clinical datasets with high quality. Human factor is an important element in the quality management of datasets, which has significant impact on the quality of AI medical device. With reference to practical experience during construction of datasets for AI, we discussed the impact of personnel on the quality of medical AI datasets and described the requirement on personnel management, such as issues with qualification, evaluation and examination, further providing advice for quality control of datasets from the perspective of human factor.

Key words:medical device; quality control; human factor; artificial intelligence; dataset

收稿日期:2018-10-09

修回日期:2018-11-20

基金项目:国家重点研发计划项目(2016YFC0107100);体育总局重点课题联合中国红十字基金会燎原基金项目(2015B101)。

通讯作者:任海萍,博士,主要研究方向为生物医学工程和医疗器械检定。

通讯作者邮箱:renhaiping@nifdc.org.cn

[中图分类号]TP181;TH772;TH776

[文献标识码] A

doi:10.3969/j.issn.1674-1633.2018.12.002

[文章编号] 1674-1633(2018)12-006-04

本文编辑 王静