人工智能在儿童骨龄影像检测中的应用

人工智能在儿童骨龄影像检测中的应用

孙梦莎1,丁永红1,颜子夜1,2,苏晓鸣1

1. 杭州依图医疗技术有限公司,浙江 杭州 310012;2. 上海市医学影像与知识图谱人工智能重点实验室,上海 200051

[摘 要] 目的 研究对比证明解决人工判读骨龄存在耗时长、人为主观影响大、结果一致性稳定性差等问题。方法 使用G-P图谱法、TW计分法、中华05等方法对骨龄X光影像进行对照,开展人工智能和人工判读、以及人工智能辅助人工判读的研究,并进行多阅片者间差异性研究。结果 基于TW3标准,250份儿童骨龄片由人工智能系统与医生对比,TW3-AI模型的平均处理时间为1.5±0.2 s,明显短于医生的525.6±55.5 s,准确性与可靠性上TW3-AI模型与专家判读结果的均方根为0.50年,表明两者高度一致;基于G-P标准,745份生长发育异常病例骨龄,医生平均判读耗时约2 min,AI模型仅需要1~2 s,准确性上,AI系统与金标准相差1岁以内的平均比例为84.60%;基于中华05标准,人工组阅片平均耗时明显高于AI一致性辅助评估。结论 儿童骨龄智能检测系统,可在秒级完成儿童骨龄影像分析并给出骨化中心评级、骨龄等量化结果,从而辅助医生快速进行疾病诊断与疗效评价,为儿童内分泌疾病诊疗提供决策依据。

[关键词]儿童内分泌疾病;儿童骨龄;辅助诊断;人工智能

引言

近年来,儿童超重肥胖问题日渐突出,儿童性早熟患病率逐年上升,发育迟缓患病率仍需进一步降低。中国居民营养与慢性病状况报告(2020年)显示,6~17岁及6岁以下青少年儿童超重肥胖率分别达到19%和10.4%[1]。这些小儿内分泌问题的发生与遗传、环境因素以及生活方式有密切关系,若不及时治疗,会给患儿体格发育、心理发育、就业、婚姻等带来许多不良影响。而诊断该类疾病的关键指标之一就是骨龄,但是现有骨龄评估方法在效率、准确上还存在不足,制约了骨龄检测在临床的广泛应用。

随着人工智能技术的快速发展,图像识别相关的人工智能技术在医学影像领域内得到了深度应用,例如糖尿病眼底视网膜病变,乳腺癌淋巴结转移的早期预警和皮肤癌的分类等[2-3]。在骨龄检测领域,2018年RSNA骨龄机器学习挑战赛中,数十名挑战者上传了模型,证明AI在做出准确而省时的预测上具有巨大潜力[4]。斯坦福医学院的一项研究也表明,深度学习卷积神经网络模型对儿童骨龄成熟度评估的准确性与放射科专家相似[5]

1 儿童骨龄定义及测量方法

1.1 骨龄定义

骨龄是通过评估骨骼在不同阶段的不同发育形态,以年龄的形式、以岁为单位进行表达的生物学年龄。儿科医生和内分泌学家认为骨龄可以反映孩子的生物学年龄,并且是从出生到成年常规使用的唯一独立生物学成熟度指标[6]。检查骨龄仅需拍摄左手(包含全掌和腕部)X光正位片,有效辐射剂量小于0.00012 mSv,对儿童非常安全[6-7]

许多因素影响骨骼发育的进程,包括营养、遗传、激素和疾病状态等[6]。与日历年龄相比,骨龄与身体发育的许多指标(例如生长速度、初潮、肌肉质量、骨矿物质质量)具备更强的相关性,更能准确反应儿童及青少年生长发育实际情况[8]。患有发育迟缓、生长激素缺乏、甲状腺功能减退、营养不良等疾病的儿童,骨龄通常落后于年龄;患有性早熟、先天性肾上腺增生、超重肥胖等疾病的儿童,骨龄通常提前于年龄[9-10]。因此通过检测骨龄可以及早了解儿童的生长发育潜力以及性成熟趋势,对于一些内分泌疾病的诊疗具有很大的指导意义。接受治疗的内分泌疾病患儿,需要每半年或一年到院监测骨龄以评估疗效。除临床诊断外,在体育科研领域,骨龄是预测运动员发育的关键指标[11-12];在法医学领域,骨龄作为鉴定年龄的重要手段,有助于精准量刑[13]

1.2 儿童骨龄检测方法

骨龄的评价方法主要有计数法、图谱法和计分法三种:① 计数法通过计算腕部骨化中心数目推算骨龄,误差较大,且需要多部位摄片,增加了辐射剂量,目前几乎不再使用;②Greulich-Pyle(G-P)图谱法,是将被检者的手腕部X光片与标准Ⅹ光片图谱比较(标准图谱代表该年龄儿童的平均水平),以最相像的标准片作为被检者的骨龄。目前该方法在全世界使用最为广泛,但图谱法精度只能精确到半年至一年,主观性强。研究表明,同一个阅片者采用G-P图谱法进行两次读片,两次骨龄差异可达0.89岁,不同阅片者之间对同一骨龄片评定骨龄的差异可达1.25岁[14-16];③Tanner-Whitehouse(TW)计分法,根据手腕部20个骨化中心的出现及形态改变进行成熟度评级,计算评分总和得出骨龄TW法操作繁琐,需要进行专业训练,使用起来非常耗时,判读一张骨龄片至少需要20 min。因此,当前的骨龄判读存在以下几个挑战:

(1)骨龄判读耗时长,儿科医生资源少,难以进行精细化判读。国内儿科医疗资源紧缺,只有极少数医生有精力开展精准骨龄检测。

(2)主观因素影响大,难以精准评估发育状况。由于医生之间阅片经验与能力的差异,判读结果一致性不佳;同一位医生对于同一张片子前后判读结果、不同医生之间判读结果均有差异。

(3)随访过程长,难以准确追踪疗效。对于生长发育异常的儿童,需要每半年或者一年时间进行骨龄复查,追踪其疗效,但是骨龄历次变化细微,没有专业追踪随访工具以及严谨的评价标准,很难准确追踪其临床疗效(图1)。

图1 一名生长激素不完全缺乏儿童,在接受生长激素治疗后,每半年的骨龄复查图像。

注:骨龄检测时间:a. 2016年9月;b. 2017年3月;c. 2017年9月;d. 2018年3月。骨龄历次变化细微,AI系统TW3结果:a. 8岁6月;b. 8岁9月;c. 9岁6月;d. 9岁9月。若医生使用G-P图谱法,则无法得到精确到月的结果以准确评估疗效;若人工使用TW3法,则需耗费20 min且存在主观性。因此需要智能化的骨龄辅助判读工具。

(4)国内儿童发育状况变化大,参考人群具有年代局限性。我国专家在TW计分法基础上进行了多次改良,最新的参考人群标准为2006年修订制定的中华05法,距今已有十余年[16]

2 基于深度学习的辅助检测骨龄方法

骨龄影像智能检测模型包括影像体位自动检测、关键骨化中心识别、关键骨化中心评级、生长发育测评等模块如图2所示。

图2 基于深度学习的AI骨龄系统模型

2.1 影像体位自动检测模块

手腕骨影像质量(如轻微旋转、伪影等不规范拍摄问题)会影响结果准确性。因此,系统在阅片初始需要对骨龄片进行位置校正,从而提升识别精确度和拍片质量容错性。模块采用卷积层用于提取骨龄图像特征,建立特征点与手部在现实空间中深度之间的关系,从而获得图像景深,实现骨龄摄片中手腕骨在3D空间的映射。在3D的状态下对各个手腕骨进行识别和定位,对于非标准姿态的手腕骨影像,进行定位多层迭代优化,从而识别摄片中旋转或者非标准的手姿态,自动将其纠正至标准体位(图3)。

图3 手腕骨影像体位自动检测,提升拍片质量容错性

2.2 关键骨化中心识别模块

骨龄图像关键骨化中心包括远端桡骨、远端尺骨、腕骨、掌骨和指骨,骨化中心的准确定位直接影响检测结果。针对各类骨化中心的分布、密度特征、边缘形状等特点,系统采用基于卷积神经网络上的Faster R-CNN深度学习技术,得出具有高辨识度的特征图,应用基于全卷积神经网络的Region Proposal Network(RPN)技术提取候选框,得到一系列疑似手指骨及腕骨的区域,再通过ROI classifier得到特征区域的精确定位并进行检测识别,从而完成关键骨化中心的自动分割和勾画。

2.3 关键骨化中心评级模块

系统通过基于深度学习的对齐定位算法获取每块骨骼对应的多个关键点,将待检测骨化中心生长发育点的特征信息与数据库中与对应性别的多个基准骨化中心特征信息应用贝叶斯网络的不确定性知识推理模型进行预测,确定该骨骼生长阶段,实现准确分级,综合分析得出骨龄(图4)。

图4 卷积神经网络和深度级联回归算法实现骨龄准确分级

2.4 生长发育测评模块

骨龄影像智能检测系统依据临床常用指标(儿童身高体重,父母身高等参数),自动生成详细完善的诊断报告,包含骨龄评价、身高评价、发育评价、身高预测等指标。同时基于精确到月的骨龄结果,结合历史随访数据,系统可对生长趋势和临床疗效进行全方位监测如图5所示。

图5 AI骨龄影像智能检测系统

注:a. 产品界面;b. 骨化中心识别与评级; c. 身高评价;d. 随访追踪。

3 临床性能验证

骨龄影像智能检测系统已广泛应用于临床工作,可有效提升医生诊断效率与准确率。

3.1 基于TW3标准的性能验证

该试验随机选取了250份儿童骨龄片(男性125份,女性125份),由依图AI系统与医生(4位经验丰富的内分泌学家和2位经验丰富的放射学家)使用TW3标准分别进行判读,将两者的判读效率、准确性和可靠性进行比较[17-19]

判读效率上,TW3-AI模型的平均处理时间为1.5±0.2 s,明显短于内分泌科医生或放射科医生花费的平均时间525.6±55.5 s。

准确性与可靠性上,TW3-AI模型与专家判读结果的均方根(Root Mean Square,RMS)为0.50年,表明两者高度一致,AI性能不逊于医生人工评估;且由于AI与医生的RMS优于医生间的RMS,因此相对于医生AI具有更高的稳定性(表1和图6)。

图6 AI模型与阅片者之间的骨龄评估一致性

注:a.TW3-Carpal标准下,AI模型与阅片者之间的95%CI;b. TW3-RUS标准下,AI模型与阅片者之间的95%CI。

表1 6名阅片者与AI-TW3模型之间骨龄评估的统计学差异

注:所有结果均在达成协议的95%置信度范围内。

变量 RMS t值 P值AI-TW3-Carpal模型医生间 0.89±1.6 13.58 <0.001 AI与医生间 0.50±1.0 11.94 <0.001 AI-TW3-RUS模型医生间 0.91±1.6 14.08 <0.001 AI与医生间 0.50±1.1 11.45 <0.001

3.2 基于G-P标准的性能验证

该试验随机选取了745份生长发育异常病例骨龄片(360名男孩和385名女孩),金标准由两名经验丰富的医生(1名具有10年阅片经验的放射科医生和1名具有15年阅片经验的内分泌科医生)使用G-P标准达成的骨龄结果共识,通过该试验分析基于G-P标准依图AI系统的阅片效率与结果准确性[20]

阅片效率上,两位医生每张骨龄片的平均判读耗时约2 min,而AI模型仅需要1~2 s;这表明与人工分析相比,人工智能系统效率明显。

准确性上,AI系统与金标准相差1岁以内的平均比例为84.60%,其中12~18岁组别的比例最高,可以达到89.45%(图7)。该结果表明依图AI系统可以提供与经验丰富的审阅者相当的骨龄评估能力[20]

图7 通过不同年龄组与金标准的比较来确定AI 骨龄系统的判读准确性

注:a. 不同年龄段;b. 不同年龄组。

3.3 基于中华05标准的性能验证

该试验选取了52个生长激素缺乏儿童病例,每个儿童在两年随访内每隔6个月拍摄一张骨龄片,入组骨龄片共290张。两名经验丰富的儿科医生使用中华05标准对入组影像进行判读,首先在无AI辅助下独立判读,几周后加入AI辅助判读。通过试验分析在AI辅助下,医生的阅片效与结果一致性是否得到提升。

阅片效率上,纯人工组阅片单张骨龄判读平均耗时达2.6 min,在AI辅助下1位专家的阅片速度提升了1倍,阅片速度达到1.45 min/张;另一位专家阅片速度提升2倍,达到0.84 min/张。说明依图AI可以极大提升阅片速度。

一致性上,经混合线性模型检验,两位医生在骨龄动态评估中存在显著差异(P<0.001);在使用AI辅助评估后,两位医生在骨龄动态评估中无明显组间差异(P=0.91)(表2),表明使用依图AI系统辅助评估可以降低医生差异对骨龄结果的影响,提升结果一致性。从图8可以直观看出,使用AI辅助前两位医生的骨龄评估值存在一定差异,而AI辅助后两位医生的评估值非常接近(几乎重合);同时医生2的骨龄判读结果基本都超过儿童日历年龄,与生长激素缺乏儿童骨龄表现不符,而在AI辅助下的骨龄判读结果更接近临床病症表现。

表2 AI辅助前后医生间对骨龄动态评估值的影响

注:性别、年龄、GH缺乏水平作为模型的协变量。

变量 判读误差 t值 P值医生间诊断结果 0.54±0.10 5.42 <0.001加入AI后医生间诊断结果 0.54±0.10 -0.11 0.91

图8 在AI辅助下,两个医生的判读一致性更高

4 讨论

由上述对比研究表明使用人工智能方法进行骨龄的判别是可行的。在此过程中现有TW3和G-P方法存在的精度和速度问题可以得到显著改善。其中在准确性方面,人工判读除了精度外,还存在的阅片者之间以及在重复阅片判读的差异问题。在本研究中对不同阅片者之间的差异进行了对比,表明利用人工智能后可使医生之间的诊断结果无差异。对于重复阅片问题,需要设计一定的洗脱期,将作为下一步的研究重点。

在产品功能上,在进行骨龄判读基础上,提供了发育测评的功能。本研究中是以回顾式方法对现有的随访结果进行了对比研究,表明评估结果对既有的发育是相符的。在后续研究中,以前瞻式开展长期的随访研究来进行发育水平预测,尤其是与治疗过程相结合,形成对治疗的预后评估,具有重要的研究价值。

5 结论

精准判定骨龄是开展儿童内分泌诊断和治疗的基础。本文利用依图AI系统进行对照试验,与既有研究相比,本研究对TW3、G-P和中华05三种方法都进行对比,并进行了阅片者之间差异性对照。同时在骨龄判读基础上,进行了发育测评的研究。上述研究结果表明骨龄影像智能检测系统将骨龄的阅片时间从15 min缩短至秒级,有效提升了放射科和儿科医生的工作效率,减轻了医生的工作压力。在判读准确性上,临床试验证明系统与专家判读结果高度一致,同时系统对于同一张片子数次检测结果的统一性可有效避免人为主观误差,保证判读结果稳定性,对于疗效追踪时观察骨龄细微变化有着重要作用。

在我国儿科医疗资源紧缺,尤其基层儿科医生诊疗能力不足的环境下,该系统的推广有望提升基层骨龄检测能力,从而有利于儿童内分泌疾病筛查和诊疗的开展,更好地保证我国儿童的健康成长。

[参考文献]

[1]中国居民营养与慢性病状况报告(2020年)[EB/OL].(2020-12-23)[2021-01-07].http://www.scio.gov.cn/xwfbh/xwbfbh/wqfbh/42311/44583/wz44585/Document/1695276/1695276.htm.

[2] Ren S,He K,Girshick R,et al.Faster R-CNN: towards realtimeobject detection with region proposal networks[J].IEEE TransPattern Anal Mach Intell,2015,39(6):1137-1149.

[3] Hosseini-Asl E,Keynto R,El-Baz A.Alzheimer’s disease diagnostics by adaptation of 3D convolutional network[A].2016 IEEE International Conference on Image Processing(ICIP)[C].2016:126-130.

[4] Halabi SS,Prevedello LM,Kalpathy-Cramer J,et al.The RSNA pediatric bone age machine learning challenge[J].Radiology,2019,290(2):498-503.

[5] Larson DB,Chen MC,Lungren MP,et al.Performance of a deeplearning neural network model in assessing skeletal maturity on pediatric hand radiographs[J].Radiology,2018,287(1):313-322.

[6] Martin DD,Wit JM,Hochberg Z,et al.The use of bone age in clinical practice - part 1[J].Horm Res Paediatr,2011,76(1):1-9.

[7] Huda W,GkanatsiosNA.Radiation dosimetry for extremity radiographs[J].Health Phys,1998,75:492-499.

[8] Creo AL,Schwenk WF.Frederick Schwenk. Bone age: a handy tool for pediatric providers[J].Pediatrics,2017,140(6).

[9] 中华医学会儿科内分泌遗传代谢学组.中枢性性早熟诊断与治疗共识(2015)[J].中华儿科杂志,2015,53(6):412-418.

[10] 中华医学会儿科内分泌遗传代谢学组.矮身材儿童诊治指南[J].中华儿科杂志,2008,46(6):428-430.

[11] 孔倩倩,田军.儿童骨龄评估的现状与展望[J].医学影像学杂志,2011,21(6):921-924.

[12] 张晓龙,唐洪敏,赵普宗.骨龄鉴定意见的使用分析2例[J].中国法医学杂志,2016,(1):S121.

[13] 张绍岩,刘丽娟,张继业,等.RUS-CHN图谱骨龄评价法用于推测青少年年龄[J].中国法医学杂志,2009,24(4):249-253.

[14] Berst MJ,Dolan L,Bogdanowicz MM,et al.Effect of knowledge of chronologic age on the variability of pediatric bone age determined using the Greulich and Pyle standards[J].AJR Am J Roentgenol,2001,176(2):507-510.

[15] 国家卫生健康委员会2019年1月25日例行新闻发布会文字实录[EB/OL].(2019-01-25)[2021-01-07].http://www.nhc.gov.cn/xcs/s7847/201901/af1b200319ab4d4c9a8281a39a8be37a.shtml.

[16] 张鹏飞,李辉.三种骨龄评价方法在3-17岁儿童临床应用中的一致性比较研究[J].中国循证儿科杂志,2017,12(4):263-267.

[17] 李新民,程晓光,余卫.国人手腕部骨龄影像评估的现状[J].中华放射学杂志,2013,47(12):1153-1155.

[18] 程晓光,曾津津,余卫.我国儿童手腕部骨龄影像评估存在的问题及研究方向[J].中华放射学杂志,2013,47(12):1061-1062.

[19] Zhou XL,Wang EG,Lin Q,et al.Diagnostic performance of convolutional neural network-based Tanner-Whitehouse 3 bone age assessment system[J].Quant Imaging Med Surg,2020,10(3):657-667.

[20] Wang FD,Gu X,Chen S,et al.Artificial intelligence system can achieve comparable results to experts for bone age assessment of Chinese children with abnormal growth and development[J].Peer J,2020,8:e8854.

Application of Artificial Intelligence in Evaluating the Bone Age Image of Children

SUN Mengsha1, DING Yonghong1, YAN Ziye1,2, SU Xiaoming1
1. Hangzhou Yitu Healthcare Technology Co., Ltd., Hangzhou Zhejiang 310012, China;2. Shanghai Key Laboratory of Artificial Intelligence for Medical Image and Knowledge Graph, Shanghai 200051, China

Abstract: Objective To study and compare the results to prove that it takes a long time to solve the problems of manual bone age interpretation, such as high human subjective influence, poor consistency and stability of results, etc. Methods G-P map, TW score method, Zhonghua 05 and other methods were used to compare bone age X-ray images. Artificial intelligence, artificial interpretation and artificial intelligence-assisted artificial interpretation were studied, and the differences among multiple readers were studied.Results Based on the standard TW3, 250 bone age images of children were compared by artificial intelligence system and doctor,TW3-AI model interpretation efficiency on the average processing time was 1.5±0.2 s, significantly shorter than the doctor’s 525.6±55.5 s. In terms of accuracy and reliability, the root mean square of TW3-AI model and expert interpretation results was 0.50 years, indicating a high degree of consistency between the two. Based on G-P standard, the bone age of 745 patients with abnormal growth and development was estimated. The average time of doctors’ interpretation was about 2 min, and the AI model only needed 1~2 s. In terms of accuracy, the average proportion of the AI system was less than one year from the gold standard, 84.60%.Based on the Chinese 05 standard, the average time of manual group reading was significantly higher than that of AI conformance assisted assessment. Conclusion The intelligent detection system of children’s bone age can complete the imaging analysis of children’s bone age at the second level and provide quantitative results such as ossification center rating and bone age, so as to assist doctors in rapid disease diagnosis and efficacy evaluation, and provide decision-making basis for the diagnosis and treatment of children’s endocrine diseases.

Key words: endocrine diseases in children; bone age of children; computer aided diagnosis; artificial intelligence

收稿日期:2021-01-26

基金项目:国家重点研发计划(2019YFB1404805)。

通信作者:苏晓鸣,高级工程师,主要研究方向为医学影像处理、生物信息学和医学传感器与信号处理。

通信作者邮箱:xiaoming.su@yitu-inc.com

[中图分类号] R197.39;TP18

[文献标识码] A

doi: 10.3969/j.issn.1674-1633.2021.03.006

[文章编号] 1674-1633(2021)03-0028-05

本文编辑 崔丽君