编者按:近两年精准医学与人工智能相续成为风靡医学界及健康产业界的热门话题,医学影像成为人工智能在医学领域的重要研究热点,十三五国家重点研发计划设立重点专项对精准医学与人工智能给予大力支持。陈润生院士指出:精准医学的实现不仅需要交汇基因组、转录组等前沿学科,建立基因型与表型的关联,还需要融合临床检验、影像学等指标。对医学影像进行准确分析与处理将进一步推动“精准医学”的快速发展。人工智能技术的快速发展促进了医学影像研究向着精准、智能与共享方向发展,具有重要的研究价值和应用前景。编者计划陆续组织系列相关研究论文,由浅入深地为大家介绍国内外研究动态。

栏目主编:刘景鑫

刘景鑫,教授,十三五国家重点研发计划“数字诊疗装备研发”放射设备质控重点专项项目负责人,吉林大学高层次科技创新团队“基于生命组学与智能影像的精准医学”项目负责人和首席专家,吉林省医学影像工程中心主任,国家卫计委医院管理研究所临床工程(吉林)研究基地首席专家,国家自然科学基金、科技部等评审专家,中华医学会医学工程学分会常委,中国计量测试学会医学计量分会常委,吉林省医学会医学工程学分会主任委员,吉林省卫生信息学会副理事长,吉林省计算机学会常务理事,《中国医疗设备》、《国际生物医学工程杂志》、《生物医学工程与临床》、《中国医学工程》等杂志编委。主持十余项国家重点研发计划、国家自然科学基金、省科技厅、市科技局等科研项目,获得省、市科技进步一、二、三等奖多项,获吉林大学教学成果奖2项,发表论著60余篇(部)。2002年获吉林省第七届青年科技奖,2005年被评为长春市百名优秀科技工作者。

基于双层信息融合的乳腺切片癌细胞识别

刘景鑫1,张同舟2,郑彩侠2,张磊超1,徐慧2,孔俊2

1.吉林大学中日联谊医院,吉林 长春 130033;2.东北师范大学 信息科学与技术学院,吉林 长春 130117

[摘 要]组织切片图像在癌症诊断中具有重要意义,目前已经被广泛应用于临床医学工作以及科学研究中。传统的采用组织切片技术的癌症诊断主要依靠病理医生的个人经验,导致分析过程耗时耗力,且得到的诊断结果容易带有主观偏向性。本文提出一种基于计算机模式识别技术的乳腺切片癌细胞识别方法,该方法可有效融合乳腺细胞切片图像的多种特征信息和多分类器的决策结果信息,从而实现对乳腺癌细胞和正常细胞的自动分类识别。

[关键词]癌细胞识别;特征层信息融合;决策层信息融合;计算机辅助诊断;人工智能

引言

乳腺癌是女性最常见的恶性肿瘤之一,其治疗的关键是早期发现和诊断[1-5]。病理切片检查是乳腺癌诊断的有效手段,但通常需要具有丰富医学知识和临床经验的医生对其进行处理与分析,导致分析和诊断的过程耗费大量精力且诊断结果容易带有主观偏向性。因此,迫切需要研究基于计算机的分析与识别方法,来自动识别乳腺组织切片癌细胞,以提供客观的、统一的诊断结果,为医生的进一步处理提供大量有用信息。

近年来,模式分析与识别技术已被广泛应用于各种医学图像处理中,如脑磁共振图像分割[6]、心脏序列图像分割[7]、乳腺癌识别[2]、肝癌识别与诊断等[8-9]。2017年,Esteva等[10]提出了利用深度神经网络对皮肤癌图像进行识别,识别结果的准确率与专业的人类医生相当,相关研究论文被选为封面论文在Nature上发表。由此可见,利用计算机图像处理、模式识别技术对医学图像进行分析与处理已经引起了研究人员的广泛关注,并已取得了很大的研究进展。利用深度学习技术可以取得良好的识别效果,但需要海量的数据训练神经网络,以使其具有良好的性能。然而在实际问题中,海量数据的获取通常非常耗费人力,有时甚至是无法完成的任务。因此,如何在仅有少量医学图像的情况下开发出具有较好性能的识别模型是一个重要的研究课题,具有深远的研究意义与广泛的应用价值。

医学图像识别主要包含两个关键步骤:图像特征提取和分类模型构建。特征提取的目的是从图像中抽象出能表达图像本质内容的特征,如纹理特征、颜色特征和形状特征等[11-14]。给定一幅乳腺细胞切片图像,可以通过单一特征或多种不同的特征来描述其包含的内容。大量研究表明,同时融合多种特征可以增加特征描述的鲁棒性和类别区别能力,从而有益于对图像的分类与识别[15]。分类模型的构建是指利用图像特征学习一个分类准则,通过该准则可以对不同类别的图像进行识别。在医学图像分析与处理领域中,常用的分类模型有神经网络和支持向量机(Support Vector Machine,SVM)等[2,8,16-17]。不同的分类器对图像样本的分类能力不同,对于某个分类器而言比较容易识别的样本可能对于其他分类器而言是难以识别的样本,因此,适当融合分类器的决策结果,可以有效提高乳腺切片癌细胞图像的识别精度。

综上,为了同时利用乳腺细胞切片图像的多种特征信息,并且融合不同分类器的决策结果,本文提出一种基于双层信息融合的乳腺切片癌细胞识别方法,该方法可利用少量的数据训练一个较好的分类模型,在乳腺癌细胞识别的任务上取得了较好的效果。

1 本文方法

本文提出的基于双层信息融合的乳腺切片癌细胞识别方法的总体流程,见图1,首先对细胞图像提取纹理、颜色和边缘形状信息,然后将3种信息进行融合后分别输入到3个不同的分类器(基于稀疏表示的分类器(Sparse Representation Based Classification,SRC)[18]、SVM[19]和K近邻分类器(K-Nearest Neighbor,KNN)中,最后将3个分类器的决策结果进行融合,得到最终的识别结果。

图1 方法流程图

1.1 特征层信息融合

乳腺切片细胞图像具有特殊性和复杂性,采用单一的特征很难精确的描述图像内容。因此,为了更好地抽象乳腺细胞切片图像的本质信息,本文对其同时提取局部二值模式(Local Binary Pattern,LBP)[20]、梯度直方图和HSV空间颜色直方图特征,分别挖掘图像的纹理信息、边缘形状信息和颜色信息,并将3种信息进行融合作为乳腺切片细胞的特征描述子。

LBP特征是一种图像纹理信息描述子,其基本思想是对图像进行局部区域划分,并将局部区域内所有像素与区域中心像素分别进行比较,若周围像素的灰度值小于中心像素的灰度值,则该像素点的位置被标记为0,否则被标记为1,最后将得到的0和1值按一定顺序组成二进制数,并将其转换成十进制数(即LBP码)作为该区域的纹理特征描述子,见图2。在图2中,将周围像素点的灰度值2、8、9、8、7、4、1和4分别与中心像素点的灰度值5进行比较,得到二进制码为01111000,转化为十进制数为120,则该中心点的LBP值为120。

梯度直方图可有效描述图像边缘和形状信息,而颜色直方图可以捕获图像的颜色信息。为了消除图像形变、遮挡等因素对特征提取的影响,本文首先将细胞图像规则地划分为不重叠的若干局部区域,然后在每个区域中分别计算像素点的梯度值,并将其统计为梯度直方图。对于颜色特征,在每个区域内分别统计HSV颜色空间3个通道的颜色分量直方图,并将3个颜色分量的直方图联合起来作为图像颜色特征描述子。

图2 LBP描述子示意图

为了将提取的LBP、梯度直方图和颜色直方图特征进行有效融合,本文首先采用词袋模型(Bag-of-Words,BOW)[21]分别对每种特征进行编码,以得到更紧凑、更鲁棒的特征向量,然后将编码后的3种特征向量拼接为一个特征向量作为乳腺细胞切片图像的特征描述子。

1.2 决策层信息融合

在临床工作中,由于个人经验和水平不同,不同的医生在诊断某一病症时看法不同,因此可通过参考多个医生的诊断结果来进一步确诊病症。类似地,在计算机视觉领域,不同分类器的学习能力与识别能力也具有一定的差异性,对于比较难以识别的样本,不同分类器一般会给出不同的识别结果。因此,融合多种分类器的识别结果,可以有效减少信息的不确定性,提高算法识别率[22]。本文分别采用SRC、SVM和KNN分类器对细胞图像进行分类,并将3种分类器的结果进行投票融合,进而得到最终的识别结果。

SRC分类器是由Wright等[18]在2009年提出,该分类器是基于模拟生物视觉的感知特性提出的,在图像处理、模式识别和压缩感知等领域得到了较好的应用[23]。SRC的基本原理是利用全部有标签的训练图像作为字典原子,然后分别采用不同类别的字典原子对测试图像进行重构,测试图像的类别被归为具有最小重构误差的那一类。给定含有C类样本的训练样本(图像)集合A=[A1,…,Ac,…,Ac],Ac∈Rm×n代表来自第c类的样本,y代表给定的待测试样本,SRC的目标函数如下:

其中,x为样本重构系数,||x||1代表对x求l1范数,Ax=y代表用字典A对样本y进行重构。得到样本重构系数后,对于给定的测试样本y,可以利用字典重构误差计算其标签,如公式(2)所示:

其中,δi(·)为系数选择函数,它的作用是仅保留 xˆ1中第i类字典原子对应的重构系数,其他类别的字典原子对应的重构系数置为0。

SVM[19]是一种基于统计学习理论的机器学习方法,该方法在小样本、高维度的模式分类以及非线性图像识别问题中均表现出了优良的性能。SVM的基本原理是通过最小化结构化风险来提高学习的泛化能力,使得置信范围和经验风险最小化,从而实现在样本量较少的情况下也能学习到较好的分类准则。SVM的寻优过程即是分隔间距和误差补偿之间的平衡过程。KNN是一种简单、计算复杂度非常低的分类方法,该方法根据待分类样本的K个最邻近样本的类别来决策该样本所属的类别,即在样本特征空间中,如果某个样本的K个近邻样本中的大多数属于某个类别,则该样本也属于这个类别。

SRC、SVM和KNN在处理图像识别任务时各有优势,为了融合这3种分类器的优势以充分提高识别结果的准确性,本文将融合后的乳腺细胞切片图像特征分别输入到3个分类器中,并将得到的3个分类结果采取投票机制计算最终的识别结果。

2 实验结果及分析

为了测试本文提出的基于双层信息融合的乳腺切片癌细胞识别方法的有效性,我们在医生提供的真实医学数据上进行了实验。

2.1 实验数据

本文采用的实验数据是乳腺非特殊型浸润性癌组织切片图像,所有实验图像均是由中日联谊医院病理医生采用iScan Coreo数字病理切片扫描仪将乳腺癌组织扫描成数字图像,然后截取40倍物镜放大倍数图像获得。此外,医生也对每幅图像中的细胞为正常细胞还是癌细胞进行了预先标注。实验数据共251幅图像,其中100幅为癌细胞图像,151幅为正常细胞图像,图像大小为80×80或50×50像素,每幅图像中包含一个细胞核(癌细胞或正常细胞),见图3。

2.2 实验结果

在实验中,我们分别从实验数据中随机选择50%的样本作为训练样本,其余样本作为测试样本,随机实验重复10次,并计算10次结果的平均识别率和标准差。平均识别率和标准差的计算公式如(3)和公式(4)所示[24]

其中代表第i次实验的识别准确率,即识别出的正确的癌细胞数目tpi和正确的正常细胞数目tni之和除以细胞总数Ncell,N代表随机实验次数。

为了说明本文的特征层融合机制是有效的,我们对比了仅采用单特征的识别结果和3个特征融合的识别结果(分类器统一采用SRC分类器),实验结果见表1。从表1中可以看出,特征层信息融合可以有效提高识别准确率。

图3 实验数据库中的部分图像

注:a.5幅癌细胞样本;b.5幅正常细胞样本。

表1 采用单特征和多特征融合的识别结果

为了进一步说明本文的决策层融合机制的有效性,我们对比了采用3个特征融合,但在决策层仅采用单个分类器的识别结果和本文的双层(特征层和决策层)信息融合方法的识别结果,见表2。相比于仅采用单分类器进行识别,本文的方法有效地提高了识别准确率,且识别结果的标准差也相对较小,说明本文提出的方法具有较好的稳定性。

表2 采用单分类器和本文方法的识别结果

3 结论

本文提出了一种基于双层信息融合的乳腺切片癌细胞识别方法,该方法分别在特征层和决策层将多种信息进行融合,可以有效提高癌细胞和正常细胞的识别准确率,且适用于数据量较少的情况。我们在真实的乳腺癌细胞切片图像数据库上测试了本文算法的有效性。

根据《临床技术操作规范》和《等级医院评审标准》,病理科质量控制指标有“常规切片优良率≥98%”“术中快速病理诊断准确率≥95%”和“常规诊断报告准确率≥95%”等[25]。可以看出本文算法在实验数据上的识别准确率基本可以达到该标准,因此本文算法可以作为一种癌细胞辅助诊断手段,但不能完全取代病理医生进行诊断,在实际问题中,可以通过人机结合的方式来减少误诊和漏诊,以进一步提高诊断的正确率。

[参考文献]

[1] Addeh J,Ebrahimzadeh A.Breast cancer recognition using a novel hybrid intelligent method[J].JMSS,2012,2(2):95-102.

[2] Senapati MR,Mohanty,et al.Local linear wavelet neural network for breast cancer recognition[J].Neural Comput Appl,2013,22(1):125-131.

[3] 安静,夏玉军.MRI、超声及钼靶在乳腺肿块大小测量中的比较[J].中国医疗设备,2016,31(5):67-69.

[4] 付岩松,孙心平.彩超在早期乳腺癌诊断中的应用价值[J].中国医疗设备,2014,29(8):173-174.

[5] 李彬,汤素琼,黄华明,等.乳腺癌钙化在数字化全景乳腺摄影中的特征性分析[J].中国医疗设备, 2015,30(2):63-64.

[6] Wang J,Kong J,Lu Y,et al.A modi?ed FCM algorithm for MRI brain image segmentation using both local and non-local spatial constraints[J].Comput Med Imag Grap,2008,32(8):685-698.

[7] 王蓓,张立明.利用图像先验知识与Snake结合对心脏序列图像的分割[J].复旦学报:自然科学版,2003,42(1):81-86.

[8] 杨育彬,李宁,陈世福,等.基于图像特征的智能肺癌识别[J].南京大学学报:自然科学版,2003,39(2):211-218.

[9] Zheng C,Li W,Wang S,et al.Hepatoma cells recognition based on matrix absolute gray relational degree of B-mode[J].OPTIK,2014,125(4):1579-1584.

[10] Esteva A,Kuprel B,Novoa RA,et al.Dermatologist-level classification of skin cancer with deep neural networks[J].Nature,2017,542(7639):115-118.

[11] Yang NC,Chang WH,Kuo C-M,et al.A fast MPEG-7 dominant color extraction with new similarity measure for image retrieval[J].J Vis Commun Image R,2008,19(2):92-105.

[12] Islam MM,Zhang D,Lu G.A geometric method to compute directionality features for texture images[A].Multimedia and Expo, 2008 IEEE International Conference on IEEE[C].New York:IEEE,2008:1521-1524.

[13] Leung WH,Chen T.Trademark retrieval using contour-skeleton stroke classification[A].Multimedia and Expo,2002 ICME’02 Proceedings 2002 IEEE International Conference on IEEE[C].New York:IEEE,2002:517-520.

[14] Liu Y,Zhang J,Tjondronegoro D,et al.A shape ontology framework for bird classi?cation[A].Digital Image Computing Techniques and Applications, 9thBiennial Conference of the Australian Pattern Recognition Society on IEEE[C].New York:IEEE,2007:478-484.

[15] Zheng C,Zhang F,Hou H,et al.Active discriminative dictionary learning for weather recognition[J].Math Probl in Eng,2016:1-12.

[16] 廖苗,赵于前,曾业战,等.基于支持向量机和椭圆拟合的细胞图像自动分割[J].浙江大学学报:工学版,2017,51(4):722-728.

[17] 黄建灯,陈庆全.基于支持向量机的红细胞彩色图像分割[J].计算机系统应用,2009,18(1):35-38.

[18] Wright J,Yang AY,Ganesh A,et al.Robust face recognition via sparse representation[J].IEEE Trans Anal Patt Mach Intel,2009,31(2):210-227.

[19] Vapnik VN,Vapnik V.Statistical Learning Theory[M].New York:Wiley,1998.

[20] Ojala T,Pietikäinen M,Harwood D.A comparative study of texture measures with classification based on featured distributions[J].Pattern Recogn,1996,29(1):51-59.

[21] Csurka G,Dance CR,Fan L,et al.Visual categorization with bags of keypoints[J].ECCV,2004,44(247):1-22.

[22] 刘安斐,李弼程,张先飞.基于数据融合的多特征遥感图像分类[J].数据采集与处理,2006,21(4):463-467.

[23] 宋相法,焦李成.基于稀疏编码和集成学习的多示例多标记图像分类方法[J].电子与信息学报,2013,35(3):622-626.

[24] 钱能生.概率论、数理统计与随机过程[M].广州:华南理工大学出版社,2003.

[25] 马恒辉,周晓军.南京市临床病理室间质控评价标准介绍[J].临床与实验病理学杂志,2017,33(2):222-224.

Recognition of Breast Section Cancer Cells Based on Double-Layer Information Fusion

LIU Jingxin1, ZHANG Tongzhou2, ZHENG Caixia2, ZHANG Leichao1, XU Hui2, XU Hui2
1.China-Japan Union Hospital of Jilin University, Changchun Jilin 130033, China;2.College of Information Sciences and Technology, Changchun Jilin 130117, China

Abstract:The image of histological sections is important for cancer diagnosis and has been widely used in the medical work and scienti?c research. The traditional techniques of histological sections cancer diagnosis mainly rely on the personal experience of the doctor, which is time-consuming, and the results of the diagnosis are easy to be biased. In this paper, we proposed a recognition method of breast section cancer cells based on the computer pattern recognition technologies. This method can effectively fuse a variety of feature information of breast section cell image and combine the decision of the multiple classifiers to improve the accuracy of breast cancer cells recognition.

Key words:cancer cell recognition; feature fusion; classi?er fusion; computer aided diagnosis; arti?cial intelligence

[中图分类号]R445

[文献标识码]A

doi:10.3969/j.issn.1674-1633.2018.01.005

[文章编号]1674-1633(2018)01-0020-04

收稿日期:2017-11-15

修回日期:2017-12-08

国家基金:国家重点研发计划(2016YFC0103500);国家自然科学基金(61702092;61672150);中央高校基本科研业务费(2412017QD029);吉林省省校共建(SXGJXX2017-5);吉林大学高层次科技创新团队建设项目(2017TD-27);中国博士后科学基金(2017M621193)。

通讯作者:孔俊,教授,主要研究方向为模式识别与机器学习。

通讯作者邮箱:kongjun@nenu.edu.cn

本文编辑 王静