基于集成学习的乳腺癌分类研究

基于集成学习的乳腺癌分类研究

邓卓1,2,苏秉华1,2,张凯1

1. 北京理工大学珠海学院 光电成像技术与系统教育部重点实验室,广东 珠海 519088;2. 北京理工大学,北京 100081

[摘 要]目的 由于传统机器学习算法的分类能力较低,不足以辅助临床诊断,本研究将分类功能强大的集成学习与医疗诊断相结合,提高诊断准确率和召回率。方法 研究应用集成学习的随机森林算法和Xgboost算法来提高模型准确率和召回率,并利用交叉验证和网格搜索提高模型拟合能力。结果 通过对比随机森林模型、Xgboost模型和传统机器学习的决策树模型,研究得出,集成学习极大地提高了乳腺癌诊断的准确率和召回率,准确率从0.92提高至0.96,召回率从0.90提高至0.97和0.99。结论 将集成学习算法与实际医疗诊断技术相结合具有实际的研究意义,可以进一步将两种领域相结合,以提高医疗诊断的效率和准确率。

[关键词]集成学习;随机森林;Xgboost;乳腺癌

引言

集成学习(多分类器系统)通过将多个弱学习器结合[1-2],获得比单一学习器的泛化能力更加显著的强分类器。目前集成学习根据个体学习器间的关系可以分为两大类[3-4]:一种是学习器之间不存在依赖关系,可以同时生成并行化的方法,例如随机森林[5-6];另一种则是个体学习器之间存在很强的依赖关系,必须串行生成的序列化方法,例如Xgboost[7-8]。所以论文应用集成学习中典型的两类算法模型,研究集成学习在医疗诊断领域的应用方法与实际效果。

目前集成学习于医疗领域的应用尚处于研究阶段,贵州大学医学院的张玉玺等[9]人研究了集成学习在糖尿病预测中的应用,主要应用了集成学习中的随机森林模型,并与传统机器学习的算法做了对比,表明了集成学习算法明显由于传统机器学习算法。济南市中医医院的任雪等[10]人提出了基于主动集成学习的中医智能诊断模型及构建方法,将多个不同的机器学习模型进行集成训练,获得更为准确的中医知识学习模型,试验结果表明,集成学习是一种新型有效的中医诊断模型。广东工业大学的曾安等[11]人提出了基于卷积神经网络和集成学习的阿尔茨海默症早期诊断,实验采用MRI三个维度上的多个二维切片进行集成训练,从而更加充分地利用MRI包含的有效信息。所以将集成学习应用于医疗诊断领域的研究需要进一步探索,加快实现我国智能医疗服务,提高医疗诊断水平。

1 项目模型

本项目首先建立了一个传统的决策树模型,方便与集成学习模型进行对比验证,再利用交叉验证和网格搜索等方法建立了随机森林模型和Xgboost模型,提高了模型的分类能力和AUC指标。

模型训练采用的数据是美国Wisconsin医院William H.Wolberg博士提供的乳腺癌数据样本。经过数据清洗处理后,一共有683个合格的实验样本,其中正例(良性)样本444个,负例(恶性)样本239个,样本共有九个特征值,分别是肿块厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘性、单上皮细胞的大小、裸核、乏味染色体,正常核和有丝分裂。建立模型时,将数据的70%作为实验训练样本,剩余的30%测试样本。

1.1 决策树模型

决策树是利用已知各种情况的发生概率进行决策,求取净现值的期望值大于等于零的概率的一种树形结构模型[4,8]。其结构如图1所示,每棵树都只有一个根节点,底下有多个决策节点,每一个分叉路径代表某个分类的属性值,最终数据根据其属性值的分类全部落到叶子节点,完成数据决策分类。

图1 决策树结构

此项目所用决策树的随机变量的不确定性指标(criterion)是CART决策树用于分类问题时选择最优特征的指标基尼指数(gini);规定每棵叶子节点所含样本个数的最小值(min_sample_leaf)是1,规定每个决策节点所含样本个数的最小值(min_samples_split)是2。

1.2 随机森林模型

随机森林是1995年由贝尔实验室的Tin Kam Ho提出的[12],该模型是根据多个决策树分类器的输出,采用投票取众数的方法进行决策[13,14],其模型结构如图2所示,第一层是弱分类器,每个弱分类器都根据数据做出自己的判断,最后采取投票选择投票最多的结果作为真实输出结果。

图2 随机森林结构

此项目模型利用了10折交叉验证和网格搜索等方法优化模型,提高模型泛化能力和准确度。n折交叉验证就是在训练模型时将训练样本分成n份,其中的1份保留作为验证模型的数据,其余的n-1个样本用来训练,交叉验证重复n次,最终每个子样本都验证一次,然后将n次的结果平均得到一个单一的估测值,可以防止模型过拟合,提高模型的泛化能力。

网格搜索就是列举所有超参数的后选值,通过循环遍历,尝试每一种超参数对模型训练的好坏程度,最终选出最适合模型的参数搭配,可以提高模型准确度。

此模型利用交叉验证和网格搜索方法调节超参数,最终选出最优网络参数。其中弱分类器(estimators)的个数是40,此模型弱分类器采用决策树,多棵决策树集成随机森林,每棵树的最大深度(max_depth)不能超过10,每个决策节点所含样本个数的最小值(min_samples_split)是12,每棵叶子节点所含样本个数的最小值(min_sample_leaf)是4,criterion随机变量的不确定性的指标(criterion)是基尼指数(gini)。

1.3 Xgboost模型

Xgboost(极端梯度提升)是个体学习器之间存在依赖关系的树集成模型,其使用K棵树中的每棵树对样本预测的预测结果的和作为Xgboost模型的预测结果[15,16],其数学定义如式(1)所示。

其中i表示第i个样本, 表示第fk棵树模型,K表示树的数量,yi表示模型的预测值,随着树的数量值增加,模型的预测值越接近实际值。

模型训练的目标函数如式(2)所示。

其中第一项是损失函数,第二项是正则化项。损失函数如式(3)所示,表示第i个样本的预测误差,误差越小越好。

正则化 是每棵树的复杂程度之和,目的是控制模型复杂度,防止过拟合,其数学表达式如式(4)所示。

其中γ是模型惩罚力度,w是叶子节点的分值,T表示每棵树的叶子节点数量,λ是模型超参数。模型训练时,对损失函数做二阶泰勒展开,如公式(5)。

训练时不断寻找最佳的树模型加入到已有模型中,并更新样本预测值。Xgboost模型的训练过程如图3流程所示。

原始数据经过第一个分类器之后输出结果,再根据其结果调整样本分布,使得之前训练器做错的训练样本在后续得到更多的关注,然后基于调整后的样本分布训练下一个弱分类器,以此类推,直到学习器数目达到指定值,然后将这些学习器进行加权求和,正确率越高的弱学习器获得的权重越大。

图3 Xgboost结构

此模型利用交叉验证和网格搜索方法调节超参数,最终选出的最优网络参数。其中模型惩罚力度值(gamma)是0.1,模型的学习率(learning_rate)是0.2,每棵树的最大深度(max_depth)是3,弱分类器的个数(estimators)是28,此模型弱分类器采用决策树,正则化方程的超参数(lambda)是 1。

本项目的Xgboost模型共采用了28个弱分类器集成,每增加一个分类器都朝着优化模型损失函数方向前进,模型效果如图4所示,横坐标是分类器个数,纵坐标是模型的损失函数,从图中可以看出,随着分类器的增加模型的损失函数逐渐减少。

图4 Xgboost模型损失值

2 结果

训练数据训练完模型后,再利用测试数据测试模型性能,此项目的三个模型经过测试集测试的结果如表1所示,其中precision是查准率(P),即分类正确的比例,P=真正例/(真正例+假正例);recall是召回率(R),即类别被正确选出来的比例R=真正例/(真正例+假反例);F1-score是P和R的一种调和平均,F1=2*P*R/(P+R);support是样本个数,根据三个模型的结果性能指标可以看出随机森林模型和Xgboost模型的效果明显好于决策树模型的效果。根据统计,本项目的集成学习模型分类准确率平均值为0.965853,AUC指标均值为0.967601;而传统的决策树模型的分类准确率为0.921951,AUC值只有0.907999。根据实验数据和统计值对比,乳腺癌的二分类问题中集成学习效果明显由于传统机器学习算法。

ROC(Receiver Operating Characteristic)曲线的纵坐标是模型的真正例率(True Positive Rate,TPR),横坐标是模型的假正例率(False Positive Rate,FPR),AUC是ROC曲线下与坐标轴围成的面积,取值在0.5到1之间,值越大模型效果越好,模型的ROC曲线和AUC面积如图5~7所示。

表1 模型结果

模型 结果 precision Recall F1-score Support AUC决策树良性 0.93 0.95 0.94 133恶性 0.91 0.86 0.89 72模型 0.921951 205 0.907999随机森林良性 0.99 0.95 0.97 133恶性 0.92 0.99 0.95 72模型 0.965853 205 0.967888 Xgboost良性 0.98 0.96 0.97 133恶性 0.93 0.97 0.95 72模型 0.965853 205 0.967314

图5 决策树的ROC曲线图

图6 随机森林的ROC曲线图

图7 Xgboost的ROC曲线图

从三个模型的ROC曲线可以看出集成学习的分类效果明显由于随机森林算法,尤其是模型的AUC值,均到达了99.7%以上,具有很高的分类效果。

3 讨论

本项目利用集成学习的随机森林和Xgboost模型对乳腺癌诊断做出分类预测模型,模型训练过程中利用了交叉验证和网格搜索等方法提高模型准确率的同时防止模型过拟合,增强模型泛化能力,并和传统的机器学习算法决策树模型进行了对比。根据实验结果可以看出集成学习模型对乳腺癌的分类效果非常好,模型准确度很高,而且各项指标都优于传统机器学习算法。

目前,威胁人类身体健康的主要疾病是癌症,而乳腺癌又是女性疾病的头号杀手,所以提高乳腺癌诊断准确率的研究具有现实意义;利用人工智能技术提高医疗诊断服务是目前的研究热点,将传统的机器学习算法应用于临床辅助诊断效果并不明显,所以将具有高分类能力的集成学习算法与医疗诊断技术相结合的技术研究很有必要;通过本项目实践研究得出,集成学习对乳腺癌的良恶性分类效果很好,且分类能力超过传统机器学习算法的分类能力,所以将集成学习算法应用于医疗诊断服务的研究具有实践价值。可以将集成学习与医疗诊断服务领域交叉,深入研究并应用于实际医疗临床,不仅可以提高诊断效率,还可以减少实际诊断的误诊与漏诊现象,使患者及早诊断及早治疗,提高患者存活率,提高我国医疗服务水平。

[参考文献]

[1]周钢,郭福亮.集成学习方法研究[J].计算技术与自动化,2018,37(4):148-153.

[2]徐继伟,杨云.集成学习方法:研究综述[J].云南大学学报(自然科学版),2018,40(6):1082-1092.

[3]Rossevine AN,Oscar KMA.Integrating program and algorithm visualisation for learning data structure implementation[J].Egypt Inform J,2019,20(3).

[4]刘玥.基于集成学习的工业过程监测[D].杭州:浙江大学,2019.

[5]吕红燕,冯倩.随机森林算法研究综述[J].河北省科学院学报,2019,36(3):37-41.

[6]孙明喆,毕瑶家,孙驰.改进随机森林算法综述[J].现代信息科技,2019,3(20):28-30.

[7]李占山,刘兆赓.基于XGBoost的特征选择算法[J].通信学报,2019,40(10):101-108.

[8]李大中,王超,李颖宇.基于XGBoost算法的风机叶片结冰状态评测[J].电力科学与工程,2019,35(9):43-48.

[9]张玉玺,贺松,尤思梦.集成学习在糖尿病预测中的应用[J].智能计算机与应用,2019,9(5):176-179.

[10]任雪,郭艳.基于主动集成学习的中医智能诊断模型及构建方法[J].中国循证医学杂志,2019,19(9):1118-1123.

[11]曾安,贾龙飞,潘丹,等.基于卷积神经网络和集成学习的阿尔茨海默症早期诊断[J].生物医学工程学杂志,2019,36(5):711-719.

[12]马超,徐瑾辉.A novel combinational forecasting model of dust storms based on rare classes classification algorithm[A].教育部.第八届全国大学生创新创业年会论文集[C].哈尔滨:教育部,2015,934-937.

[13]Corcoran J,Knight J, PelletierK,et al.The effects of point or polygon based training data on randomforest classification accuracy of wetlands[J].Remote Sens,2015,7(4):4002.

[14]Liu XQ,Wu QL,Pan WT.Sentiment classification of micro-blog comments based on Randomforest algorithm[J].Concurr Comp-Pract E,2019,31(10).

[15]Hu T,Song T.Research on XGboost academic forecasting and analysis modelling[J].J Phys:Conf Ser,2019,1324(1):12091.

[16]Zhang R,Li B,Jiao B.Application of XG boost algorithm in bearing fault diagnosis[J].ICMSE,2019.

DENG Zhuo1,2, SU Binghua1,2, ZHANG Kai2

1. Key Laboratory of Photoelectric Imaging and System, Ministry of Education, Zhuhai College of Beijing Institute of Technology, Zhuhai Guangdong 519088, China; 2. Beijing Institute of Technology, Beijing 100081, China

Breast Cancer Classification Based on Ensemble Learning

Abstract: Objective Due to the low classification ability of traditional machine learning algorithm, it is not enough to assist clinical diagnosis. This project combines the ensemble learning with strong classification function for medical diagnosis to improve the diagnosis accuracy and recall rate. Methods In this project, the random forest algorithm and Xgboost algorithm of ensemble learning were applied to improve the accuracy and recall rate of the model. Cross validation and grid search were used to improve the model fitting ability. Results By comparing random forest model, Xgboost model and decision tree model of traditional machine learning,we can see that ensemble learning has greatly improved the accuracy and recall rate of breast cancer diagnosis. The accuracy rate increased from 0.92 to 0.96, and the recall rate increased from 0.90 to 0.97 and 0.99. Conclusion It has practical research significance to combine the ensemble learning algorithm with the actual medical diagnosis technology. We can further combine the two fields to improve the effectiveness of medical diagnosis.

Key words: ensemble learning; random forest; Xgboost; breast cancer

收稿日期:2019-12-16

基金项目:珠海市光电信息技术协同创新中心基金项目。

通信作者:张凯,教授,主要研究方向为生物医学仪器。

通信作者邮箱:zhangkaibnu@126.com

[中图分类号]R318

[文献标识码]A

doi:10.3969/j.issn.1674-1633.2020.12.015

[文章编号]1674-1633(2020)12-0059-04

本文编辑 崔丽君