Article Info

近年来，随着科技发展，大量机器学习和深度学习技术已被成功应用到各个领域，如情感分析、推荐系统和人脸识别等，医疗领域也是其重要的研究与应用方向之一。为了保证机器学习和深度学习模型的性能，通常对数据有一些要求：训练数据和测试数据需来自同样的特征空间且具有相同分布[1]。然而，医疗领域的数据具有多而杂、非结构化数据占比大、专业性强等特点，对医疗记录的标注需要熟悉诊疗过程的医学专业人员的指导，使得标注任务繁重且周期较长。因此，如果可以将其他领域中的知识迁移到医疗场景中，将带来极大的便利。迁移学习就是为了解决此类问题而提出的一种机器学习技术[2-4]，根据分类方法主要包括三个方面：① 学习情境：归纳式迁移学习、直推式迁移学习、无监督迁移学习；② 特征空间：同构迁移学习、异构迁移学习；③ 学习方式：基于实例的迁移学习、基于特征的迁移学习、基于模型的迁移学习、基于关系的迁移学习。

1 迁移学习方法

1.1 基于实例的迁移学习

基于实例的迁移学习是迁移学习中较为简单的一种，主要通过权重重复利用源域和目标域中的样本，实现知识的迁移。它的基本假设是源域和目标域中有一部分样本特征相同。TrAdaboost 是基于样本迁移学习的典型方法，在2007 年由Dai 等[5]率先提出，其主要思想是提高有利于目标任务性能的样本权重，降低不利于目标任务性能的样本权重，最终得到一个在目标域中性能更好的模型。Yao 等[6]考虑了多个源域的知识，对TrAdaboost 进行了改进，提出多源域TrAdaboost（Multi-Source TrAdaboost，MTrA），选择与目标域最相关的源域知识进行迁移，有效避免了只有一个源域而造成的负迁移问题。Cheng 等[7]在2013 年又对MTrA 进行了改进，提出了加权多源域TrAdaboost，将多个源域的知识进行加权求和，进一步提升了模型的性能。

1.2 基于特征的迁移学习

基于特征的迁移学习方法是迁移学习中热门的研究领域，主要是利用源域和目标域中共享的特征表示，减少源域和目标域的差距，从而提高模型在目标域任务上的性能。根据对特征的不同处理方法，可以将其分为基于特征选择的迁移学习方法和基于特征映射的迁移学习方法，前者是从源域和目标域中选择出一些共有的特征，利用这些共有特征完成知识迁移；后者一般是将源域和目标域数据映射到同一低维空间，在这个低维空间中源域和目标域特征接近或数据分布趋于一致，从而完成知识迁移的过程。

Uguroglu 等[8]在2011 年提出一个基于特征选择的迁移学习方法，并将其成功的运用在了领域自适应方面，该方法主要是结合最大均值差异（Maximum Mean Discrepancy，MMD）这一统计量，寻找对源域和目标域距离贡献较大的一些特征。MMD 的计算如公式(1)所示，其中，F 表示映射函数域，X={x1, x2…xm}和Y={y1, y2…ym}分别表示源域和目标域中的数据。作者实验结果表明，使用特征选择的方法建立的模型较使用所有特征建立的模型预测准确率提高了30%。

Persello 等提出一种基于核的域不变特征选择方法，该方法主要关注输入变量X 和输出变量Y 之间的特征相关性R 和源域、目标域数据集之间的偏移Θ，将使得目标函数最小的特征作为最终的优化目标，如公式(2)所示，其中，F 表示特征，l 表示最终特征子集的大小。

Pan 等[10]提出一种基于特征映射迁移学习的降维方法，该方法首先通过最大均值差异嵌入学习一个低维潜在空间，在该空间中源域和目标域的分布接近，然后再使用低维空间中的数据训练一个传统的机器学习模型，在文本分类等任务中该方法都获得了显著的性能提升。Dai 等[11]使用马尔可夫链和最小化风险的方法建立了名为TLRisk 的“翻译学习”方法，该方法使用语言模型连接源域中数据特征和数据标签，然后将这种关系“翻译”到目标域中。在文本辅助图像的分类任务和跨语言分类任务中（英语语料作为源域数据，德语语料作为目标域数据），TLRisk 都获得了不错的成绩。

1.3 基于模型的迁移学习

基于模型的迁移学习一般将从源域中训练好的模型整体或者一部分迁移到目标域中使用，基本假设是源域和目标域共享模型的参数，因此又被称为基于参数的迁移学习。近年来，神经网络和深度学习领域发展迅速，出现了很多性能优良的深度学习模型，因此很多基于模型的迁移学习方法都与深度学习技术相结合。2014 年，Yosinski 等[12]基于卷积神经网络（Convolutional Neural Network，CNN）模型进行了深度学习模型的可迁移性研究，利用AlexNet 网络结构逐层迁移并微调对比研究，结果证明基于模型的迁移学习方法是有效的，并且深度学习模型中前几层学习到的为普遍特征，对前几层进行迁移的效果比较好。此后，神经网络和迁移学习相结合的迁移学习方法受到越来越多研究者的关注。Gretton 等[13]对MMD 进行了改进，提出了多核MMD（Multiple-kernel MMD，MK-MMD），为后续的许多研究工作提供了基础。Long 等[14]将MK-MMD与CNN 结合，提出了深度适应性网络（Deep Adaptation Network，DAN）。实验证明，多核方法相比于单核方法具有更强的适应性，DAN 可以得到无偏的深度特征。DAN的基本结构如图1 所示。固定了AlexNet 网络中前两个卷积层不动，对第三、四和五个卷积层进行了微调，同时在最后的三个全连接层中增加了MK-MMD 算法来降低源域和目标域的差异。Long 等[15]在2017 年提出将联合MMD 与神经网络算法相结合的联合适应网络算法，在CNN 的特定任务相关层使用联合分布来学习深度特征，提升模型性能。

1.4 基于关系的迁移学习

基于关系的迁移学习方法的基本假设是源域和目标域共享某种逻辑网络关系，目前基于关系的迁移学习方法研究较少，多数为基于马尔可夫网络的模型。Davis 等[16]基于二阶马尔可夫逻辑方法，建立了一个深度迁移学习模型，该模型用带谓词变量的马尔可夫逻辑公式发现源域中的结构规则，再用目标域中的谓词实例化这些公式，从而完成关系的迁移过程。

2 迁移学习技术在医疗领域中的应用

医疗领域中的数据量非常庞大、数据类型多样，多数为非结构化数据，且具有较强的专业性，因此标注医疗数据作为训练语料需要耗费大量的精力。而使用迁移学习方法将其他领域中的相关知识迁移到医疗场景中，有助于解决这一问题。

2.1 迁移学习技术在医疗文本数据预处理中的应用

医疗文本数据为非结构化数据，不利于分析研究，迁移学习技术已被用于文本信息抽取、医疗命名实体识别等研究领域，提高医疗文本预处理的效率和性能，为医疗文本数据的后续分析利用奠定良好的基础。

Wankhade 等[17]提出一种基于二等分K 均值聚类算法的无监督迁移学习技术，用于将患者非结构化的病理化验报告中的信息抽取出来，进而进行疾病预测。该研究首先将一些疾病名称、结构化的疾病检查数据，包括一些参考值范围等，输入到二等分K 均值算法中进行聚类；之后将学到的知识迁移到对非结构化病理化验报告的处理中，最终可以判断患者的疾病类型。Wang 等[18]提出了一种标签感知的跨专业迁移学习（Label-aware Double Transfer Learning，La-DTL)）命名实体识别框架，La-DTL 结合双向长短记忆网络和条件随机场对源域和目标域数据进行标注，使用MMD 的改进方法——标签感知MMD 减小两个领域中相同标签特征间的差距，同时使用KL 散度上限来寻找源域和目标域中可贡献的参数。Newman 等[19]使用不同领域数据训练得到的词向量作为基于循环神经网络命名实体识别模型的初始化向量值，从而进行迁移学习，结果显示，使用联合和预初始化[20]等迁移学习方法使模型获得了最佳的F1 值。

2.2 迁移学习技术在基于文本的疾病诊断中的应用

基于文本数据进行疾病诊断预测模型的构建是医疗领域中的热门研究领域。迁移学习技术在已被用于基于文本数据对白血病、轻度认知障碍、阿尔兹海默症等疾病的诊断中。

2.2.1 迁移学习技术在白血病诊断中的应用案例

白血病是一种严重的血液疾病，常导致患者出现一些严重的症状甚至导致患者死亡[21]。Vogado 等[22]提出一种基于CNN 和支持向量机（Support Vector Machines，SVM）的白血病诊断系统，系统将已训练好的CNN 如AlexNet[23]、Vgg-f[24]和CaffeNet[25]迁移到白血病诊断任务中来提取患者病历血片中的信息，然后使用信息增益比算法来做特征选择，最终将信息输入到SVM 中来进行白血病的诊断，结果显示该方法的准确率达到99%。

2.2.2 迁移学习技术在轻度认知障碍诊断中的应用案例

阿尔兹海默症是一种老年人常患的神经系统退行性疾病，又称为老年痴呆，早期诊断和治疗可以有效地延缓阿尔兹海默症的发生[26]。轻度认知障碍往往是阿尔兹海默症的前驱阶段[27]，轻度认知障碍患者很有可能发生阿尔兹海默症。Cheng 等[28]在2013 年利用基于特征映射的迁移学习方法将阿尔兹海默症患者和正常参照组的信息迁移到轻度认知障碍的诊断问题上，提出一种领域迁移支持向量机算法（Domain Transfer Support Vector Machines，DTSVMs），该算法主要包含两个部分：一是跨领域核函数迁移源域的知识，二是跨领域知识融合的适应性SVM 构建，最终该算法在测试集上的AUC 值为0.736，超过了SVMs和LapSVMs 的AUC 值，分别为0.683 和0.626。

2.2.3 迁移学习技术在阿尔兹海默症诊断中的应用案例

Cheng 等[29]又利用基于特征选择的迁移学习方法，将多个源域的知识迁移到阿尔兹海默症的早期诊断问题上，提出了多领域迁移学习框架（Multi-Domain Transfer Learning，MDTL）。作者对比了MDTL 与MTFS[30]，M2TFS[31]和Lasso 算法在阿尔兹海默症诊断问题上的效果，结果显示MDTL 的准确率可达0.947，超过了M2TFS 的0.915、MTFS 的0.907，以及Lasso 的0.879。

2.3 迁移学习技术在基于图像的疾病诊断中的应用

医疗图像中包含了丰富的信息，可帮助临床医生对就诊者的健康或疾病状况做出判断。近年来，迁移学习技术已被用于基于图像对乳糜泻、青光眼等疾病的诊断中。

Wimmer 等[32]将在图像分类数据集ImageNet 上训练好的CNN 模型迁移到乳糜泻的诊断上面，对比了只将CNN作为图像特征提取器而不做微调、微调CNN 的全连接层和微调整个CNN 模型等三种模型的预测效果，结果显示微调整个CNN 模型，使用SVM 和CNN 的SoftMax 层作为最后的分类器均能取得最佳效果。Asaoka 等[33]基于光学黄斑断层扫描眼底图像建立了一个青光眼早期诊断的迁移学习模型。该方法首先使用一个规模较大的眼底图像数据集预训练了一个CNN 模型，之后使用小型的训练集对其进行微调，最终该模型的AUC 值达到了0.937，超过了直接使用两个数据集训练得到的AUC 值0.782。

2.4 迁移学习技术在基于语音的疾病诊断中的应用

通过语音进行疾病诊断目前在医疗领域中的研究较少，随着其他领域语音分析研究的发展，也为迁移学习在医疗领域的应用提供了一个未来可关注的研究方向。

Banerjee 等[34]将深度信念网络（Deep Belief Network，DBN）和迁移学习策略相结合，提出了一个基于语音信号的创伤后应激障碍（Post-Traumatic Stress Disorder，PTSD）诊断模型。该模型首先使用一个大型的语音识别数据库训练DBN 模型，再将其迁移到PTSD 的诊断任务中，结果显示迁移学习方法可以将DBN 模型的PTSD 诊断准确率从61.53%提上到74.99%，超过目前最优的SVM 的准确率57.68%。

3 结语

迁移学习是一种可以将源域中的知识迁移到目标域任务上的机器学习方法，可以较好地适应医疗领域缺乏足够的有标签训练样本的状况。本文按照迁移学习方式的分类，分别介绍了基于实例的迁移学习、基于特征的迁移学习、基于模型的迁移学习和基于关系的迁移学习方法及其特点，回顾了近年来的研究进展，并重点介绍了迁移学习技术在医疗领域中的应用，为后续医疗领域中迁移学习的研究提供了参考。医疗领域的数据专业性较强，目前针对医疗领域的迁移学习理论方面的研究相对缺乏，应针对医疗数据特点与拟研究问题开发更加高效的迁移学习方法，开展大规模前瞻性研究评价迁移学习在处理医疗问题中的实际效果。随着基于神经网络的深度学习技术的发展与应用，迁移学习和神经网络相结合的方法已经受到越来越多的关注，其在医疗领域也将发挥越来越重要的作用。

[1] Pan SJ,Yang Q.A survey on transfer learning[J].IEEE Trans Knowl Data Eng,2009,22(10):1345-1359.

[2]庄福振,罗平,何清,等.迁移学习研究进展[J].软件学报,2015,26(1):26-39.

[3] Weiss K,Khoshgoftaar TM,Wang D.A survey of transfer learning[J].J Big data,2016,3(1):1-40.

[4] Zhang L.Transferadaptation learning: a decade survey[J].J Latex Class Files,2019,1-21.

[5] Dai W,Yang Q,Xue GR,et al.Boosting for transfer learning[A].The 24th Annual International Conference on Machine Learning held in conjunction with the 2007 International Conference on Inductive Logic Programming[C].New York:Association for Computing Machinery,2007:193-200.

[6] Yao Y,Doretto G.Boosting for transfer learning with multiple sources[A].2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C].San Francisco:IEEE,2010:1855-1862.

[7] Cheng Y,Cao G,Wang X,et al.Weighted multi-source TrAdaBoost[J].Chinese J Electron,2013,22(3):505-510.

[8] Uguroglu S,Carbonell J.Feature selection for transfer learning[A].Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases[C].Berlin:Springer Berlin Heidelberg,2011:430-442.

[9] Persello C,Bruzzone L.Kernel-based domain-invariant feature selection in hyperspectral images for transfer learning[J].IEEE Trans Geosci Remote Sens,2015,54(5):2615-2626.

[10] Pan SJ,Kwok JT,Yang Q.Transfer learning via dimensionality reduction[A].Proceedings of the 23rd AAAI Conference on Artificial Intelligence[C].Chicago:AAAI Press,2008:677-682.

[11] Dai W,Chen Y,Xue GR,et al.Translated learning: transfer learning across different feature spaces; proceedings of the advances in neural information processing systems[A].Proceedings of the 21st International Conference on Neural Information Processing Systems[C].NewYork: Curran Associates,2009:353-360.

[12] Yosinski J,Clune J,Bengio Y,et al.How transferable are features in deep neural networks?[A].Proceedings of the 27th International Conference on Neural Information Processing Systems[C].Cambridge:MIT Press,2014:3320-3328.

[13] Gretton A,Sejdinovic D,Strathmann H,et al.Optimal kernel choice for large-scale two-sample tests[A].Proceedings of the 25th International Conference on Neural Information Processing Systems[C].New York: Curran Associates,2012:1205-1213.

[14] Long M,Cao Y,Wang J,et al.Learning transferable features with deep adaptation networks[J].Com Sci,2015.

[15] Long M,Zhu H,Wang J,et al.Deep transfer learning with joint adaptation networks[A].Proceedings of the 34th International Conference on Machine Learning-Volume[C].Sydney:JMLR.org,2017:2208-2217.

[16] Davis J,Domingos P.Deep transfer via second-order markov logic[A].Proceedings of the 26th annual international conference on machine learning[C].New York:Association for Computing Machinery,2009:217-224.

[17] Wankhade NV,Patey MA.Transfer learning approach for learning of unstructured data from structured data in medical domain[A].Proceedings of the 2013 2nd International Conference on Information Management in the Knowledge Economy[C].Chandigarh:IEEE,2013:86-91.

[18] Wang Z,Qu Y,Chen L,et al.Label-aware double transfer learning for cross-specialty medical named entity recognition[A].Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies[C].New Orleans:Association for Computational Linguistics 2018:1-15.

[19] Newman GD,Zirikly A.Embedding transfer for low-resource medical named entity recognition: a case study on patient mobility[J].arXiν:2018,1-11.

[20] Yang W,LuW,Zheng VW.A simple regularization-based algorithm for learning cross-domain word embeddings[A].Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing[C].Copenhagen:EMNLP,2017.

[21] 张启科,李青芬,张浩军,等.急性白血病并发感染的研究进展[J].中华医院感染学杂志,2019,29(11):1756-1760.

[22] Vogado LH,Veras RM,Araujo FH,et al.Leukemia diagnosis in blood slides using transfer learning in CNNs and SVM for classification[J].Eng Appl Artif Intell,2018,72:415-422.

[23] Krizhevsky A,Sutskever I,Hinton GE.ImageNet classification with deep convolutional neural networks[J].Commun ACM,2017,60(6):84-90.

[24] Chatfield K,Simonyan K,Vedaldi A,et al.Return of the devil in the details: delving deep into convolutional nets[J].Computer Science,2014.

[25] Jia Y,Shelhamer E,Donahue J,et al.Caffe: convolutional architecture for fast feature embedding[A].Proceedings of the 22nd ACM international conference on Multimedia[C].New York:Association for Computing Machinery,2014:675-678.

[26] 姚钱,郑红云,李艳.阿尔兹海默症发病机制研究进展[J].职业与健康,2019,35(15):2153-2156.

[27] 王涛,郭志伟,母其文.轻度认知功能障碍的诊断与治疗研究进展[J].西部医学,2019,31(9):1470-1473.

[28] Cheng B,Liu M,Zhang D,et al.Domain transfer learning for MCI conversion prediction[J].IEEE Trans Biomed Eng,2015,62(7):1805-1817.

[29] Cheng B,Liu M,Shen D,et al.Multi-domain transfer learning for early diagnosis of Alzheimer's disease[J].Neuroinformatics,2017,15(2):115-132.

[30] Zhang D,Shen D.Multi-modal multi-task learning for joint prediction of multiple regression and classification variables in Alzheimer”s disease[J].Neuroimage,2011,59(2):895-907.

[31] Jie B,Zhang D,Cheng B,et al.Manifold regularized multitask feature learning for multimodality disease classification[J].Human Brain Mapping, 2015,36(2): 489-507.

[32] Wimmer G,Vécsei A,Uhl A.CNN transfer learning for the automated diagnosis of celiac disease[A].Proceedings of the 2016 Sixth International Conference on Image Processing Theory, Tools and Applications (IPTA)[C].Oulu:IEEE,2016:1-6.

[33] Asaoka R,Murata H,Hirasawa K,et al.Using deep learning and transfer learning to accurately diagnose early-onset glaucoma from macular optical coherence tomography images[J].Am J Ophthalmol,2019,198:136-145.

[34] Banerjee D,IslamK ,Mei G,et al.A deep transfer learning approach for improved post-traumatic stress disorder diagnosis[A].2017 IEEE International Conference on Data Mining (ICDM)[C].New Orleans:IEEE,2017.

迁移学习技术及其在医疗领域中的应用

引言