智能提取胃癌分期相关信息研究

智能提取胃癌分期相关信息研究

黄文鹏a,李莉明a,程铭b,李爱云a,梁盼a,雍刘亮a,高剑波a

郑州大学第一附属医院 a. 放射科;b. 信息处,河南 郑州 450052

[摘 要] 目的 采用自然语言处理技术从非结构化手术记录中智能提取胃癌分期的相关信息,并评估其效能。方法 从电子病历系统中搜集2016至2018年确诊为胃癌并行手术的病例共632人,分析其手术记录,根据临床问题确定临床实体和属性。由两名医生进行标注,结果作为金标准。按3:1将数据集随机分为训练组和验证组。提取记录信息主要包括两步,首先采用识别医学实体,其次采用提取属性。采用精确度,召回率和F值评估模型效果。结果 模型分析了共21319个实体,4390个属性。模型建立中,精确匹配医学实体识别平均精确度0.84,召回率0.87,F值0.85。属性平均精确度0.86,召回率0.88,F值0.87。松弛匹配的F值大于精确匹配下的F值。158份验证组手术记录中,19.62%出现浆膜受侵,37.34%出现肿大淋巴结,4.43%出现腹膜转移。结论 本文提出了一种新的混合方法从手术记录中智能提取胃癌分期相关信息,未来将有可能在不同系统疾病的电子病历中应用。

[关键词] 腹膜转移;电子病历;实体识别;信息提取;胃癌

引言

胃癌是全世界发病率第五的癌症,其死亡率在癌症相关死亡率中位列第三[1]。每年约70%的新发胃癌病历发生在亚洲,中国约占46.8%[2]。约30%的患者术前或术中发生转移,其中腹膜是主要的转移部位之一,与多种因素相关[3-4]。影像学检查对腹膜转移的检出有限[5],术中所见是确定腹膜转移的金标准[6]。手术记录是术者对术中所见的直接描述,真实又直观,是评估胃癌分期,尤其是M分期的重要参考,对科研、临床治疗和预后有重要的意义。目前手术记录的文本主要采用非结构化的自然语言记录,不利于临床分析或科研数据搜集。如果可以智能地从非结构化的手术记录文本中提取有用信息,对科研和临床将有很大助益。因此,越来越多的研究者开始关注自然语言处理技术在医疗信息研究中的应用[7]

自然语言处理在英文电子病历中得到广泛应用[8],但并不能将其直接应用到中文医学文本中,这主要是中英之间表达方式不同[9]。从非结构化的中文文本中智能提取有用信息是一项非常困难的任务。Liang等[10]首次提出条件随机场(Conditional Random Field Layer,CRF)和支持向量机的混合模型,在中文入院记录中提取中西药相关的信息。最近,Chen等[11]采用基于规则的方法从电子病历中抽取肝细胞癌分期的相关信息,获得肝癌的CLIP评分,并取得较高的精确度(Precision,P)、召回率(Recall,R)和F值。但是,从手术记录中智能提取胃癌相关信息的研究尚十分少见,本研究的目的是采用自然语言处理技术从非结构化手术记录中智能提取胃癌分期的相关信息,并评估其效能。

1 材料与方法

1.1 患者与标注

从电子病历系统(Electronic Medical Records,EMRs)中搜集2016年1月至2018年1月胃肠外科诊断为胃癌并行手术的病例共632人,分析他们的手术记录,确定与胃癌TNM分期相关的共7个关键问题,分别是:① 手术名称;② 肿瘤位置;③ 肿瘤大小;④ 肿瘤是否侵及浆膜层;⑤ 是否可见肿大淋巴结,有则记录位置;⑥ 是否可见腹水,有则记录腹水量;⑦ 是否有转移结节,有则记录位置。根据这7个关键问题,由临床医生和信息学博士共同决定关键医学实体及属性。并在此基础上,提取一种新的医学实体属性抽取方法。另外,采用项目组自己研发的医学文本标注软件对手术记录进行标注(软件著作权登记号2019SR0653695)。

由两名医生(分别具有5年及3年临床工作经验)使用标注软件手动标注632份手术记录中实体和属性,当两名医生标注不一致时,由第三位医生(具有10年以上临床工作经验)决定,标注结果作为金标准。将632份手术记录按照3:1的比例随机分为训练组和验证组,训练组用来训练模型,验证组用来检验模型效能(图1)。为减少随机分类所带来的偏差,对随机选择的过程重复执行10次,模型性能为10组实验结果的平均值。

图1 研究流程图

1.2 提取策略

根据手术记录所关注的7个问题,确定与之相关的医学实体。例如,肿瘤位置是我们关注的问题,手术记录中描述“幽门可及质硬肿块”,那么“肿块”就是病变实体,“幽门”就是位置实体。从实体周围筛选属性,将非结构化文本转换成结构化文本,从而提取有用信息。结构化之后的文本包括三部分:实体类型、实体名称、实体属性。所以,我们的提取信息的步骤是先识别实体,再提取其属性。

第一步,医学实体识别。我们采用混合双向长短时相记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)和CRF模型,识别句子中的医学实体。长短时记忆网络[12]是一种特殊的循环网络模型,克服了传统循环网络模型由于序列过长而产生梯度弥散问题。长短时记忆网络模型通过特殊设计的门结构使得模型可以有选择的保存上下文信息,具体公式如公式(1)所示。

其中,λ是激活函数,⊙ 是点乘运算,tanh表示双曲正切激活函数,itftot分别表示在时刻t的输入门,忘记门,输出门,Ct表示t时刻的转态,ht表示t时刻的输出。

此外,BiLSTM相关参数如表1所示。其中,L指字向量的维度,LBilstm指输入序列的最大长度,λ是优化函数的学习率。

表1 BiLSTM相关参数

参数 L LBilstm Λ值100 128 0.001参数 Dropout Batchsize Epochs参数 0.5 16 15

CRF是一种较新的无向图模型,由Laff etry等[13]在最大熵和隐马尔可夫两个模型的基础上发展出的一个判别式概率模型,对于有序数据的标注与切分非常适用。医学实体主要分以下四类:

(1)手术名称,指所行手术的名字。例如:“胃大部切除术”“腹腔镜探查术”“剖腹探查术”等,后两者手术名称对腹膜转移起到提示作用。

(2)病变,指细胞、组织和器官等发生的病理变化。例如“肿块”“淋巴结”“结节”等。其中“结节”是判断腹膜转移灶的主要实体。

(3)部位,指人体的解剖位置,文中主要指肿瘤和淋巴结解剖部位。肿瘤的位置,例如“贲门”“胃底”“胃体”“全胃”等;淋巴结的位置,例如“腹主动脉旁”“胃小弯侧”“胃大弯侧”“肠系膜根部”等;结节的位置,例如“盆腔”“大网膜”等。

(4)征象,记录中组织或器官的表现。例如,“侵及浆膜”“浆膜皱缩”“浆膜可见瘤体突出”“浆膜面结节样改变”“积液”“液体”“腹水”等。“腹水”与“积液”提示可能存在腹膜转移。

标注采用BIO方案,B代表当前词是一个组块的开始,I代表当前词在一个组块中,O代表当前词不在任意组块中。使用BIO标签方案的样例如下所示:“…决定行胃大部切除术…”BIO:…决/O,定/O,行/O,胃/B,大/I,部/I,切 /I,除/I,术/I…。

接着,属性提取。采用规则的方法提取实体的属性。因为手术记录来自同一医院的同一个大科室,虽然每位医生的手术记录有自己独特的语言,但是他们整体的描述还是相似的,实体和属性以及他们在字段中的位置相对固定,所以我们采用规则的方法来提取属性[14]。与实体相关的属性主要分为两类,数字和否定。通常情况下,一小段文本包含一个实体,与之相关的属性均在实体邻近的位置,因此,我们设计实体前后句子的采集窗口,窗口大小为8个字符,在此基础上,采用规则方法抽取实体属性。属性主要分以下两类:

第一类,数字提取。数字主要描述肿瘤的大小和腹水的量,我们设计提取规则:“\d+(\.\d+)[units]”,“\d+(\.\d+|)[units]*\d+(\.\d+|)[units]”。例如,“肿瘤大小约4 cm×5 cm”,“结节大小约2 cm”,“腹水量约150 mL”。

第二类,否定词提取。否定可以帮助临床排除一些鉴别诊断。在胃癌手术记录中,否定的描述可以有助于胃癌分期的判断。例如,“腹膜未见明显转移结节”,则提示胃癌分期M0,与Mitchell等[15]开发的否定识别方法类似。

文本被标注后,将提取的临床实体和属性根据固定的模式放入模式中,即按照类别、关键词、属性的顺序排列(<type,key, attributes>)生成结构化的文本。

1.3 评估方法和统计方法

对文本进行标注后生成文本标注的金标准,标注结果为:标注实体对应的位置编号,文本第一个字符的位置为0,例如:“腹腔内无腹水”与“腹水”实体的位置信息是4:5。判断模型是否能够准确识别实体,主要通过比较模型识别的实体位置和医生标注的实体位置是否一致。如果二者完全相同,则识别结果为精确匹配。如果模型标注的位置区间包含实体的区间,那我们认为也是正确的即松弛匹配。松弛匹配不存在语义判断,只关注实体区间位置。

本文采用Python3.6(https://www.python.org)和Scikitlearn0.20(https://scikit-learn.org/stable)库建立机器学习模型。采用了机器学习模型常用的评估指标来评估模型的性能,即精确度(Precision,P)、召回率(Recall,R)和F值。精确率,又称查准率,正确预测为正的占全部预测为正的比例,即真正正确的占所有预测为正的比例。在本文中,指模型识别并证实正确的实体数目与预测为实体的总数目之比。召回率,又称查全率,正确预测为正的占全部实际为正的比例,即真正正确的占所有实际为正的比例。本文中指模型识别并证实正确识别的实体数目与医生标注的实体总数目之比。F值是P和R的调和平均值,由两者计算得出,同时受两者的影响[F=2PR/(P+R)]。

我们将评估整体实体和属性在精确和松弛匹配下的P、R和F值,评估各个类型的医学实体和属性在精确和松弛匹配下的P、R和F值。

2 结果

模型分析了632份手术记录,21319个实体,2145个与数字相关的属性,2250个与否定相关的属性。474份作为训练组,158份作为验证组。每个关键问题至少有20个样本作为训练,20份作为验证。医生标注的医学实体最终结果,见图2。

图2 医生标注医学实体的结果示例

注:红色方框标注医学实体,属性在医学实体周围获得。

模型主要步骤包括两个方面,实体识别和属性提取,具体结果如表2所示。结果显示了在精确和松弛匹配下医学实体及其属性的P、R和F值。此外,松弛匹配的F值在三种实体类别以及属性的识别中,大于精确匹配下的F值。BiLSTM-CRF对实体的识别在精确和松弛匹配下的F值均较单纯CRF模型要高(表3)。医学实体识别的过程将直接影响属性提取的结果,所以我们首先评估医学实体识别的性能,然后评估属性的性能。

表2 医学实体和属性的识别结果

类别 精确 松弛P R F P R F实体平均 0.84 0.87 0.85 0.89 0.90 0.89手术名称 0.85 0.93 0.89 0.90 0.93 0.91病变 0.87 0.88 0.87 0.89 0.92 0.90部位 0.76 0.85 0.80 0.83 0.89 0.85征象 0.86 0.82 0.84 0.92 0.87 0.89属性平均 0.86 0.88 0.87 0.91 0.93 0.92

表3 BiLSTM-CRF与CRF的比较

类别 BiLSTM-CRF CRF P R F P R F实体平均(精确) 0.84 0.87 0.85 0.86 0.83 0.84实体平均(松弛) 0.89 0.90 0.89 0.87 0.88 0.87

验证组手术记录共158份,由结构化文本可知,31例(19.62%)出现浆膜受侵,59例(37.34%)出现肿大淋巴结,7例(4.43%)出现腹膜转移(图3)。

图3 与胃癌分期相关的问题在验证组中的结果

3 讨论

研究发现,本文提出的方法可以有效的识别医学实体并抽取其相关属性,使非结构化的文本转化为结构化的文本,更方便统计胃癌相关数据,得到关键问题的答案。

近几年,信息学与医学的结合在科研与临床领域越来越广泛,放射组学就是典型的代表,临床研究已经涉及消化、泌尿、呼吸等多个系统[16-18]。本研究也是结合了医学与信息学,同放射组学一样,医生需要提出待解决的问题,并对影像和文本进行标注,通过计算机模型进行处理,最终得到医生想要的数据,为临床的科学研究以及患者个体化诊疗带来帮助。研究中提出了一种混合BiLSTM+CRF与规则的方法提取医学实体和属性,是基于深度学习的方法与基于统计模型的方法的结合。BiLSTM是一种基于深度学习的方法,CRF是基于统计模型的方法。目前在国内电子病历中最常使用的是CRF模型。CRF模型依赖于特征的质量,特征质量的高低直接影响了模型的性能。与CRF不同,BiLSTM是一种无监督的学习,模型自主抽取特征,具有自动学习特征的能力,可与CRF模型互为补充,提高性能。有研究也采用人工设计规则的方法抽取实体,由相关领域的专家来手工构造相应的规则模板或专业词典,再利用字符串匹配等算法对相关实体进行识别[11],这种方法最大的缺点是对数据依赖性过强、可移植性差,而且手工编写规则模板需要许多时间。而本研究中的方法可以更好的移植应用到不同的数据集,具有很好的扩展性。结果显示,BiLSTM+CRF神经网络在连续文本所建的模型中取得了良好的效果。本文使用的神经网络模型识别医学实体,这为中文医学信息抽取提供了新的思路。

研究中仅仅分析了胃癌的手术记录,这是因为手术记录中对的腹腔情况的描述,是临床胃癌M分期的金标准[11],与治疗方案和预后关系密切[19-20],对临床和科研意义重大。本文中与腹膜转移相关的内容在第二、三、四类临床实体中体现。本院手术记录中的常常这样描述腹膜转移,例如,“盆腔可见乳白色结节”“大网膜见多发粟粒样结节”等。其中,“结节”属于第二类实体,结果显示,第二类实体在松弛情况下的P值是0.89,R值是0.92,F值是0.90,这说明本研究对腹膜转移灶的检出效能比较好。“盆腔”和“大网膜”属于第三类实体,即部位。如果手术记录中对转移灶的部位描述比较详细,那么结构化的文本结果将显示腹膜转移的所有部位。目前,我国抗癌协会胃癌专业委员会推荐采用日本胃癌学会的腹膜分期[21]。当文本显示转移结节位置中有“盆腔”的时候,则提示腹膜分期为P1c[22]。第四类实体是对征象的描述,手术记录中常见到“盆腔可见积液”“可见腹水”“可见少量黄色液体”等描述,这些征象提示腹膜转移的可能性大。

本文将非结构化的文本转化为结构化文本之后,不仅可以显示是否腹膜转移,还可以显示腹膜转移的具体分布。同时,结果还可以显示胃癌浆膜浸润的情况,浆膜浸润是腹膜转移的高危因素。虽然病理是确定浆膜浸润的金标准,但是术中所见浆膜的形态与病理有很大的相关性。淋巴结转移也是腹膜转移的高危因素,结果不仅可以显示是否存在淋巴结转移,还可以显示转移淋巴结的位置。例如,当转移淋巴结的位置中有腹主动脉旁时,则提示胃癌分期M1,而不仅仅是N1[23]。经结构化处理过的手术记录,除去了一些重复和繁琐的手术步骤记录,只专注于关键信息,节省了时间与人力,同时保证了正确性。目前在影像报告中首先受到国内学者关注[24]

本文也有一定的局限性。文中采用同一医院同一部门的手术记录,其中医学实体表达比较固定,这也是我们实体识别和属性提取F值较高的原因之一。为了提高模型的稳定性,需要采用多中心的临床数据进行模型训练验证。

综上所述,本文提出了一种新的混合方法从手术记录中提取胃癌分期相关信息,并取得了良好的效果。笔者认为将非结构化的文本转化结构化文本将是一项十分有意义的工作,未来将有可能在不同系统疾病的入院记录、病程记录等一系列医疗文本中使用。

[参考文献]

[1] Torre LA,Bray F,Siegel RL,et al.Global cancer statistics,2012[J].CA Cancer J Clin,2015,65(2):87-108.

[2] Shen L,Shan Y,Hu H,et al.Management of gastric cancer in Asia: resource-stratified guidelines[J].Lancet Oncology,2013,14(2):535-547.

[3] Chen AH,Chan WH,Lee YH,et al.Routine chest CT for staging of gastric cancer[J].Br J Surg,2019,106(9):1197-1203.

[4] Young JJ,Pahwa A,Patel M,et al.Ligaments and lymphatic pathways in gastric adenocarcinoma[J].Radiographics,2019,39(3):668-689.

[5] Liu S,He J,Liu S,et al.Radiomics analysis using contrastenhanced CT for preoperative prediction of occult peritoneal metastasis in advanced gastric cancer[J].Eur Radiol,2020,30(1):239-246.

[6] Yoon H,Lee DH.New approaches to gastric cancer staging:beyond endoscopic ultrasound,computed tomography and positron emission tomography[J].World J Gastroenterol,2014,20(38):13783-13790.

[7] Yang Z,Huang Y,Jiang Y,et al.Clinical assistant diagnosis for electronic medical record based on convolutional neural network[J].Sci Rep,2018,8(1):6329.

[8] Yim WW,Yetisgen M,Harris WP,et al.Natural language processing in oncology: a review[J].JAMA Oncol,2016,2(6):797-804.

[9] Zhang S,Kang T,Zhang X,et al.Speculation detection for Chinese clinical notes: impacts of word segmentation and embedding models[J].J Biomed Inform,2016,(60):334-341.

[10] Liang J,Xian X,He X,et al.A novel approach towards medical entity recognition in Chinese clinical text[J].J Healthc Eng,2017,16.

[11] Chen L,Song L,Shao Y,et al.Using natural language processing to extract clinically useful information from Chinese electronic medical records[J].Int J Med Inform,2019,(124):6-12.

[12] Hochreiter S,Schmidhuber J.Long short-term memory[J].Nat Commun,2014,9(8):1735-1780.

[13] Lafferty J,McCallum A,Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[A].ICML’01 Proceedings of the Eighteenth International Conference on Machine Learning[C].Changsha:Chinese society of artificial intelligence and China Computer Society,2001:282-289.

[14] Wang H,Zhang W,Zeng Q,et al.Extracting important information from Chinese operation notes with natural language processing methods[J].J Biomed Inform,2014,(48):130-136.

[15] Mitchell KJ,Becich MJ,Berman JJ,et al.Implementation and evaluation of a negation tagger in a pipeline-based system for information extract from pathology reports[J].Stud Health Technol Inform,2004,107(1):663-667.

[16] Dong D,Tang L,Li ZY,et al.Development and validation of an individualized nomogram to identify occult peritoneal metastasis in patients with advanced gastric cancer[J].Ann Oncol,2019,30(3):431-438.

[17] Wu S,Zheng J,Li Y,et al.A radiomics nomogram for the preoperative prediction of lymph node metastasis in bladder cancer[J].Clin Cancer Res,2017,23(22):6904-6911.

[18] Huang Y,Liu Z,He L,et al.Radiomics signature: a potential biomarker for the prediction of disease-free survival in early-stage (I or II) non-small cell lung cancer[J].Radiology,2016,281(3):947-957.

[19] Rau B,Brandl A,Piso P,et al.Peritoneal metastasis in gastric cancer: results from the German database[J].Gastric Cancer,2020,23(1):11-22.

[20] Solomon D,DeNicola N,Feingold D,et al.Signet ring cell features with peritoneal carcinomatosis in patients undergoing cytoreductive surgery and hyperthermic intraperitoneal chemotherapy are associated with poor overall survival[J].J Surg Oncol,2019,119(6):758-765.

[21] 日本胃癌学会.胃癌处理规约[M].东京:金原出版株式会社,2017.

[22] 中国抗癌协会胃癌专业委员会.胃癌腹膜转移防治中国专家共识[J].中华胃肠外科杂志,2017,20(5):481-490.

[23] Amin MB,Edge S,Greene F,et al.AJCC Cancer Staging Manual[M].8th ed.New York:Springer,2016.

[24] 林妍.数据挖掘在医学影像储存与传输系统结构化报告中的应用[J].影像研究与医学应用,2019,3(12):94-95.

Intelligent Extracting Method for Gastric Cancer Staging Information

HUANG Wenpenga, LI Liminga, CHENG Mingb, LI Aiyuna, LIANG Pana, YONG Liulianga, GAO Jianboa
a. Department of Radiology; b. Department of Information, The First Affiliated Hospital of Zhengzhou University, Zhengzhou Henan 450052, China

Abstract: Objective To extract staging information of gastric cancer from unstructured surgical records automatically with natural language processing and evaluate the performance. Methods From 2016 to 2018, a total of 632 gastric cancer patients who underwent surgery were collected from the electronic medical record system, and their surgical records were analyzed to determined the entities and attributes according to clinical problems. Two experienced clinicians annotated entities and attributes which were served as gold standard. On a scale of 3:1, 632 cases were randomly divided into training group and validation group. The extraction of recorded information mainly consists of two steps: firstly, the identification of medical entities; secondly, the extraction of attributes. Precision, recall rate and F-measure were used to evaluate the performance. Results A total of 21319 entities and 4390 attributes were analyzed. The average precision, recall and F-measure of clinical entities were 0.84, 0.87 and 0.85 under strict matching criteria. The average precision, recall and F-measure of attributes were 0.86, 0.88 and 0.87 under strict matching criteria.F-measures under relaxed matching criterion were all greater than that under strict matching. In validation group, 19.62% patient have serosal invasion, 37.34% patient have enlarged lymph nodes and 4.43% patient have peritoneal metastasis. Conclusion This study presents a new hybrid method to extract gastric cancer staging information and will be likely to be applied in electronic medical records of diff erent systems in the future.

Key words: peritoneal metastasis; electronic meclical records; entity recognition; information extraction; gastric cancer

收稿日期:2020-06-04

基金项目:国家自然科学基金(81701687;81671682)。

通信作者:高剑波,博士生导师,主要研究方向为消化系统。

通信作者邮箱:cjr.gaojianbo@vip.163.com

[中图分类号]R735.2

[文献标识码]A

doi:10.3969/j.issn.1674-1633.2021.01.007

[文章编号]1674-1633(2021)01-0040-04

本文编辑 崔丽君