Article Info

近几年来，由于检查设备性能的提升和患者人数的增加，许多大型医院的检查科室运转已达到满负荷状态。上海市胸科医院作为诊治胸部疾病为主的三级甲等专科医院，2019年检查人次已达70万。而且受到检查工作流程及环境等因素的影响，医生在检查时无法同步录入诊断报告，如B超检查、病理取材时，医生因使用仪器而难以兼顾键盘录入；放射阅片场景下，读片医生的注意力主要集中于对影像的观察分析上，键盘输入容易导致注意力分散。因此，大部分医生需要通过事后回忆性录入或配备助手协助转录的方式完成报告撰写。据日本一项研究指出，74%的医生认为现行键盘录入的交互方式对诊疗工作产生了负面影响，包括工作效率降低、科室人力成本增加等[1-3]。因此，如何优化现有医技科室的工作模式，在实现诊疗效率提升的同时减轻临床工作压力，是当前医院发展中亟待解决的重要问题之一。

随着人工智能技术的日益成熟，人工智能与医疗健康领域的融合也在不断加深。智能语音识别作为人工智能技术之一，在辅助医生病历书写、报告录入方面应用效果良好[2]。Blackley Suzanne指出美国多家医院放射科运用Nuance公司的医疗语音识别系统后，医生报告录入的时间缩短为原来的五分之一[4]。西班牙布宜诺斯艾利斯医院对移动环境中的语音识别技术进行探索，识别率达到94.1%[5]。虽然我国对该领域的研究起步较晚，但发展迅速。根据世界产权组织近期开展的一项研究表明，中国的大学在人工智能，尤其是语音识别领域的创造发明显示出强劲发展势头。工信部于2017年出台了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》，其中明确支持发展智能语音识别交互系统[6]。

因此，本研究以上海市胸科医院为背景，将智能语音识别技术作为切入点，构建医技报告交互系统。通过与医技检查流程的紧密结合，实现检查全程无接触式语音输入，使得医生可以正确、高效地撰写报告，并且对其应用情况进行研究分析，为语音识别技术在中文医疗领域的应用提供参考依据。

1 技术原理

语音识别是指将人类说话的声波转换成可识别的文本信息，这项技术的重点在于如何使计算机听懂人类的语言[7]。本研究所设计的医技报告交互系统根据中文医疗领域相关标准及场景，定制专业模型实现语音信号的识别及转换，从而输出文本结果，具体流程见图1。

医生的语音通过麦克风输入后，先经过分帧、预加重等预处理操作后转成数字信号，再利用端点检测、噪音消除模块进行处理，以确定语音起始及结束位置，并进一步消除由语音采集设备等外界环境因素引起的信号干扰[8]。接着将处理过的信号传入特征提取模块，把能有效反映语音特征的信息转化成一组离散型矢量序列，压缩封装后传送至识别引擎，开始语音识别搜索[9]。

识别引擎作为整个系统的中枢，分为医疗环境声学模型、医疗语言模型、识别字典三个部分。医疗环境声学模型基于隐马尔可夫模型（Hidden Markov Models, HMM）构建，通过采集医技科室真实音频数据，对模型进行自适应训练[10]。由于音频中包含了真实医疗环境中的噪声、采集设备噪声及医生个体发音习惯，因而训练出的模型更加符合实际应用场景，极大地增强了该模型的识别性能。识别字典则由指令动作库和标准医学词语库组成，既包含了报告创建、保存等动作类操作指令，也涵盖了ICD10、SNOMED等医学领域的标准诊断及术语，有效解决了通用语音识别系统无法识别医学专业词汇的问题[11-12]。医疗语言模型主要负责句子的构成，能够结合语法、上下文结构等要素来判定不同词汇之间的联结关系，从而将识别出的词语最终组合成句[13]。为提高该模型的适用性，前期导入了医技报告数据进行训练，以使其返回结果时能够优先输出专业相关结果。

经过识别引擎处理后的数据将传入语义理解模块，该模块是基于医技科室报告录入场景进行语义定制，能够根据实际应用场景及内置医学知识库对结果进行语义分析，从而理解医生意图，以达到优化识别结果的目的。至此，系统完成所有语音识别处理步骤，输出最终结果。

2 功能设计

2.1 语音命令

基于系统中预设的指令动作库，通过语音代替鼠标，与医技报告系统实现人机交互。当语音通过识别引擎转化成文本以后，系统根据上下文语境、关键词及光标位置等因素，综合判定是否为文本输出或执行具体操作命令[14]。此外，由于医技科室业务不同，其检查操作流程也大相径庭。因此，本系统以科室为单位个性化定制相应的动作类语音操作指令，深度贴合检查操作场景，实现B超、病理取材等全程非接触式操作。以病理科为例，针对取材室的重污染环境，利用支架显示器及脚踏板开关等设备，使医生可以边取材、边录入报告。首先，通过口述住院号检索并选定患者，接着对该患者的送检标本进行取材，在操作的同时可口述新增材块命令在系统中依次添加材块，再通过语音录入具体取材描述内容，取材完成后口述打印包埋盒命令，最后将其储存归档。

2.2 语音结构化模板

语音录入模式与现行结构化报告模板相兼容，实现结构化节点的语音自动填充，系统界面见图2。

如图2所示，医生首先通过语音指令调出相应模板，再口述检查具体数值，如右肾长径10 cm，系统会自动将数值回填至对应的结构化节点内。该功能使得原有模板可以有效利用，同时也进一步提升了语音录入模式与现行系统的协同性。

3 系统评价

医技报告交互系统自2019年12月在放射科、病理科上线以来，截至2020年1月底累计输入约24.6万字，统计情况见图3。

因考虑到系统对医生工作习惯影响较大，为保障科室工作平稳运行，采取了逐步推广模式安排上线，本研究选择先期上线的放射CT及MR报告、病理冰冻及常规报告作为应用场景进行统计。由图3可见，经过前两周的培训及适应后，从12月16日开始，通过语音输入的字数明显增加，后续几周一直保持平稳增长态势。最后一周该指标下滑，是由于临近春节检查人数减少，工作量大幅降低所致。

为进一步了解系统具体运行情况，本研究从撰写冰冻病理报告的应用场景入手，在技术及应用效果两个层面对相关指标进行深入统计及分析。

3.1 技术评价

语音识别的准确性与系统可用程度密切相关，因此采用识别率作为评价指标，其计算公式为[15]：

利用系统采集的语音数据，对上线后1个月内每周的识别情况进行统计，见表1。

在系统上线之前，先将1年内各类型病理报告导入进行人工智能训练，以确保系统对病理专业词汇的初始识别率。上线第一周识别率较低，仅为74.67%，这是由于该系统对医生的工作习惯有较大改变，运行初期尚处于磨合阶段。此外，医生口音也对识别准确性产生一定影响。从第二周起，识别单词数、识别率均逐步上升，最后一周识别率比第一周提高了21.05%，这表明系统通过一段时间的自适应学习后，能够有效克服病理科医生的发音习惯、说话口音等个性化差异，系统体验效果得到大幅改善。

3.2 应用效果

为评价医技报告交互系统的实际应用效果，对该系统上线前后的相关指标进行统计分析，见表2。

由表2可见，与传统键盘录入的模式相比，医生通过语音录入报告更为高效，记录时长有所减少。而在报告审核方面，语音录入报告所需审核时间则比键盘录入略长，原因是医生疲劳时容易产生声调变化、饶舌等现象，导致语音识别的准确性有所降低，因此在审核阶段，需要花费更多时间检查校正。从整体而言，通过语音录入的报告周转时间较短，这是由于该系统的使用实现了病理科医生边取材、边录入报告的需求，有效缩短了取材时间，不仅降低了医生的工作负荷，也增强了患者获取报告的及时性。

4 结语

本研究将智能语音识别技术与医技报告系统相融合，医生通过语音即可实现医技报告的完整录入。该系统的应用既有助于提高医技科室的工作效率，又减少了病人的等待时间，对检查医疗流程的优化起到了积极的作用，未来可陆续推广到其余医技科室全面应用[16-17]，但仍存在一定局限性，比如同时有多位医生使用语音录入时，会造成互相干扰，导致识别结果不佳；对于一些未纳入系统的医学词汇，容易产生识别错误[18-19]。因此，如何有效提高医疗领域语音识别的准确率将成为后续探索和研究的重点。

[1]徐国强.“语音输入”提高临床现场的诊疗效率——探索在撰写读片报告时的语音识别软件的应用[J].中国信息界(e医疗),2010,(12):51-52.

[2]王飞,胡川,罗浩.医疗场景智能语音识别技术的应用研究[J].中国数字医学,2019,14(12):19-21.

[3]郭江博,徐家富,苏玉成.医院实施语音录入系统的可行性[J].医疗装备,2017,30(23):27-28.

[4]Blackley SV,Jessica H,Liqin W,et al.Speech recognition for clinical documentation from 1990 to 2018: a systematic review[J].J Am Med Inform Assn,2019,(4):4.

[5]Renato A,Berinsky H,Daus M,et al.Design and evaluation of an automatic speech recognition model for clinical notes in spanish in a mobile online environment[J].Studies in health technology and informatics,2019,264:1761-1762.

[6]《促进新一代人工智能产业发展三年行动计划(2018-2020年)》印发[J].机器人产业,2018,(1):70-79.

[7]丁枫林,郭武,孙健.端到端维吾尔语语音识别研究[J].小型微型计算机系统,2020,41(1):19-23.

[8]杨健,李振鹏,苏鹏.语音分割与端点检测研究综述[J].计算机应用,2020,40(1):1-7.

[9]郑纯军,王春立,贾宁.语音任务下声学特征提取综述[J/OL].计算机科学:1-19[2020-02-29].http://kns.cnki.net/kcms/detail/50.1075.TP.20191225.1332.054.html.

[10]李云红,梁思程,贾凯莉.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377.

[11]于茵茵,王旭东.语音识别技术在口腔门诊病历系统中的应用[J].河南科技,2019,(23):36-38.

[12]刘静涛,叶飞,叶忠.一种基于语音指令集的数据维护方法研究[J].集成电路应用,2019,36(12):1-3.

[13]刘畅,张一珂,张鹏远,等.基于改进主题分布特征的神经网络语言模型[J].电子与信息学报,2018,40(1):219-225.

[14]于镭,李涛涛.基于ROS的智能语音控制系统设计[J].电子测量技术,2019,42(23):35-39.

[15]陈青筱.基于语音识别和语义理解的口腔电子病历记录系统效果评价[A].第十六次全国口腔医学数字化学术会议暨中华口腔医学会第四届口腔医学计算机专业委员会第二次全体委员会议论文汇编[C].中华口腔医学会口腔医学计算机专业委员会:中华口腔医学会,烟台:2018:40.

[16]王红迁,汪鹏,左锋.医疗智能语音识别系统的研发与应用[J].中国数字医学,2018,13(10):5-7.

[17]樊翊凌,张继东,贾昊.人工智能语音系统在日间手术患者术后随访中的应用[J].华西医学,2019,34(2):164-167.

[18]李金苗,李鹏,刘庆金.智能语音识别技术在临床医疗的应用研究与实践[J].中国卫生信息管理杂志,2019,16(2):218-221.

[19]虞永强,陈演桐,郑金存.阵列麦克风声源定位技术在师范生授课过程中的应用研究[J].电子技术,2018,47(12):42-44.

基于智能语音识别技术的医技报告交互系统的设计与应用

引言