基于多流卷积神经网络的动态手势识别

王增峥,洪昕

大连理工大学 生物医学工程学院,辽宁 大连 116000

[摘 要]目的 提出一种基于表面肌电信号的多流卷积神经网络动态手势识别方法。方法 在表面肌电信号的基础上,引入了加速度以及陀螺仪信号来表征手势的运动特征,并给出了适应输入信号的三分支多流卷积神经网络结构。结果 经实自建数据库实验表明,多流卷积神经网络对多类别数据表征的动态手语孤立词有很好的识别效果,不会因数据类别差异而产生的过拟合现象。结论 该方法能有效识别多类别数据表征的动态手势,具有一定的创新性。对于其它的多类别数据表征的自然语言信号而言,该结构有一定的参考价值。

[关键词]手势识别;自然语言处理;卷积神经网络;过拟合

引言

手势是人类最早使用且极具表现力的交流方式之一。手势识别技术不仅在自然用户界面发展中有着十分重要的地位,在康复医疗[1-3]、假手控制[4]以及临床医疗[5-6]等领域都有着有广泛的应用。目前,手势识别依靠的技术方法多种多样,从最早的通过传感器获得关节弯曲角度来实现识别的数据手套[7],到当下主流的计算机视觉识别方法[8-11],此外还有依靠超声波的多普勒效应和飞行时间进行手势的方法[12],利用电磁波进行识别等。基于表面肌电信号的手势识别的方法以其受外界情况干扰小、信号超前于肌肉力、移动性好以及成本低廉等特点,在众多手势识别的方法中具有其独特的优势。

由于表面肌电信号具有较强的时序性,因此常用活动段分割的方式来截取表面肌电信号,并通过活动段内提取出的多种不同特征来表征原始表面肌电信号[13]。提取的特征通常选用时域特征(如积分肌电值、均方根值、过零点数和斜率变化数等)、频域特征(如平均功率频率和中位频率等)以及通过时频域分析(如Wingner-Ville变换及小波变换等)得到的特征。而后,将特征向量输入手势识别模型中进而得到识别结果。常用的手势识别方法有基于模板匹配的动态时间归整算法、基于神经网络的算法、基于统计学理论的支持向量机算法以及隐马尔科夫模型等等。而基于卷积神经网络的手势识别方法,区别于以上所有的方法,它不再依靠人工设计的方法来提取特征,可以直接利用原始的肌电信号,这不仅规避了复杂且计算量很大的信号预处理部分,也解决了特征选择具有的局限性的问题。但在实际的动态手势识别中,仅依靠表面肌电信号进行识别不能很好地表征手势在运动中的特征。因此,我们引入了能表征运动特征的加速度流以及陀螺仪流,并给出了适应情况的肌电流、加速度流以及陀螺仪流的三分支结构。

1 多流卷积神经网络

1.1 卷积神经网络

卷积神经网络作为图像识别领域内应用最为广泛的方法,在深度识别领域有着十分重要的地位。受哺乳动物视觉分级进行信息处理的方式启发,卷积神经网络同样具有多层结构,主要包含输入层、卷积层、池化层、全连接层以及输出层,其中卷积层与池化层是卷积神经网络用来获取特征和合并特征的特有结构。在一个卷积神经网络中,通常有多个卷积层与池化层逐级提取各个层次的特征,对它们的设计也通常决定了网络性能的优劣。

1.2 多流卷积神经网络

因要表征动态手势的不同要素,有多种不同的数据有待通过卷积神经网络进行识别,但不同数据之间是具有显著差异的。如果直接将各种数据合并在一起作为输入,那么在特征提取的过程中,各种数据间的变化将被突出,而每种数据的特征将被弱化。因此,我们尝试将多种数据分别进行特征提取。在我们动态手势识别的情境中,肌电信号、加速度信号以及陀螺仪信号都有较强的时序性,将多路信号并排构成二维信号,此时信号两个维度的含义是有差别的,一个是时间特征,另一个是空间特征。因此,二维卷积神经网络中二维的卷积核和特征图并不适合,我们选择更适合处理自然语言的一维卷积来提取特征。

实际实现时,我们将三路输入分别用卷基层提取特征,而后将三路输出进行融合,得到最终的类别结果。三路支流分别是肌电(Electromyogrphy,EMG)流、加速度(Acceleration,ACC)流和陀螺仪(Gyroscope,GYR)流,三路支流数据先分别多次经过卷积层提取特征以及池化层压缩特征;之后再将输出进行融合,并通过全连接层、dropout层以及softmax层,最终得到整个神经网络最终的类别判断的结果。优化的多流卷积神经网络的具体结构如图1所示。

图1 多流卷积神经网络结构图

数据输入后,首先经过卷积层进行特征提取。卷积层作为卷积神经网络的核心,通过用多个卷积核分别对输入信号进行卷积的方式获取输出。通常卷积核的大小远小于输入信号大小,仅与信号的局部感受野进行卷积,并通过窗口滑动的方式覆盖整个信号。具体计算时,如公式(1)所示:

式(1)中,为第层中输出的第j个特征图,为输入第层的特征图集合,为第层中输出的第个特征图,为第层中输出的第个卷积核,表示卷积运算,为第层中输出的第j个特征图的偏置。为激活函数,这里通常选用线性整流函数(Rectified Linear Unit,ReLU)或tanh函数等。卷积层以卷积核的方式实现局部连接,与全连接对比减少了权值数量,让特征提取过程中的计算得到简化。而对于同一卷积核,在滑动覆盖整个信号的过程中,卷积核的权值是不变的,这一权值共享的过程也进一步减少了需要训练的网络参数。

在卷积层之后,我们采用池化层对输入的特征图进行特征选择以及信息过滤。与卷积层类似,池化层取一个局部区域进行特征提取,通常采用对这一区域取最大值(最大值池化)或是平均值(均值池化)的方式,且不受反向传播的作用。具体计算时,如公式(2)所示:

式中,为第层中输出的第个特征图,为第层中输出的第个特征图,为激活函数,为池化函数,为第层中输出的第j个特征图的偏置。池化层将输入特征压缩,扩大了感受野,一方面减少了输入卷积层的空间维度以及权重参数,使计算的复杂程度降低;另一个方面,池化层可以一定程度上避免过拟合,使测试集准确度更接近训练集准确度。

在卷积层与池化层之后,将三路输出平摊成一维向量合并后输入全连接层,对特征进行加权求和。并加入dropout层通过随机令一些神经元失效,以降低参数之间耦合的方式来规避过拟合。最终,采用softmax层实现多分类,将全连接层的输出映射到(0,1)区间,并以概率的方式给出最终的结果。

2 实验结果与分析

2.1 数据采集

数据采集设备采用的是加拿大Thalmic Labs实验室推出的创新型臂环——MYO臂环[14],拥有八个通道的表面肌电信号传感器,每个通道等间距排列,具体如图2所示。

图2 MYO臂环轮廓

除了肌电信号传感器以外,MYO臂环还配有加速度传感器和陀螺仪传感器,并能将这三类信号通过低功率的蓝牙传出。MYO臂环不仅可以实现信号的无线传输,而且佩戴方便、有松紧扣,不同身体条件的使用者都可以舒适地佩戴MYO臂环。在手势识别这个项目中,使用者大概率会处在的长时间佩戴手语识别设备的状态,这样MYO臂环良好的移动性、不受环境影响、价格低廉和可调节的前臂围范围能适用于绝大多数人的特点具有一定优势。

选用的五个动态手语孤立词分别是,大家、高兴、进步、吃和加油,参考《中国手语》[15],具体如图3所示。

图3 选取的动态手语孤立词

注:a.大家;b.高兴;c.进步;d.吃;e.加油。

每个手势采集了500组,每个表面肌电信号片段大小为100×16,加速度信号片段和陀螺仪信号片段大小为100×6。

2.2 实验结果分析

实验使用TensorFlow框架来搭建卷积神经网络实现对动态手势数据的训练识别,采用python语言编程,并利用可视化工具tensorboard获取训练数据。

在实验中,我们设置了两种卷积神经网络结构。第一种为1.2中给出的多流卷积神经网络,每个数据流设置相同,具体如下:第一个卷积层的参数为outputcurves=48,kernelsize=3;第一个池化层采用最大池化scale=3;第二个卷积层参数为 outputcurves=128,kernelsize=3;第三个卷积层参数为outputcurves=152,kernelsize=3;第二个池化层采用最大池化scale=2。第二种采用常规卷积神经网络,其结构参数设置与第一种一致,不过将三种输入信号合并,即输入100×28的信号片段。两种网络结构我们设置相同的迭代次数numepochs=700。实验得到的结果如图4、图5所示。

图4 多流卷积神经网络结果

注:a.准确率;b.交叉熵损失。

图5 常规卷积神经网络结果

注:a.准确率;b.交叉熵损失。

观察图4可以发现,多流卷积神经网络训练集与测试集的准确率在200次训练之前迅速上升,在测试集准确率达到98%之后趋于稳定;而交叉熵损失与之对应同样在200次训练之前迅速降低,而后趋于平稳。我们可以认为多流卷积神经网络对动态手势有较好的识别效果。

观察图5可以发现,卷积神经网络训练集与测试集的准确率在200次训练之前有所上升,之后训练集的准确率维持在80%以上,但测试集准确率却开始降低;而交叉熵损失与之对应训练集与测试集同样在200次训练之前迅速降低,之后训练集逐渐趋于稳定,而测试集却集迅速上升,呈现出典型的过拟合现象,识别效果不理想。

分析其原因是多种不同的数据有通过卷积神经网络进行识别时,由于数据之间是具有显著差异,直接将各种数据合并在一起输入,那么在特征提取的过程中,各种数据间的差异作为特征将被突出,而每种数据的特征被弱化。此时,常规的卷积神经网络出现的过拟合情况与输入数据有强噪声而产生的过拟合情况类似。与之对应,我们可以认为多流卷积神经网络可以有效识别多种不同的数据的输入,而规避因此出现的过拟合情况。

3 结论

本文针于动态手势识别给出了一种基于多流卷积神经网络的识别方法,主要有两个创新:其一,选用的卷积神经网络可以直接利用原始的肌电信号,不依靠人工设计的方法来提取特征,这不仅规避了复杂且计算量很大的信号预处理部分,更是解决了特征选择具有局限性的问题;其二,针对肌电信号进行识别不能很好地表征手势运动特征的问题,我们引入加速度流以及陀螺仪流,并给出了适应情况的肌电流、加速度流以及陀螺仪流的三分支结构。实验表明,给出的多流卷积神经网络拥有较高的数据流类别判别的准确率,以及有效的动态手势识别效果。我们认为这种多流网络结构,对于有多种不同的待识别数据,并且不同数据间存在明显差异的情况有一定借鉴意义。

[参考文献]

[1]Sucar LE,Orihuela-Espina F,Velazquez RL,et al.Gesture therapy:an upper limb virtual reality-based motor rehabilitation platform[J].IEEE Trans Neural Syst Rehabil Eng,2014,22(3):634-643.

[2]Metcalf CD,Robinson R,Malpass AJ,et al.Markerless motion capture and measurement of hand kinematics:validation and application to home-based upper limb rehabilitation[J].IEEE Trans Biomed Eng,2013,60(8):2184-2192.

[3]张志常,郑璐.康复认知评估系统中基于体感交互技术的手势识别方法[J].数理医药学杂志,2015,(1):98-99.

[4]Touch bionics.I-limb ultra[EB/OL].(2015-10-22).http://www.touchbionics.com/products/activeprostheses/i-limb-ultra.

[5]Ruppert GCS,Reis LO,Amorim PH,et al.Touchless gesture user interface for interactive image visualization in urological surgery[J].World J Urol,2012,30(5):687-691.

[6]Jacob MG,Wachs JP.Context-based hand gesture recognition for the operating room[J].Pattern Recognit Lett,2014(36):196-203.

[7]Hong JW,Tan XN.Calibrating a VPL DataGlove for teleoperating the Utah/MIT hand[A].IEEE International Conference on Robotics &Automation[C].1989.

[8]Bretzner L,Laptev I,Lindeberg T.Hand gesture recognition using multi-scale colour features,hierarchical models and particle filtering[A].Face and Gesture FG'02[C].IEEE Computer Society,2002.

[9]杨波,宋晓娜,冯志全,等.复杂背景下基于空间分布特征的手势识别算法[J].计算机辅助设计与图形学学报,2010,(10):1841-1848.

[10]Wang C,Liu Z,Chan S.Superpixel-based hand gesture recognition with kinect depth camera[J].IEEE Trans Multimedia,2015,17(1):29-39.

[11]Liu F,Du B,Wang Q,et al.Hand gesture recognition using kinect via deterministic learning[J].IEEE,2017:2127-2132.

[12]Qifan Y,Hao T,Xuebing Z,et al.Dolphin:Ultrasonicbased gesture recognition on smartphone platform[J].IEEE,2014:1461-1468.

[13]何庆华,吴宝明,彭承琳.表面肌电信号的分析与应用[J].国外医学,生物医学工程分册,2000,(5):299-303.

[14]Thalmic Labs.MYO—The Gesture Control Armband.[EB/OL].[2014-6-17].https://www.thalmic.com/myo/.

[15]中国聋人协会.中国手语[M].北京:华夏出版社,2003:11-647.

Dynamic Gesture Recognition Based on Multi-Stream Convolutional Neural Network

WANG Zengzheng,HONG Xin
Department of Biomedical Engineering,Dalian University of Technology,Dalian Liaoning 116000,China

Abstract:Objective To propose a dynamic gesture recognition method based on multi-stream convolutional neural network using surface electromyography signal.Methods On the basis of surface electromyography signal,acceleration and gyroscope signals were introduced to characterize the motion characteristics of gestures,and a three-branch multi-flow convolutional neural network structure adapted to the input signals was presented.Results The experiment of a real self-built database showed that the multi-stream convolutional neural network had a good recognition effect on dynamic sign language isolated words represented by multi-category data and would not generate over-fitting phenomenon due to the difference of data categories.Conclusion This method can effectively identify the dynamic gestures represented by multi-category data and has certain innovation.This structure can be used as a reference for natural language signals represented by other multi-category data.

Key words:gesture recognition;natural language processing;convolution neural network;over-fitting

收稿日期:2019-02-26

通信作者:洪昕,教授,主要研究方向为纳米传感器。

通信作者邮箱:hongxin@dlut.edu.cn

[中图分类号]R318;TP391.9

[文献标识码]A

doi:10.3969/j.issn.1674-1633.2019.10.005

[文章编号]1674-1633(2019)10-0020-03