开·云体育app下载安装 基于卷积神经网络的手势识别研究
操小文,薄华
(上海海事大学 信息工程学院,上海201306)
摘要:传统的手势识别系统,是由特征提取以及分类器所组成的,它需要人工去设计特征,然而却很难达成足够令人满意的效果,并且还会耗费大量的时间。把卷积神经网络应用到手势识别当中,能够直接将图像数据输入网络,而且不用开展复杂的前期预处理。有很强的鲁棒性以及较低的复杂性,经过大量的仿真实验kiayun手机版登录,证实了该识别方法具备很好的识别效果,比起现有方法有着较大的优势 。
0引言
按照现有科学技术的发展态势,机器人技术会给人类添诸多便利,人机交互是其中关键一环。故而,要使机器人依人指示做相应动作,就得让机器人“懂”人指示。人们日常用得最多的是手势,基于视觉的手势识别技术关联模式识别、图像处理以及计算机视觉等诸多领域,是当下热门研究课题。目前国内针对基于视觉的手势识别技术已开展诸多研究工作 。
有关手势识别[5]的常见算法存在这么三种:第一,是基于几何特征[6]的手势识别,把可用于待识别的特征设定为手势的区域以及边缘特征,并且运用多种多样的距离公式来开展模板匹配,此方法具备较强的适应性与稳定性,然而其学习能力欠缺且效率较低,存在十分显著的不足;第二,是基于隐马尔可夫模型的手势识别。这属于一种统计分析模型,它的拓扑结构具备一般特性,可很好地刻画描述手势信号的时空方面的变化,适用于针对动态手势的识别,然而其计算量太过庞大,并且速度十分缓慢,无法很好地契合满足当前应用的需求。基于人工神经网络[7]展开的手势识别 。具备较强的学习能力,以及具备较强的抗干扰能力,并且网络能够很好地拟合各类非线性映射,在拥有更快的计算速度方面,同时具备很强的鲁棒性,还具备很强的泛化能力,然而因为其对时间序列的处理能力不强,主要应用于静态手势识别[8],而对于动态手势的识别[9]而言则效果不佳。
由上方的分析能够知道,现有的算法都存在着或多或少的不足之处,所以没能获得很好的应用。而卷积神经网络,也就是Convolutional Neural Network,简称为CNN,在二维图像处理里具有独特的优势,这使得它在手势识别方面的研究也逐渐地开展起来了。
1卷积神经网络
传统图像识别的分类模型,呈现于图1,具体为[10]所指。人工设计特征,是极为耗时耗力之事,非得有深厚专业知识与经验,方可确定可用以此类进行正确分类的特征。然而,卷积神经网络,即[11]所指,却无需人工设计特征,它能把图像数据径直输入网络,随后于输出端便可给出分类结果。其分类模型,展示于图2 。

1.1CNN网络结构
CNN含有两种特别的神经元层,一种是卷积层,另一种是下采样层[12],其整个网络架构由卷积层(C)和下采样层(S)交替出现,最终与全连接层(F)相连而构成,且在最后的输出层得出结果。本文的网络结构如同图3所展示的那样。
进行卷积操作时,是要用一个卷积核[13](也就是特征矩阵)在图像矩阵之上移动,卷积核要与图像上处于相对位置的元素去作乘积,最终把所得结果进行相加从而得到一个值。在卷积核移动完成之后云手机网页版,所有的值就会构成一个新的图像矩阵,这也就完成了对上一层的特征抽取。其数学表达式如(1)所示:
这里面,f是激活函数,通常是sigmoid或者tanh,b是偏置项。
下采样等同于对特征开展二次提取,这般做是为了给上一层的特征实施降维操作,以此减少计算量,同时规避因特征数量过多而致使出现过拟合的情况。经由降维之后的特征更能够呈现出图像的一般性,愈发适用于分类[14],还能够强化网络结构对于位移的鲁棒性。
下采样的一般形式如式(2):
xij=down(xi-1j)(2)
down(·)此为下采样函数,它跟卷积操作相近似,其同样是针对一个区域来做加权求和,要是运用n×n尺寸大小的窗口去进行下采样,最终所得到的图像大小将会是输入图像的1/n 。
1.2基于卷积神经网络的算法及训练过程
本文采用的网络结构,有8层,其中包括输入层,3层卷积层,3层下采样层,1层全连接层。和参考文献[8]相比较,本文用的网络,多了一层卷积层,还有一层下采样层,并且卷积核大小的设置,也是不一样的。本文把网络的学习速率(alpha),设置成了0.2,批次大小(batchsize)设置成20,迭代次数(numepochs)设置成了150。并且,卷积核以及各偏置等参数的初始值都是随机生成的,输入样本之后,借助前向传播和反向传播算法来对网络开展训练进而更新参数,其中,每层所进行的操作如下:
输入层是图像 ,该图像已经被归一化 ,其规格为48×48 ,经过二值化处理之后就能输入网络 。
(2)C1网络层,是对输入图像进行卷积之后所获得的结果,在本文当中,利用7×7的卷积核,针对输入图像开展特征抽取工作,该层的特征图有3张,其大小是42×42 。
(3)S2网络层所做的,是针对C1层来开展抽样操作,其抽样窗口的大小设定为2×2,在这个时候,特征图的数量依旧为3张,其尺寸大小呈现为21×21。
(4),C3所进行的是针对S2的卷积操作,其卷积核的大小被设置成6×6,特征图存在5张,大小是16×16 。
(5)S4网络层,等同于S2,它呢,是第二个下采样层,抽样窗口是2乘以2,特征图数量为5张,其大小在8乘以8 。
(6)C5属于第三个卷积层,其卷积核的大小是5×5,在这个时候图像的大小为4×4,特征图的数量被设置成7张。
S6属于第三个下采样层,经2×2抽样窗口后,其自身大小为2×2,此时图像数量是7张 。
F7层属于全连接层,它会将S6层的特征数据进行向量化处理,之后连接至输出层。依据分类的类别数量,本文的输出层存在三个神经元,也就是分为三类。
于整个网络结构被确定之后、借助前向传播(fp)以及反向传播(bp)等算法来确定网络参数,如此一来整个网络就算是训练完成了。
2仿真实验
2.1手势图像的预处理
虽说CNN能够直接将原始图像输入进去,然而进行简单的预处理,能够让最终的识别效果变得更好,并且不会耗费过多的时间,。
首先,用本文对图像做灰度处理,接着kiayun手机版登录入口,对图像进行二值化处理,之后,把处理后的图像归一化、使其归结到呈48乘以48这一形态、并将其作为试验最终要运用的输入数据了,情况如同图4所展示出来的那般。

2.2实验结果及分析
本文章所涉及的实验数据,全部都是作者自身亲自拍摄获取的,其中手势总共存在3种,它们分别是指向手势1,胜利手势2,摇滚手势3,并如图5所展示的那样,当运用设备进行拍摄时,要维持设备与手的位置大体上保持不变,在限定的范围之内,手能够随意地进行旋转、平移,且方向并不固定。

神经网络结构方面,样本数量的多少,对最终的学习效果有着极大的影响。样本要是过少,网络就没办法学习到图像的有效特征,进而降低识别效率。所以,本文拍摄了大量样本用于试验,从各类手势里选取2500个训练样本,以及500个测试样本。把其迭代10次的平均识别率当作该方法的最终识别率。
其一,运用图像的灰度图来开展试验,其二,运用图像的二值图来开展试验,其三,最终的结果呈现于表1当中,其四,最终的结果呈现于表2当中。

从以上结果能够知道,卷积神经网络于手势识别里有着颇高的识别率,并且在单种背景状况下,由于手的灰度跟周围环境存在反差,运用二值图像能够获取更佳的识别率。后续的试验全部采用二值化图像来开展。
(2)为了对该网络结构的鲁棒性予以验证,针对真实情形下的场景展开模拟,给图像添加3种不同程度的噪声,还给图像添加3种不同程度的运动模糊:如图6所示。

实验结果如表3~表8所示。

由上边所说的结果能够明白,给图像添加了噪声以及运动模糊以后,各类手势的识别率全部都有所下滑,并且之中受影响最为显著的乃是手势3,或许是由于手势3最为繁杂,其所涵盖的特征数量是最多的,在噪声与模糊的作用之下被掩盖的特征是最多的,致使识别率下降得最为迅速。不过在一定的范围之内,识别率尽管有所下跌然而仍旧保持在一个较高的水平,这表明该网络确实具备很强的鲁棒性,没有由于噪声和模糊的存在而出现较大的异常情况,完全能够满足现有的应用需求。
3结论
没有对图像前期复杂的预处理是卷积神经网络所避免的,无需人工去设计以及提取特征,大量的时间有所节省,人工成本也有所节省。其独有的卷积 -下采样结构,使其包容畸变的能力特别强,而独有的权值共享,极大地让网络训练参数有缩减,计算量降低水平很大达到了,并且让其网络结构更简单,适应能力更强,给图像处理领域带来极大的便利。
经由众多的仿真实验的完成,卷积神经网络于手势识别里的高效性以及强鲁棒性得以验证,有着良好的应用前景。后续,借由对网络结构以及算法的某些改进举措的作出,其于手势识别中的误识率能够进一步降低。