人工智能|计算机视觉——微心情辨认(Micro expression recognition)的研
一、简述微心情是一种特殊的面部心情,与平凡的心情相比,微心情紧张有以下特点:
[*]连续时间短,通常只有1/25s~1/3s;
[*]动作强度低,难以察觉;
[*]在无意识状态下产生,通常难以掩饰或伪装;
[*]对微心情的分析通常需要在视频中,而平凡心情在图像中就可以分析。
由于微心情在无意识状态下自觉产生,难以掩饰或伪装,通常与真实感情直接干系,所以微心情在感情分析中较为可靠,应用远景广阔;另一方面,由于人为辨认微心情比较困难,训练难度大且乐成率不高,因此需要计算机举行微心情自动辨认。
目前微心情辨认的工作难点紧张有两方面:
[*]微心情的连续时间短、动作强度低,特征难以提取,因此需要举行合适的数据预处置惩罚与特征提取;
[*]由于微心情的数据收罗与鉴定存在困难,现有的微心情数据集较少,这使得深度学习在微心情辨认中的应用存在困难。
现有的的微心情辨认方法通常基于传统机器学习,设计一种手工特征(Handcrafted Feature)来提取微心情片段中的特征,依照数据预处置惩罚——特征提取——特征分类的框架举行微心情分类。随着近年来深度学习在计算机视觉中的发展,使用深度学习方法举行微心情辨认的尝试也逐渐增多。
下面我将从数据集、数据预处置惩罚、传统方法、深度方法四个角度来简朴介绍微心情辨认工作。
二、数据集
CASME II数据集包含247条微心情视频片段(在我实际使用的版本中包含255条),使用200FPS的高速摄像机举行拍摄,视频片段的面部门辨率可以到达约280*340像素。CASME II数据集将微心情分为5类举行标注,分别是快乐(Happiness)、恶心(Disgust)、惊奇(Surprise)、压抑(Repression)、其他(Others);除此之外,CASME II数据会合还标注了微心情运动的出发点(Onset)、峰值点(Apex)与竣事(Offset),此中Apex对于微心情辨认有所帮助;除了对感情举行标注外,CASME II数据集还标注了每个微心情的AU(面部运动单元),AU可以作为对微心情举行分类的依据。
[*]对于CASME II数据集的具体介绍可以参照下文:
CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluationjournals.plos.org/plosone/article?id=10.1371/journal.pone.0086041编辑
除此之外,目前比较常用的微心情数据集尚有SMIC与比较新的SAMM等。对于差异的微心情数据集,紧张的区别在于帧率、分辨率与标注方式。
三、数据预处置惩罚
在提取微心情的特征前,通常要对微心情视频片段举行数据预处置惩罚,起首就是人脸预处置惩罚,包罗裁剪人脸等;随后,还要举行其他数据预处置惩罚,以便于特征的提取。
[*]常使用的数据预处置惩罚包罗使用TIM算法举行时域图像插值、使用EVM算法举行动作放大。
1.人脸预处置惩罚
在裁剪人脸时,比较经典的方法是使用ASM或其他算法提取人脸特征点,以左眼的位置以及双眼间的间隔作为基准,控制人脸裁剪的位置与范围;
由于微心情数据会合的数据收罗自多名受试者,而差异受试者的面部特征分布有所差异,因此为了减少差异受试者之间面部的差异,可以基于面部特征点对所有片段举行面部配准(face register),效果如下图所示:
https://img-blog.csdnimg.cn/img_convert/9d577934325bb14716da717331c53a0d.png
(a)标准面部 (b)面部配准前的图像 (c)面部配准后的图像
简朴来说,face register起首选择一张脸作为标准人脸图像,提取其特征点;对于每个视频片段,提取视频片段中第一帧的面部特征点,并计算一个映射函数(此处使用LWM算法),将这帧图像的特征点映射到标准图像的特征点上;最后,将此映射作用在视频中的所有帧上。这种方法可以使所有视频片段中的人脸特征点位置雷同,从而减少差异人脸的差异。
[*]使用python的dlib库辨认人脸特征点,举行face register,颠末实验发现register可以提高模子在10-fold验证时的效果,但降低了模子在LOSO验证时的效果。由于dlib对于人脸特征点的辨认并不是那么准,因此上述现象也可能是由dlib的误差导致。
2.时域图像插值(TIM算法)
由于微心情连续时间较短,我们盼望有一种方法能在保持微心情特征的同时,延长微心情的连续时间,这样有利于特征的稳固提取,因此我们需要对视频片段举行时域上的插值,增加微心情片段所包含的图像数,相当于变相延长了微心情的连续时间。
由于在实际天下中,人的心情是连续变化的,但是在摄像机拍摄的视频中所包含的图像帧是不连续的。我们可以将实际天下中的连续心情变化视为图像空间上的一条连续曲线,曲线的每一个点都代表着人脸在一个瞬间时的心情,而摄像机拍摄的视频则可以视为在这条连续曲线上举行采样。只要能找到这条曲线,并在曲线上重新举行更加麋集的采样,便能用更多的图像体现同一段心情。
时域插值模子(Temporal Interpolation Model,TIM)算法是一种时域上的图像插值算法。该方法起首将视频片段视为一个图(graph),并用图中的节点代表一帧图像,视频中相邻的帧在图中也是相邻的节点,视频中不相邻的帧在图中也不相邻;随后,使用图嵌入(graph embedding)算法将该图嵌入到一个低维的流形中,最子女入图像向量,计算出这条高维的连续曲线。在曲线上重新举行采样,便可以得到插值后的图像序列。
[*]TIM算法的细节可以参考下文:
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]