【这学期计算机视觉课程的结课作业中可选的最简单的一个题目,最终虽然没啥新东西,但是意外的性能好像还可以】
本次实验达到了Fer2013原始数据集单模型(不使用额外训练数据)的SOTA准确率 73.70%,代码已上传至GitHub:https://github.com/LetheSec/Fer2013-Recognition-Pytorch
1 介绍
表情识别是计算机理解人类情感的一个重要方向,也是人机交互的一个重要方面。表情识别是指从静态照片或视频序列中选择出表情状态,从而确定对人物的情绪与心理变化。20世纪70年代的美国心理学家Ekman和Friesen通过大量实验,定义了人类六种基本表情:快乐,气愤,惊讶,害怕,厌恶和悲伤,除此之外后续的分类任务大多增添了一个中性表情。人脸表情识别(FER)在人机交互和情感计算中有着广泛的研究前景,包括人机交互、情绪分析、智能安全等。
本次实验的使用的数据集为Fer2013,它于2013年国际机器学习会议(ICML)上推出,并成为比较表情识别模型性能的基准之一,同时也作为了2013年Kaggle人脸识别比赛的数据。Fer2013包含28709张训练集图像、3589张公开测试集图像和3589张私有测试集图像,每张图像为4848大小的灰度图片,如下图所示。Fer2013数据集中由有生气(angry)、厌恶(disgust)、恐惧(fear)、开心(happy)、难过(sad)、惊讶(surprise)和中性(neutral)七个类别组成。由于这个数据集大多是通过爬虫在互联网上进行爬取所得,因此存在一定的误差性,人类在该数据集上的准确率为 。
而在本次的实验提供的数据集是经过重新划分的,其中训练集只有17591张图像,比原始数据集少了近40%,而验证集和测试集数量则大幅增加,因此理论上在课程数据集上的性能会低于在原始数据集上的性能。
除此之外,该数据集七个类别样本数量并不是想等的,其中disgust类别的数量最少,happy类别样本数量最多。
2 基准
为了后续实验有一个评价的基准,首先需要寻找目前Fer2013表情识别认为的Baseline方法。Papers With Code网站[1]收集了AI领域各个方向的论文对应代码,并形成了许多的benchmark排行榜用于研究者进行比较,并及时跟进最新的进展情况,该网站的Fer2013数据集排行榜如下图所示。
其中,前三名在Fer2013数据集之外还使用了额外的数据参与训练,与本次实验的目标不符,因此第四名[2]VGGNet所达到的73.28%即为单模型在Fer2013数据集上不使用额外训练数据时的表分类SOTA,我将该方法作为本次试验的Baseline。该方法基于VGG提出了一个变种的网络,并通过尝试不同的数据增强策略、学习率策略、优化器的选择,以及大量的参数调整,最终达到了单模型的SOTA性能。
我首先对该Baseline进行复现,作者在GitHub上开源了论文代码[3],我使用原始代码及默认超参数进行复现,结果如下表所示(reproduce表示复现的结果,report表示论文给出的结果)。可以看到,使用Fer2013原始训练集进行训练,可以在其私有测试集上达到72.22%的准确率,比论文中汇报的73.28%要低,只能通过作者提供的预训练权重来达到该准确率。而使用Baseline代码在课程数据集上的训练集上训练,可以在课程验证集上达到70.09%的准确率。
3 方法及实验
首先,根据之前的经验实现一个最基本的分类网络,使用ResNet18作为主干网络,epoch设置为300,batch size为128,损失函数为交叉熵损失,优化器选择SGD,并设置学习率为0.1,momentum为0.9,weight decay为1e-4,并使用了余弦退火学习率衰减策略。
3.1 数据增强
首先,我对数据增强的策略进行探索,对于这种训练集样本数量不够的情况,合适的数据增强策略通常能够很好的提高模型的泛化能力。除此之外,由于Fer2013数据集是通过爬虫进行爬取的数据,因此数据集的差异较大,数据增强也能很好的提高性能。经过尝试与比较,最终使用了如下几种数据增强策略:
- RandomHorizontalFlip:随机水平翻转
- RandomResizedCrop:随机裁剪
- RandomRotation:随机旋转
- ColorJitter:随机颜色抖动
- RandomAffine:随机仿射变换
- RandomErasing:随机图像擦除
并且我通过消融实验,证明了每一种数据增强的策略都确实是能够对性能有所提升,实验结果如下。
在上表中,当只使用基本的分类网络,不使用任何数据增强策略时,在验证集上只达到了57.45%的准确率。但是,随着数据增强策略的逐渐累加,准确率也有所 提升,其中使用随机剪裁时准确率提升了5.08%左右。最终,在基本分类网络上使用这六种数据增强策略,能达到69.19%的验证集准确率。在下图中,上图为一组原始训练样本,下图为使用六种随机数据增强策略后的训练样本。
3.2 学习率策略
在基本的分类网络中,我凭借之前的做其他分类任务的经验,选择了使用余弦退火学习率衰减策略(CosineAnnealingLR),该策略时让学习率随训练epoch的变化图像类似于余弦函数图像,并结合数据增强策略最终得到了69.19%的准确率。而我注意到baseline方法中使用的学习率策略为ReduceLROnPlateau,该策略可以提前指定某一个性能评价指标(如验证集准确率),当训练过程中该指标不再增大(或减小),则适当的降低学习率。因此,我对两种学习率衰减策略进行了比较,实验结果如下:
通过对比可以发现,在结合不同的数据增强策略时,使用余弦退火学习率衰减策略比baseline中使用ReduceLROnPlateau策略总能具有更好的性能。
3.3 Label Smooth与Mixup
Label Smooth(标签平滑)是一种正则化的思想,通过对标签的one-hot分布加入一定的噪音分布,从而起到“软化”的效果,防止模型对预测结果过于自信,从而导致过拟合。
由于Fer2013数据集中存在不少非预期样本(如下图所示),这些样本是不属于任一类别的离群点,因此如果模型过拟合这些样本的话,则会降低泛化能力,从而降低性能。
Mixup则是一种数据增强的思想,它将两张图片按照一定的比例进行融合,同时对它们的one-hot标签也进行同比例的融合:
Mixup的效果如下图所示,通过这样的做法,可以让模型在对一张融合后的样本判断出混合前的两个类别,从而能够提高训练的效果。
我在当前最优的策略上,使用Label Smooth和Mixup策略进行实验,结果如下:
可以看出,在使用数据增强与学习率衰减策略后,单独使用Label Smooth和Mixup都能进一步提高模型在验证集上的准确率。而如果同时使用Label Smooth和Mixup时,在验证集上的准确率均超过了70%,已经与baseline在课程数据集上的性能大致相当。
除此之外,通过下图验证集在训练时的Loss曲线可以看出,当不使用Label Smooth和Mixup策略时(橙色曲线),模型随着训练epoch的增加很容易出现过拟合的现象。
3.4 N-Crop
在3.3节中,已经能在课程验证集上达到与baseline方法相当的性能,于是继续尝试使用N-Crop策略,其分为FiveCrop和TenCrop:
(1)FiveCrop: 在图像的左上角、右上角、左下角、右下角和图像中间分别裁剪一个指定大小的子图像,从而将可以将样本数量扩充至原来的五倍
(2)TenCrop: 在FiveCrop的基础上,再将每张子图像进行水平翻转,从而将样本数量扩充至原来的十倍。
这样,当在模型训练的时候使用N-Crop策略,则可以大幅增加训练集的数量,但同时也需要更长的训练时间以及更大的显存;而如果在模型推理时使用N-Crop,则是对多种子图的预测概率去取平均,从而降低模型的错误率。因此,我将N-Crop策略与之前的策略结合,实验结果如下:
从上表中可以看出,将N-Crop与之前的策略相结合,能够带来性能的提升;并且当在推理的时候使用TenCrop,所有情况下的表现均会更优。最终,在3.4节最优策略的基础上,在模型训练时使用FiveCrop,在模型推理时使用TenCrop,并且使用余弦退火学习率衰减策略时,达到了最优的性能,可以在验证集上达到71.37%的准确率,与Baseline方法在课程验证集上的准确率相比,提升了1.28%。
3.5 模型集成
至此,本次实验已经可以在ResNet18单模型上达到71.37%的验证集准确率,超过了Baseline方法,下面考虑使用集成模型进一步提高准确率。首先,我使用当前最优策略在不同的主干网络上进行实验,得到如下结果:
可以看出,最开始选用的ResNet18仍然时性能最好的主干网络,DenseNet、DLA、ResNet34等略低于它。由于时间及显存的限制,我这里仅考虑前四个模型进行集成,并且没有选择投票的集成方式,而是使用了logits融合,结果如下:
其中,第2行和第4行的集成模型,直接使用logits平均进行集成,性能相较于单模型有所提升。最后一行,则对四个模型的logtis权重进行了一定的调整,最终集成模型可以在验证集上达到72.14%的准确率。另外,本次实验重点放在了单模型的性能提升,对于集成模型的提升并没有做过多的探究。
3.6 其他
除了上述策略之外,我在实验过程也进行了一些其他的尝试:
- 在ResNet18全连接层前加Dropout,效果没有提升的原因可能是Dropout与ResNet中的BN层有一定的冲突[4]。
- 使用带权重的交叉熵损失:用样本数量的倒数作为权重,效果没有提升,可能是因为样本差异实在太大,直接这样子设置权重会损害对样本数量多的类别的学习,也许通过进一步优化权重,可以有所提升。
- 所有试验均固定了随机种子,保证结果可复现性。
- 使用自动混合精度(AMP)训练,从而提高训练速度。
4 原始数据集评估
在第三节中,我通过多种策略的组合与实验,最终在课程数据集的验证集上达到了**单模型71.37%、集成模型72.14%**的准确率,均超过了Baseline。但是由于Baseline的复现结果并不理想,为了更加公平的将本方法与其进行对比。
下面将使用了Fer2013原始数据集对本实验的最优方法进行评估,即在原始训练集上进行训练,以私有测试集的准确率作为评价标准。实验结果如下:
最终,本实验的最优方法在Fer2013原始数据集的私有测试集上达到了73.70%的准确率,超过Baseline方法论文[2]中汇报的73.28%的准确率,达到了目前Fer2013数据集单模型表情识别(不使用额外训练数据)SOTA。并且注意到,我使用的仍是课程数据集下所设置的参数,并没有在原始数据集上进行重新调参,因此可能还有进一步提升的空间。
(手动上榜hhh)
在Fer2013原始数据集上的实验代码及权重已上传至本人GitHub:https://github.com/LetheSec/Fer2013-Recognition-Pytorch
5 总结
(1)本次实验,最终在课程数据集的验证集上使用单模型达到了71.37%的准确率,使用集成模型达到了72.14%的准确率;在原始数据集的私有测试集上单模型达到了73.70%的准确率。
(2)其中73.70%成为Fer2013数据集(不使用额外训练数据)单模型表情识别的新SOTA。
(3)实验没有去耗费大量时间进行调参,大多参数直接进行直觉的选择。
(4)本次实验的重点在单模型的性能提升,并没有过多关注与类别不均衡问题与模型集成的技巧,这也是未来可以进一步改进的地方。
6 参考
[1] https://paperswithcode.com/sota/facial-expression-recognition-on-fer2013
[2] Khaireddin, Yousif, and Zhuofa Chen. “Facial Emotion Recognition: State of the Art Performance on FER2013.” arXiv preprint arXiv:2105.03588 (2021).
[3] https://github.com/usef-kh/fer
[4] Li, Xiang, et al. “Understanding the disharmony between dropout and batch normalization by variance shift.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.