论文解读:FDRL

发布网友发布时间：13小时前

共1个回答

热心网友时间：11小时前

随着深度学习的迅速发展，人脸表情识别（FER）领域出现了大量的研究工作。目前，大多数研究集中在两个方面：一是干扰排除，二是表情特征提取。干扰排除方面，研究者已经提出了多种方法以消除面部姿势、特征和光照变化带来的干扰，同时解决噪声标记问题。在表情特征提取方面，许多模型和损失函数被设计用于增加类间距离和减小类间距离，以使提取的特征更具区分性。最近，注意力机制也被应用于发现更具有区分性的面部表情特征，从而提高识别精度。然而，排除干扰的方法往往忽略了不同表情之间的微妙差异，而特征提取的方法则忽略了局部特征。

不同的表情之间存在相似性特征，这种特征相似性导致提取的整体特征不足以区分表情。例如，消极、悲伤、高兴和厌恶都具有“闭眼”的特征；惊讶、恐惧、生气和高兴都具有“张嘴”的特征；生气、厌恶、悲伤和恐惧都具有“皱眉”的特征。这些相似特征之间存在微妙差异，例如闭眼的程度在消极和厌恶之间不同。这种特性导致识别精度不高。因此，考虑不同表情之间相似面部行为（如闭眼、张嘴、皱眉等）的细微差异对于FER尤为重要。

为此，本文提出了新颖的特征分解与重构学习方法（FDRL）。FDRL由两部分组成：特征分解网络（FDN）和特征重组网络（FRN）。FDN通过将输入的面部特征分解为不同表情的共享信息（相似特征）和特定表情的独有信息（表情的具体变化），为后续模型提供更有区分性的特征。FRN则通过学习潜特征间的内在关联和外在关联，进一步提升特征的区分性。

在FDN中，通过几个并行的全连接层和ReLu激活函数将基本特征分解为带有表情行为（如张嘴、闭眼、皱眉等）的潜特征。为优化特征的紧凑性，定义了紧凑损失，期望不同图片的相同潜特征能够紧密围绕在一个中心。接着，通过特征重构网络（FRN）的内部重构模块（Intra-RM）为潜特征学习到内在关联的权重，得到内关联感知的特征。外部重构模块（Inter-RM）则学习不同潜特征之间的关联权重，最后将融合内在和外在关联的特征输入到分类层进行表情分类。

在FRN中，Intra-RM为每个潜特征计算一个重要性权重，设计了分布损失缩小类内距离、扩大类间距，使得不同表情的相似特征的细微差异得以区分。Inter-RM使用图神经网络（GNN）来模型化特征间的联系，考虑潜特征之间的联系，以更好地理解不同表情之间的关系。

实验结果表明，只有包含特征分解和重构模块的模型（ResNet-18+FDN+FRN）优于仅使用ResNet-18的模型，这进一步证实了考虑不同表情相似特征的细微差异的重要性。潜特征分解的数目在两个数据集上都显示在M=9时精度最高，可能的原因是数目太少不足以区分相似特征，数目太多则存在噪声。可视化结果展示了FDRL提取的特征在空间中有更明显的区分性，类内距缩小，类间距扩大。

论文复现实验证据表明，在RAF-DB数据集上使用ResNet-18（预训练于ImageNet）和其他默认设置进行复现，达到65.0%的验证精度。虽然与论文中的精度相比还有差距，但仍展示了FDRL的有效性。复现的代码和训练截图已在链接中提供，欢迎讨论和反馈。

全部栏目

论文解读:FDRL