TACFN: 一种用于多模态情感识别的基于Transformer的自适应跨模态融合网络

2023-07-11 18:19:36 来源:哔哩哔哩

文章题目:TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition

文章来源:CAAI Artificial Intelligence Research预录用(原创)

模型代码可以从/shuzihuaiyu/TACFN获取


(资料图片)

Introduction: 

在当前的多模态情感识别任务中,融合技术被广泛的应用并成为关键技术。基于注意力机制的跨模态融合方法近年来表现出了高性能和强鲁棒性。

然而,跨模态注意力存在着特征冗余的问题,不能很好地捕捉互补特征。研究表明,在跨模态的交互特征中,没有必要使用一种模态的全部信息来加强另一种模态,能够加强一种模态的特征可能只包含它的一部分。

据此,我们设计了一种基于Transformer的自适应跨模态融合网络(TACFN)。对于冗余特征,通过自注意力机制使一种模态进行模态内特征选择,使所选择的特征能够自适应且高效地与另一种模态交互。同时,为了更好地捕捉模态间的互补信息,通过拼接得到融合权重向量,并利用该权重向量实现模态的特征强化。

Proposed Method: 

文中我们将TACFN网络架构分为两个steps:Unimodal representation(单模态表示) & Multimodal fusion(多模态融合)。目标是从多模态序列中进行高效的跨模态融合,聚合模态内的和模态间的特征。下图展示了TACFN的整体框架:

Audio Encoder: 

对于音频模态的处理,有相关的工作[1-2]已经证明了基于梅尔频率倒谱系数(MFCC)特征的深度学习方法的有效性。据此设计了一个简单高效的1D-CNN来进行MFCC特征提取。

具体而言,我们使用特征预处理后的音频模态特征作为输入,首先通过一个2层的卷积操作来提取音频元素的局部特征,然后采用最大池化进行下采样,压缩特征,并删除冗余信息。最后,将上面得到的特征展平。

Visual Encoder: 

对于视频模态处理,考虑到视频数据在空间和时间维度上都具有依赖性,因此需要一个具有3D卷积核(空间维度:平面二维 + 时间维度:一维)的网络来学习面部表情和动作。综合考虑网络的性能以及训练效率,选择3D-ResNeXt[3]网络来获取视觉模态的时空结构特征。ResNeXt提出了一种介于普通卷积核深度分割卷积之间的分组卷积策略,通过控制分组数量实现了两种策略之间的平衡,结构简单但性能强大。

Fusion via Cross-modal Attention: 

跨模态注意力操作通过学习源模态和目标模态之间的定向成对注意力,使用来自源模态的信息来强化目标模态[4-5]。跨模态注意力是对自注意力机制的一种修改。

(不太了解自注意力机制中Q,K,V的笔者推荐可以通过该链接进行了解和简单学习:/qq_42672770/article/details/128231573)

将Q作为一种模态,K和V作为另一种模态,以获得模态的强化。我们定义了两个张量的跨模态注意力X和Y,其中X作为Query查询,Y作为Keys和Values用于重加权Query:

利用获得的单模态高层的表示,在音频和视觉模态之间进行跨模态注意力交互,以获得彼此的增强特征。

Fusion via Adaptive Cross-modal Blocks: 

现有实验表明:模型融合进一步考虑了模态之间的内在联系,具有更好的效果和性能。但是目前的跨融合方案存在一些问题:

1. 跨模态注意力存在特征冗余;

2. 跨模态注意力不能很好地捕获互补特征;

3. )由于模式是动态变化的,有些模式比其它模式具有更多的任务表示信息。例如,视觉模态比音频模态更好地分类“快乐”,音频模态更好地分类“恐惧”。

因此,在跨模态注意力的基础上,引入了自适应跨模态块的设计。上图说明了跨模态注意力和自适应跨模态块的架构。在获得单模态表示后,将其输入自适应跨模态块,以获得两种模态的强化特征。以使用音频模态来加强视觉模态的过程为例,使用视觉模态来加强音频模态的过程是相同的:

首先使音频模态通过Transformer-encoder来进行模态内特征选择。这里的Query、Keys和Values都是同一个张量的线性投影,该操作使得音频模态的高阶特征能够进行特征选择,使其更专注于对结果有更大影响的特征。

然后,利用自动选择的特征和视频模态进行高效的模态间交互。该模块接受两种模式的输入,然后通过线性投影获得两种模态的特征映射表示,接着用Add和Tanh激活函数处理,再通过Softmax得到权重向量。经过Softmax处理后,再与视频模态张量进行相乘的操作,以实现特征强化。在这个过程中,为了保证视觉模态的信息不丢失,通过残差结构保证了视觉模态原始结构特征的完整性。

上述为利用音频加强视频模态的步骤,得到的输出记为X(a->v),反过来利用视频加强音频模态的步骤相同,得到的输出记为X(v->a),然后对增强模态进行拼接,得到融合后的数据I=[X(v->a), X(a->v)]。最后经过一个简单的线性层进行预测,并利用交叉熵损失对模型进行优化。

Datasets: 

本文使用两个主流数据集:RAVDESS[6]和IEMOCAP[7]。为简单起见,本研究首先关注视觉和音频两种模态的融合。进一步,将设计的融合模块扩展到视觉、音频和文本三种模态的跨模态融合。对于RAVDESS数据集,我们使用两种模态:视觉和音频。对于IEMOCAP数据集,我们使用三种模态:视觉、音频和文本。

RAVDESS: 

Ryerson情感语音和歌曲视听数据库(Ryerson Audio-Visual Database of Emotional Speech and Song,RAVDESS) 是一个多模态情感识别数据集,包含1440个短演讲视频剪辑中的24位演员(12位男性,12位女性)。当演员被告知要表达的情感时,数据集将被执行,视频和音频记录的质量都很高。数据集中包含八种情绪:中性、平静、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。在RAVDESS数据集上进行5折交叉验证,以提供更鲁棒的结果。我们将24个演员按5:1的比例分为训练集和测试集。由于演员的性别由偶数或奇数个演员id表示,我们通过轮换4个连续的演员id作为交叉验证的每个折叠的测试集,使性别均匀分布。报告的最终准确率是平均准确率超过5倍。

IEMOCAP: 

IEMOCAP 是一个多模态情感识别数据集,包含151个视频以及相应的转录本和音频。在每个视频中,两名专业演员用英语进行对谈。它的目标数据分割由2,717个训练样本,798个验证样本和938个测试样本组成。分别在 Hz和15 Hz的采样频率下提取音频和视觉特征。虽然人类标注有9种情绪类别,但继之前的工作[8]之后,我们采取了4种类别:中性、快乐、悲伤和愤怒。此外,这是一个多标签任务(例如,一个人可以同时感到悲伤和愤怒)。我们根据[9]报告了每个情感类别的二分类准确率和F1分数。

Result: 

在RAVDESS数据集上与Baselines的比较结果:

从表中,我们可以看到我们的模型达到了%的准确率,达到了最先进的水平。

1. TACFN在视觉和音频上的单模态性能分别达到%和%,自适应跨模态块后的准确率达到%,提升了%以上。可以看出,自适应跨模态块学习了两者的互补信息。它学习音频中存在而视觉中不存在的信息,从而为视觉表示提供音频模态的更多语义信息。

2. 使用两个跨模态注意力分别融合其他模态得到强化特征。实验结果表明,该方法的正确率为%,而该文提出的方法正确率为%。在相同的实验设置下,TACFN算法更有效。跨模态注意力不能很好地捕获互补特征的原因被认为是由于音频模态对视觉模态并不是完全有帮助的,而经常强化视觉模态的特征可能只包含视觉模态的一部分。在此基础上,设计了跨模态模块,以更有效和自适应地关注对当前模态更有用的信息,即有效互补信息。

在IEMOCAP数据集上Baselines的比较结果:

将该模型应用于IEMOCAP数据集。上表显示了结果。使用自适应跨模态块实现互补学习,即使用音频和文本融合模态获取权重信息来增强文本模态,使用视觉和文本融合模态获取权重信息来增强文本模态。

1.  MulT利用跨模态注意力实现互补学习。该模型在所有指标上都优于MulT。

2. 与目前最先进的PMR进行了比较,结果达到了可比水平。同时,TACFN的参数数量有显著降低。

Ablations: 

上表显示了RAVDESS数据集上的消融实验。为了验证自适应跨模态块的有效性,通过简单拼接两种模态的高层语义特征来获得最终情感。实验结果表明,跨模态分块在参数数量仅增加的情况下使性能提升了3%以上,这表明来自两种模态的有效互补信息可以对最终决策产生很大影响。 

进一步探索了自适应跨模态块内部结构的有效性。在自适应跨模态块中,自注意力机制和残差结构对模型性能起着重要作用。将自注意力机制和残差结构分别分离,可以看出自注意力对最终结果的影响超过3%。这表明我们得到的音频语义特征包含冗余信息,可以通过自注意力机制进行特征选择,使其高效且自适应于跨模态交互。此外,残差结构对最终结果的影响较小,这表明残差结构的加入有助于确保在交互过程中最大限度地减少视觉特征的损失。

上表报告了RAVDESS数据集上每个类的单模态和TACFN的精度。

1. 在视觉模态上,“高兴”、“生气”和“惊讶”比音频模态更容易区分。

2. 在音频模态上,“Sad”和“afraid”表现更好。

3. 可以看出,自适应跨模态分块后,各个类的准确率相比单模态的都有所提高。“中立”的准确率最低,而“悲伤”和“恐惧”的准确率提高最为显著,约为10%。我们认为,视觉模态从音频模态中获得了互补信息,从而获得了更高的性能。

Conclusion: 

本文提出一种基于transformer的自适应多模态融合网络。将该网络分为两个步骤:单模态表示和多模态融合。多模态融合主要考虑减少冗余特征和增强互补特征这两个核心问题。为了减少冗余特征,使用自注意力机制使一种模态能够进行模态内特征选择,并以高效的模态间方式自适应地与另一模态交互。为了增强互补特征,通过拼接的方式将选择的模态与另一模态融合得到一个权重向量,并将该权重向量与另一模态相乘来实现特征增强。将该模型应用于RAVDESS和IEMOCAP数据集,实验结果表明提出的融合方法更加有效。与其他模型相比,基于单模态表示学习的融合策略在情感识别上取得了显著的性能提升。

Reference:

[1] Natalia Neverova, Christian Wolf, Graham Taylor,and Florian Nebout. 2015. Moddrop: adaptive multi-modal gesturerecognition. IEEE Transactions on Pattern Analysis and MachineIntelligence 38, 8 (2015), 1692–1706.

[2] Jianyou Wang, Michael Xue, Ryan Culhane, Enmao Diao, Jie Ding, and Vahid Tarokh. 2020b. Speech emotion recognition with dual-sequence LSTM architecture. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 6474–64.

[3] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, and ´Kaiming He. 2017. Aggregated residual transformations for deep neuralnetworks. In Proceedings of the IEEE conference on computer visionand pattern recognition. 1492–1500.

[4] Yao-Hung Hubert Tsai, Shaojie Bai, Paul Pu Liang, J ZicoKolter, Louis-Philippe Morency, and Ruslan Salakhutdinov. 2019. Multimodal transformer for unaligned multimodal language sequences. InProceedings of the conference. Association for Computational Linguistics. Meeting, Vol. 2019. NIH Public Access, 6558.

[5] Fengmao Lv, Xiang Chen, Yanyong Huang, Lixin Duan,and Guosheng Lin. 2021. Progressive Modality Reinforcement forHuman Multimodal Emotion Recognition From Unaligned MultimodalSequences. In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2554–2562.

[6] Steven R Livingstone and Frank A . The Ryerson Audio-Visual Database of Emotional Speech andSong (RAVDESS): A dynamic, multimodal set of facial and vocalexpressions in North American English. PloS one 13, 5 (2018),e0196391.

[7] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, AbeKazemzadeh, Emily Mower Provost, Samuel Kim, Jeannette Chang,Sungbok Lee, and Shrikanth Narayanan. 2008. IEMOCAP: Interactiveemotional dyadic motion capture database. Language Resources andEvaluation 42 (12 2008), 335–359. /s10579-008-9076-6.

[8] Wenliang Dai, Zihan Liu, Tiezheng Yu, and Pascale . Modality-Transferable Emotion Embeddings for Low-ResourceMultimodal Emotion Recognition. arXiv: []

[9] Fengmao Lv, Xiang Chen, Yanyong Huang, Lixin Duan,and Guosheng Lin. 2021. Progressive Modality Reinforcement forHuman Multimodal Emotion Recognition From Unaligned MultimodalSequences. In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2554–2562.

标签:

珠宝展示