Defending Multimodal Fusion Models against Single-Source Adversaries

Yang, Karren; Lin, Wan-Yi; Barman, Manash; Condessa, Filipe; Kolter, Zico

Computer Science > Computer Vision and Pattern Recognition

arXiv:2206.12714 (cs)

[Submitted on 25 Jun 2022]

Title:Defending Multimodal Fusion Models against Single-Source Adversaries

Authors:Karren Yang, Wan-Yi Lin, Manash Barman, Filipe Condessa, Zico Kolter

View PDF

Abstract:Beyond achieving high performance across many vision tasks, multimodal models are expected to be robust to single-source faults due to the availability of redundant information between modalities. In this paper, we investigate the robustness of multimodal neural networks against worst-case (i.e., adversarial) perturbations on a single modality. We first show that standard multimodal fusion models are vulnerable to single-source adversaries: an attack on any single modality can overcome the correct information from multiple unperturbed modalities and cause the model to fail. This surprising vulnerability holds across diverse multimodal tasks and necessitates a solution. Motivated by this finding, we propose an adversarially robust fusion strategy that trains the model to compare information coming from all the input sources, detect inconsistencies in the perturbed modality compared to the other modalities, and only allow information from the unperturbed modalities to pass through. Our approach significantly improves on state-of-the-art methods in single-source robustness, achieving gains of 7.8-25.2% on action recognition, 19.7-48.2% on object detection, and 1.6-6.7% on sentiment analysis, without degrading performance on unperturbed (i.e., clean) data.

Comments:	CVPR 2021
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG)
MSC classes:	68T01, 68T45
Cite as:	arXiv:2206.12714 [cs.CV]
	(or arXiv:2206.12714v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2206.12714

Submission history

From: Karren Yang [view email]
[v1] Sat, 25 Jun 2022 18:57:02 UTC (2,124 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Defending Multimodal Fusion Models against Single-Source Adversaries

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Defending Multimodal Fusion Models against Single-Source Adversaries

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators