Balancing Multimodal Learning through Label Space Reshaping
Der Artikel behandelt das Modalitätenungleichgewicht beim multimodalen Lernen, bei dem einige Modalitäten die Optimierung dominieren. Er schlägt vor, dass diese Diskrepanz aus unterschiedlichen Schwierigkeiten bei der Abbildung zwischen modalitätsspezifischen Merkmalsräumen und dem gemeinsamen Labelraum resultiert, und führt BMLR ein, um diese Schwierigkeit auszugleichen.