多模态统一生成大模型来了，华人本科生论文引关注

大模型的研究进展太快了。近日，大模型的研究热点——多模态方面又有了新的突破。

日前，来自微软、北卡罗来纳大学教堂山分校的新研究实现了多模态大模型的统一。提出的可组合扩散（Composable Diffusion，简称 CoDi）具有任意输入和输出图、文、声音、视频四种模态的能力，只要指定输入和输出的模态，CoDi都能够理解并生成相应的效果。

随着技术的发展，近期国内外发布的大模型已不再局限于一种模态，已可以进行多种模态间的转变，但实现多种模态串联的难度还是较大。CoDi可能是第一个能够同时处理和生成任意组合模态的模型，真正实现了Any to Any。

在CoDi的加持下，不仅可以单模态生成单模态，例如输入一张风景图片，CoDi能够输出“山景、日出”的文字；输入一段铁轨运行的音频，CoDi就能输出列车运行的图片。还可以多模态生成单模态，输入一组文字提示词“油画，恐怖画风，优雅复杂的概念艺术，克雷格·穆林斯风格”，加拍打木板的水声，CoDi生成了一张气势恢宏的海盗船画像；提供给CoDi熊猫吃竹子的图片，加上“在咖啡桌上吃”的文字指令，就能生成一段熊猫坐在咖啡桌旁吃竹子的视频。多模态生成多模态的效果更是神奇，输入“滑板上的泰迪熊，4k，高分辨率”的文本，加上一个繁华街道的图像以及哗哗的雨声的语音，CoDi就能生成小熊在街道上滑滑板的视频，而视频的背景音频是雨声。

为使模型能以任何input/prompt模态的组合进行调节，研究者以组合方式同时对文本、图像、视频和音频的prompt编码器进行优化，针对A模态生成B模态数据集缺失的问题，提出了一种名为桥接对齐（Bridging Alignment）的策略，以带文本模态的数据集为“中介”，对齐另外几种模态的训练效果。训练过程中，独立训练四种模态，然后这些扩散模型通过潜在对齐学习联合多模态生成。

值得一提的是，这篇论文的一作是华人本科生Zineng Tang，就读于北卡罗来纳大学教堂山分校，今年6月将进入加州大学伯克利分校读博，也是微软研究院的实习生。他的研究兴趣在于多模态学习、机器学习和NLP领域，从大一开始，就在NeurIPS、CVPR、ACL和NAACL等相继发6篇文章，其中5篇一作。

多模态统一生成大模型来了，华人本科生论文引关注

2023年05月29日 16:24

本文1012字，约1分钟