多模态统一生成大模型来了,华人本科生论文引关注

2023年05月29日 16:24  

本文1012字,约1分钟

大模型的研究进展太快了。近日,大模型的研究热点——多模态方面又有了新的突破。

日前,来自微软、北卡罗来纳大学教堂山分校的新研究实现了多模态大模型的统一。提出的可组合扩散(Composable Diffusion,简称 CoDi)具有任意输入和输出图、文、声音、视频四种模态的能力,只要指定输入和输出的模态,CoDi都能够理解并生成相应的效果。

随着技术的发展,近期国内外发布的大模型已不再局限于一种模态,已可以进行多种模态间的转变,但实现多种模态串联的难度还是较大。CoDi可能是第一个能够同时处理和生成任意组合模态的模型,真正实现了Any to Any

在CoDi的加持下,不仅可以单模态生成单模态,例如输入一张风景图片,CoDi能够输出“山景、日出”的文字;输入一段铁轨运行的音频,CoDi就能输出列车运行的图片。还可以多模态生成单模态,输入一组文字提示词“油画,恐怖画风,优雅复杂的概念艺术,克雷格·穆林斯风格”,加拍打木板的水声,CoDi生成了一张气势恢宏的海盗船画像;提供给CoDi熊猫吃竹子的图片,加上“在咖啡桌上吃”的文字指令,就能生成一段熊猫坐在咖啡桌旁吃竹子的视频。多模态生成多模态的效果更是神奇,输入“滑板上的泰迪熊,4k,高分辨率”的文本,加上一个繁华街道的图像以及哗哗的雨声的语音,CoDi就能生成小熊在街道上滑滑板的视频,而视频的背景音频是雨声。

为使模型能以任何input/prompt模态的组合进行调节,研究者以组合方式同时对文本、图像、视频和音频的prompt编码器进行优化,针对A模态生成B模态数据集缺失的问题,提出了一种名为桥接对齐(Bridging Alignment)的策略,以带文本模态的数据集为“中介”,对齐另外几种模态的训练效果。训练过程中,独立训练四种模态,然后这些扩散模型通过潜在对齐学习联合多模态生成。

值得一提的是,这篇论文的一作是华人本科生Zineng Tang,就读于北卡罗来纳大学教堂山分校,今年6月将进入加州大学伯克利分校读博,也是微软研究院的实习生。他的研究兴趣在于多模态学习、机器学习和NLP领域,从大一开始,就在NeurIPS、CVPR、ACL和NAACL等相继发6篇文章,其中5篇一作。