田丰:数字经济3.0让每个人享受到人工智能红利

2023年02月03日 11:53  

本文6507字,约9分钟

“我们非常希望能够利用人工智能赋能所有的文化创作者、科学家还有产业的创造者,以更好的数字工具箱创造一个物质和精神同样繁荣的数字经济3.0时代。”12月23日,商汤智能产业研究院创始院长田丰在“2022《财经》跨年演讲:新商业·大家说”上以“人工智能新跨越”为题带来了分享。

商汤智能产业研究院创始院长 田丰

田丰分享了人工智能发展的三部曲:单点突破,价值闭环,降本推广。“第一点首先我们先要用技术、用算法来达到人类能够实现的精准度,我们叫工业红线。单点之后我们会去寻求人工智能能不能在产业方面,在文化方面产生价值,这就是我们说的价值闭环。但是这个还不够,我们只是产出了一个产品,这个产品具不具备比较好的性价比?那就需要我们不断降低技术的成本,去实现规模化的推广。”

结合商汤在人工智能领域,尤其是AIGC方面取得的诸多进展和案例,田丰生动形象地解释了“AIGC体系多模态布局降本增效”“AI算法模型是连接物理与虚拟世界的基础”“大算力、大模型、大创作”等多个主题。

以下为嘉宾发言实录:

田丰:大家好,今天很高兴在跨年之际跟大家聊聊人工智能新跨越。

我们都在过去一年面对了太多不确定性,但是在高度变化之中要寻找不变的东西。我记得余秋雨老师在中国文化课里面提到,四大文明古国里中国是第四个出现的,但是我们是唯一让中华民族文化源远流长下来的。

我想这背后其实提出一个问题,就是我们如何去面对历史和未来对我们的挑战?中华民族的精神内核是什么?我们都知道中华民族源远流长,它的精神内核来自诸子百家,来自敦煌跨越千年的壁画。文化的流传也来自唐诗宋词元曲,也是我们现在正在看到的新一代中国科幻文化的崛起。所以背后是什么呢?背后是我们如何利用新的数字技术来传承中国的文化,并且进行再次创作,这是带给我们的新挑战。也就是说我们新一代的文学创作者、艺术家都会去用人工智能、用大数据、用混合现实来创造我们新的未来文化。我们可以看到大家现在都在说“百行之中文化最大”。元宇宙在真正连通物理世界和我们人类创造的精神世界。

那么我们再看一下国家明年将推出很多虚拟现实、元宇宙的政策。如果按照各个省市去看,沿海地区更擅长做经济方面的创新,内地地区在文化创造上拥有巨大的潜力和人才。那么如何用我们现在的人工智能来替代笔墨纸砚,传承中国民族的精神内核?

这是给我们带来一个新的机会。我们也可以看到,人工智能的发展离不开三步走,不管是AIGC、生成式AI、还是自动驾驶,智慧城市。第一点首先我们先要用技术、用算法来达到人类能够实现的精准度,我们叫工业红线。比如说我们通过AI可以生成不亚于人类创作者中等水平的画作或者是一篇文章,这个就突破了单点。单点之后我们会去寻求人工智能能不能在产业方面,在文化方面产生价值,这就是我们说的价值闭环。比如我们用人工智能能够生产新闻稿、行业研究的报告,甚至能够发现药品的分子式,能够创造一个符合我们建筑的装修风,那么这些都是我们产生的价值闭环。但是这个还不够,我们只是产出了一个产品,但是这个产品具不具备比较好的性价比?那就需要我们不断降低技术试验的成本,去实现规模化的推广。

我们拿商汤自己举例。人工智能对数据的标注,我们将它的效率提升了500倍,也就是成本降到了原来1/500。我们模型的生产成本降低了94%。那对于一个应用型的算力,全生命周期的成本降低了70%。我们想一想汽车的推广是不是依赖于成本的持续降低?包括我们现在说的新能源车,包括我们说的人工智能产出大量的画作或者是文章,背后其实都是成本持续降低带来的大发展。

我们可以看一下历史上每一次工业革命。每一次的技术革命其实都是成本的持续降低,电力时代带给我们的人人都在用电,每家企业都在用电,它背后就是发电、供电,还有储电、储能等等成本的持续下降。

第二个我们可以看到,虽然现在衣食住行方面享受到了很多移动互联网的红利,但是我们有没有想到,这背后是通信成本以及算力成本持续下降带来的巨大数字经济红利。当我们进入数字经济3.0的时代,我们也看到了模型的生产成本,算力成本,数据自动标注的成本都在持续下降。那么这真正给我们带来了数字经济3.0的巨大革命,让我们每一个人都有能力,有机会去享受到人工智能的红利。

再来看一下生成式AI带给我们的是什么样巨大的机会?我们以商汤去看,生成式AI底层基于的是深度学习的平台,同时还要消耗大量AI的算力。我们也可以把生成的AI模型作为一个产品,那么我们其实经历的就是很多数据进来——不管是人的肖像画,还是建筑的设计图纸或者是药品的各种分子式——进入这个AI工厂,经过大量的数据标注,积极学习的训练,然后增强学习,产出的是一个又一个模型算法,最终是人物肖像的生成,一些艺术品、数字文创产品的生成。

包括我们的灵境空间,对空间结构的一些感知。其实这里提到了中西方文化有一些差别,西方讲的是非常精致,对于空间结构,对于人体结构非常精致,而中国艺术讲的是一个大写意。人工智能恰好在两方面都有比较擅长的部分。第一可以通过感知,能够更好地体会到我们面对的真实世界的物理精度。第二,也可以通过大量的艺术品、文化作品的训练,来感知到一些隐藏背后的写意规律。

所以从商汤去看全球的生成式AI发展,其实离不开互联网、数字经济几个基本底层元素,包括文本,声音、图片、视频和3D动作等等。那么单模态输入几个关键词产出的文本,比如输入“慢生活”,它可以给我们一首歌叫“采菊东篱下,悠然见南山”,这个其实代表的是中国文化的一种意境,这个就是由关键词文本生成文本。

也可以通过文本生成声音,比如说我们把《论语》《四书五经》输入给一个数字人,那么他们就能以声音的形式去讲诸子百家的中华文化。当然我们也可以赋予数字人更多的微表情、动作,还有背后的内涵、知识图谱,那么最终带给我们的是一个高精度的数字人模型,同时可以跟我进行交互,所以我们说背后离不开大的算力和模型。

目前来讲商汤有亚洲领先的AI超算中心,提供海量的数据,能够让我们的人工智能更多学习到中国几千年的历史文化,能够产出符合中国文化内核的各种各样AI内容产品。同时也能提供十亿级参数级别的大模型,因为我们知道AIGC的本质,实际上是通过大模型结合一些渗透算法、对抗神经网络等等,来生成更多的文化创作内容或者是产业创作内容。所以背后是大算力产出大模型,最终带来的创作。

通过商汤自身从2015年到现在7、8年的发展,也可以看到AIGC发展的一些规律。比如说像小朋友学中国的水墨画一样,先做临摹,先对静态的真实世界有一个感知,去感受人体大概的形态是什么样的,去感受真实世界的物理空间符合什么样的规律,再进行二次创作和内容的增强。可以看到就像学画画一样,先从人开始,再去画物,再去画空间,最终了解人、物、场之间的关系,产出多模态发展。

同时也能看到,元宇宙是一种新的媒介,AIGC正在给元宇宙提供一个新的超过人力瓶颈的生产线。一开始创作只是文字和静态图片,逐渐开始创作视频,创作一些精美的、细节很丰富的图片。再往后创造,从2D到3D的数字人模型、建筑的模型、城市的模型,同时让它产生交互,这就是我们说的AIGC、生成式AI不断产生发展的路径。

当然人和物的生成和互动是非常关键的。如果元宇宙都是静态的,对我们来说不亚于早期的互联网。如果元宇宙在它的艺术空间、在产业研发空间中,能够跟人产生更多互动,这就给我们带来巨大的机会。无论是我们在元宇宙里产生艺术创作,还是设计建筑,或者去体验汽车新的自动驾驶的环境变化,带来自动驾驶能力的提升,背后都离不开我们说的元宇宙的平台能力。比如说数字人的生成平台,我们想一想,当创作一个CG电影的时候,背后需要花费大量传统的CG设计师的人力,但是现在我们可以用人工智能快速生成一批这样的数字人,而且惟妙惟肖,有不同风格,有的是公主风格,有的是中国的武侠风格,也有不同的年龄、肤色,甚至我们可以把古代人物还原出来。所以我们说人工智能学的不是一个僵化的外形,而是学的神似,学的背后的风格和规律,这样去产出更具体的细节。

我们说一个好的元宇宙的生成引擎,离不开成本的持续降低,同时也离不开产业的实战考验。不管在金融四大行还是在互联网的新媒体,我们有大量丰富的AIGC场景,来持续提升数字人、元宇宙、数字文创的产品能力。有一个具体数字,传统生成一个数字人需要60天,但是我们在几年内把这个时间压缩到了4个小时。这给我们带来的是数字人产业的大爆发。所以我们看到今年上半年元宇宙领域数字人是大爆发,下半年AIGC是一个大爆发。不止生成了数字人,还能生成世界的万事万物。

我们知道艺术来自真实,所以如何去感知物理世界是非常重要的。很多时候我们说AIGC起源于硬件,繁荣于软件。硬件就是我们的传感器:AI传感器、AI图像的ISP识别的处理芯片,也来自各种各样的认知算法的训练平台,最终产出了丰富的元宇宙的内容。不论是在产业的元宇宙还是在文化的元宇宙,我们可以让算法模型理解到世界的常识和模型,从而能让它猜出一些模糊图片背后隐藏的各种各样的真实细节。这个给我们带来的是一种整体的体验提升。不管我们的硬件配置,可能显卡比较低,但是真正的算法可以给我们带来超分辨率,比如说4K、8K这样的感官提升。甚至可以把古画的分辨率提升上来,有一个更好的体验。

所以商汤在2015年开始到现在,我们开源的算法库跟很多实验室、高校有大量合作和创新。最早只是创造出来美颜的算法,美体的算法。人对于美的追求是无限的,逐渐大家对这一块也有更高的要求。比如能不能让我自己的数字人不光好看,还能够动起来,不管是跟一些up主学跳操,还是掌握一段武术,或者是冬奥会的滑雪、滑冰的技巧。那么这些都是数字人能够快速通过机器视觉可以训练的十八般武艺,最终代替我们在电商上带货,在我们社交网络上展示出更多的才艺。

接着说到今年年底爆火的AIGC。很多时候我们看到是文本生成一篇文章,或者通过一些关键词生成一些图片,那么背后离不开两个非常关键的要素:一个就是人工智能产出大量的内容,一定是学习了非常海量的数据。不管是我们历史文化的这些多媒体素材,还是真实世界的各种常识。

另外一个维度是算力。就是人工智能很努力去学,背后消耗的是大量AI的算力,这个也可以称之为数字经济3.0的电力供应。算力加数据量,带给我们一个看起来很有创造力的人工智能、生成式AI。我们拿商汤生成式AI产生的两个画作来看,左边的画作是一个战损的机器人,它背后和前面有一个远景近景的切换,细节很丰富。右边是我们说的一个符合中国、亚洲审美的人物和背后的东方建筑,我们可以看到她的表情还是非常真实的,或者说是很丰富的。

我们再去跟其他的AIGC引擎做一个对比,就可以看到大算力、大模型产出这种创作的细节、创作的风格都是惟妙惟肖而且更精致,带给我们背后的故事感。所以人类对文化的创造,其实来自我们对世界的认知,先有感才有知。就像艺术家去创作一样,所以背后一定包含了对这个世界各种各样的感知,才能够创造出相应的细节。但是我们现在说还是属于再创作,也就是基于我们历史文化,我们的积淀去进行二次创作。

我们都知道一个AIGC产出艺术品,它的灵魂还是在于背后的语意,就是对自然语言的理解和创作。这些我们也做了大量的积累,就是为未来做创作。我们可以想象一个看起来很有文化的数字人,穿着古装来到我们面前,如果能够带给我们四书五经,能够带给我们穿越千年的敦煌这种讲座和知识,那么背后其实是一个非常丰富的人文关怀和交互,这就离不开背后的自然语言和三维场景的创建。

最后我们看一些商汤通过AIGC的技术生产的例子,比如说我们基于语言和文字驱动一个数字人,注意这些数字人所有的动作表情都是基于我们输入的一段文字来产生的。因为今天时间有限,所以我们再看一下基于纯视觉的AI驱动,也就是我们说的“中之人”。背后不管是我们是一个大叔还是一个中学生,他都可以驱动前面的数字人,去进行各种各样的社交和服务活动,而且精度很高,可以识别到手指的弯曲,包括头发、肢体的变化。

我们说数字人从一个单模态,也就是从最早的,比如输入一些文本信息可以做一些文本型的客服,到后面说的AI来驱动数字人,提供多模态,包括语音、肢体交互、表情、文字这种多模态的交互,其实代表的是一种大发展。

我们可以看到像这种高精度的数字人的模型,以往需要花费大量的影视CG资源制作。但是现在只需要基于一个单模的摄像头,也就是每个人手上的手机或者是笔记本电脑的摄像头,就可以创造并驱动这样高精度的数字人。

我们说文化的创作当然不只是一个人物,还包括人和背景之间的互动。经常玩摄影、无人机的爱好者就会知道,视角的单一会带来观众的疲劳,而如果我们用人工智能运镜切换不同的视角,就会带来很丰富的体验。比如说数字人小姐姐,跳舞和背后的运镜都是可以通过学习视频中的舞者,实时就能掌握的。

我们还可以让数字人学会大量有趣的动作,比如说跳远或者是散打,包括舞蹈。那么这就给我们带来了很丰富的文艺创作想象力,人类只需要负责这种创意,然后把这些涉及细节的工作交给AI去生成。

当然我们知道数字人也离不开外形,不光要有一张有颜值的脸,还需要有服装,不管是民族服饰还是商务服饰,那么我们有大量的服装服饰库。同时我们也支持很多交互中有趣的动作,比如说比心、说嗨,还有站立、讲解的不同姿势,这个背后是一个丰富的人物创作素材库,能够提供更好的企业级数字人服务。我们说AIGC真正带来的是产业价值和文艺价值。

每一个产品背后都离不开我们这样一个主人公,这个主人公现在成本持续在降低,而且它可以带来更多的商业行为,不管是直播带货还是快速生成一个短视频。其实也是带给我们一个新的挑战,就是这个人物和环境能不能融为一体,是不是有足够丰富的环境交互和空间定位能力。

比如说我们做了一个“毒液”的模型,它和真实环境之间可以产生一些交互。同时我们也可以生成类似于“赛璐璐”风格的漫画,然后让人物在现实环境中产生有趣的例如投篮球或者二次元的故事,也就是把二次元的人物放在三次元里面,产生更好更丰富的空间感知、计算、渲染等等。那么这又给我们带来新的文化创作机会和自动化效率的提升。

当然我们知道中国的文化内核是非常丰富的,有几千年的历史。所以我们和故宫一起出版了亲子版的日历,我们和明星产生了AI的明信片,包括AI的卡牌这给我们带来丰富的中国历史文化IP,然后转化出数字文创的产品。

当然我们知道中国有建筑的历史文化,比如说我们把佛光寺微缩成一个模型,同时展示出中国千年以来的唐代建筑到现在的榫卯结构,这样也是对历史文化的一个传承,因为我们都知道全球的东方建筑其实大量参考了中国唐代的建筑风格。徐悲鸿画的马,我们也可以展现出一个3D的灵境空间。

当然我们现在很多年轻人更希望的是有交互,所以我们能不能将人物场景融入到一个虚拟城市当中,我们在这个城市之中展开我们的探险、旅游,甚至各种各样的商业活动。这个背后给我们带来的是一个无尽的人类创造精神文明的空间。

这背后是有大量现成的产品和市场需求。比如说多人的竞技游戏,举办元宇宙的论坛或者是虚拟空间中的直播发布会,虚拟广告等等,这个在未来有巨大的商业空间。

最后我们非常希望能够利用人工智能赋能所有的文化创作者、科学家还有产业的创造者,以更好的数字工具箱创造一个物质和精神同样繁荣的数字经济3.0时代,谢谢。

由《财经》新媒体主办的“2022《财经》跨年演讲:新商业·大家说”12月23日在北京举行,活动主题“新征程 新格局”,邀各界“大家”共话新商业发展。