2022年11月,ChatGPT横空出世,戳中了资本、技术、产业的兴奋点。微软市值一夜暴涨5450亿美元,AI凭借“创作”强势崛起,这预示着AIGC元年已经开启,下一个万亿赛道即将爆发。
日前,《AIGC:智能创作时代》作者杜雨在“AIGC与智能数字时代前沿论坛”主旨演讲中表示,“这次AIGC的技术浪潮关乎每一个人,作为普通人,我们应该第一时间去拥抱它、使用它。”元宇宙是AIGC更高级形式的内容模态,“因为它更丰富、更3D、更沉浸式。无论是Roblox还是OpenAI都在积极拥抱元宇宙和AIGC的结合。”
此外,杜雨认为AIGC对资讯、影视、电商、教育、金融、医疗等六大行业带来的影响最为显著。在这一过程中,“作为创业者,要避免同质化;而作为投资人,最重要的是避免拿着锤子找钉子,真正能够带来最大商业成就的一定是离消费者最近的场景,”杜雨表示,“所以不要过度的关注大模型层,应用层也有很多机会。”
(以下根据杜雨主旨演讲实录选编)
一、AIGC全景分析
AIGC可以拆分成AI和GC,大家对AI并不陌生,人工智能已经被提出很多次;GC是内容创作。我之所以说AIGC是一次科技与艺术的碰撞,是因为AI是理科生做的事情,GC是文科生做的事情,也就是说机器不再那么冰冷,最后落脚到打动人的内容,它有能量有情绪,以及能够触动我们的情感,我认为这一点是AIGC相较于之前最大的一个变革。
内容创作经历了从PGC到UGC再到AIGC,早年做内容创作的都是专业人士,但是今天全网大量视频内容其实是UGC,是普通人在创作,过去两个时代都是人在创作内容,但是这一次非人也就是机器参与到内容创作中,在很多模态下都开始有AI参与,比如我们可以用ChatGPT去模拟跟虚拟女友对话,虽然看起来还比较生硬,但是我想人工智能已经有了画面,有了语言能力,或许不久的将来可能会让我们更加直观地去跟机器人产生情感链接。
音频领域也有很多有趣的应用,比如语音合成软件。在元宇宙时代AIGC给了我们一个机会,我们可以在虚拟世界里去扮演我们理想中或者跟我们现实生活不一样的角色,包括你的年龄、你的性别甚至物种都可以改变,我们还可以模仿小猫的发音方式。
接下来是图像的生成。与之相比,文字创作相对来说比较简单、生活中的应用场景也更多,这也是为什么今天ChatGPT最先进入每一个人生活中,但从兴起时间来看,这一次AI绘画等图像生成比ChatGPT更早。《太空歌剧院》是去年夺冠的AI绘画作品,这个作品的每一个细节放大之后都很有故事。所以,今天AI作品不仅能够在艺术创意上跟人比拼,更重要的是它能实现人做不了的事,因为我们真人作画时视力是有视线范围的,如果聚焦到精微的环节我们没有办法画出完整的故事,但是AI可以做到,因为它是数字,我们可以无限放大每一个细节,每个细节都依然是一个作品。再比如我们给机器一个指令,让它在一幅画中增加一只小狗,我们可以看到AI它首先理解的是让它在画中画一只小狗,所以它把小狗画到画里面的油画里。如果你告诉它不要把小狗画到油画里,而是画到凳子上面,稍微改几个文字,那整幅画就不一样。如果这一步的操作我们要让一个真人去画,那么他肯定很花时间的,首先要把第一幅图改掉,然后还要再把这只小狗再画上去,但是AI一秒钟就能完成。
更令人振奋的是视频,因为今天在移动互联网里占据用户时长最多的就是短视频平台,实际上我们看到的每一个视频本质上都是由无数帧图片构成,目前谷歌和Facebook已经开发了视频生成软件,可能看似比较粗糙,尤其是在二次元的场景里面,做真实的图景可能还没有那么强,但是我想这只是时间问题,在不远的未来,是不是可以让AI代替各大导演呢?
最后,除了前面大家熟悉的几个模态之外,我认为元宇宙也是一个更高级形式的内容模态,因为它更丰富、更3D、更沉浸式。无论是Roblox还是OpenAI都在积极拥抱元宇宙和AIGC的结合。AIGC也面临一些挑战,其中最重要的就是版权,因为AI的内容并不是凭空而来,而是AI学习了大量的真人作品之后才有这个能力的,那生成作品之后,它跟AI所学习的那些语料的原作者之间到底有什么关系呢?这令法律界也面临着很大的困扰。而借助Web3区块链确权技术就可以实现AIGC作品的版权争议,甚至可以解决绘画风格上的版权争议。在这个时代,Web3.0能够先于现实世界的传统法律体系而行,更好地去迎合这些由于新的技术迭代带来的法律空缺,以及一些瑕疵。
除了元宇宙和Web3.0之外,我想大家更关注的是现在大型科技公司究竟在做什么?宏观来看,在文字图像、虚拟人以及视频领域,是大公司扎堆的模态,尤其是在文字领域,可能是因为ChatGPT已经验证了在C端有很好的用户买单的流量,大家都在做。反而在音频多模态以及游戏,尤其是游戏领域的空缺比较大,腾讯目前在这个领域的布局比较深,这与它是全球最大的游戏公司之一有关。希望在理想状态下,大家能在各自状态下都能有一些布局。
接下来说一下初创公司,截至2023年2月9日,基于初创公司披露的样本,我们其实能看到一些趋势,图像现在是早期创业公司最早的赛道,假以时日或者半年之后抑或一年之后,更多的B轮、C轮可能会出现一些在图像领域做内容创作的公司。从地域上来说,北京处于第一位,可能是因为AIGC既需要海淀的AI理科生,也需要朝阳的文创工作者,所以北京是很重要的一个领地。从趋势来看,2021年到2022年有50%的增长,或许等到2023年年底的时候,这个增长量会更大。
二、AIGC技术思想
AI的技术发展经历了三个阶段,在1990年以前的AI 1.0时代,AI技术更多是基于小范围的实验性项目,还没有那么多技术走出实验室,而到了2010年之前,更多公司开始研发专用型AI,或者决策式AI,比如刷门禁、刷脸,刷脸其实是一个判断题,我们让它做判断题很容易,但是2010年之后也就是我们今天讲的AIGC时代不一样的就是,机器不仅可以做判断题,它还可以做简答题、论述题,甚至可以作画,它可以去做抽象的题目。如果把它当成一个学生的话,它可能从小学、大学,进化到今天至少到了研究生的阶段,因为有时确实它的回答几乎滴水不漏。
AIGC也经历了几个阶段。早期阶段的代表技术是生成对抗网络模型,它是最初AIGC应用最广泛的一个模型基础,一方面它需要生成器,另一方面需要判别器,在彼此对抗过程中实现生成。但是这个模型有一个劣势,AI所生成的内容可能并不是我们想要的。为了解决这个问题,出现了CLIP与Diffusion模型,这两个模型实现了根据文本生成图片的AI绘画,同时随着参数量的增大,AI会变得更加聪明。
最主流的AI绘画工具中有三个特别具有代表性:Stable Diffusion、DALL·E2和Midjourney。这三个产品面对同样的文字指令,作出来的画有什么不同呢?Stable Diffusion生成的图片的细节更复杂,相对来说有一定创意;DALL·E2生成的图片非常像照片,非常接近于现实;Midjourney最有艺术感,因为底层大模型不一样。那么,是不是未来所有人在文字模态下都要使用ChatGPT?当然不一定。就拿绘画工具来说,虽然都是作画的,但应用场景并不一样,更不用说语言。所以,我认为最后所有人并不是都去使用OpenAI的底层模型,其实每一个细微的变动都会带来不一样的应用场景,我想这就是内容创作的魅力。
AI的发展经历了几个阶段的模型迭代之后遇到了一个问题,虽然现在参数量变大,训练的语料数据量变大,但是这个时候AI出现了混乱,信息越多,它越不知道该怎么处理。这时候就需要为机器引入注意力机制,这就是ChatGPT的T(Transformer),P是预先进行训练的Pre-Trained,G是生成式的Generative。引入这样的机制后,我们可以让AI面对大量的语料时,能抓住主要矛盾。网上有传言说GPT-4的参数量可能可以达到百亿级,而人的大脑神经元突触的数量级就是百亿级,所以有人据此预测到GPT-4上市的时候,我们可能真的无法区分机器和人,因为它的参数量已经跟我们的大脑神经元一样大了,我想这值得期待。
ChatGPT的训练过程是什么原理呢?首先准备好问题一些问题和答案用于调优GPT-3.5模型,到了第二个阶段,抽取问题和一些模型的答案,进行排序,这些排序后的答案会用于训练奖励模型让它知道哪个答案更好,第三个阶段就是让ChatGPT开始输出,这时让ChatGPT回答问题时,在给完答案之后,越好的回答就会获得越多奖励,这样它就会在训练的过程中知道哪种回答是更好的,这几乎是我们真人去学习知识的渐进过程,但是可怕之处就在于它不需要吃饭、不需要睡觉,它是一个废寝忘食的学霸,这就是为什么短短几年间AI发展就突飞猛进了。这一次我认为ChatGPT之所以能够这么火爆,技术是一个方面,更重要的是它拥有特别低门槛的场景,让每一个人都能够去跟它互动。OpenAI的ChatGPT月活量破亿只花了2个月的时间。技术存在很久,包括底层的技术也存在很多年了,但在当今才实现如此爆发性的关注,这说明比起技术发展更重要的是找到结合已有技术的核心场景,这是非常需要从业者用心去挖掘的。
三、AIGC的影响
第一是资讯行业。媒体人很担心自己的工作会不会被ChatGPT替代,我认为ChatGPT更多是辅助媒体人的工作,过去记者采访更多的是录音转文字,但是今天我们可以把稿子扔给ChatGPT,让它按照我们的文风要求生成各式各样的风格,它可以通过学习我们的文风去生成文章。此外是快讯,尤其是体育赛事、经济数据的发布,这些新闻快讯的语言相对比较通用化,核心是抓取准确指标,ChatGPT可以直接生成内容,但它缺少温度和人文关怀,而且它无法判断一个消息用什么样的角度去报道,才能够不引起社会舆论的负面效应。所以,我认为媒体人的工作不会被替代,因为今天的机器人做不了价值判断。
第二是影视行业。在剧本创作环节,ChatGPT能够生成各种各样的故事线,而其他AIGC工具还可以生成动画,或者生成已经去世或者年老的演员,让他们再一次出现荧幕中。
第三是电商领域。AIGC可以生成视觉三维的模型,也可以让图片展示更高效。虚拟主播接入ChatGPT等AIGC模块后可以更好地和用户互动,最后可能会代替真人主播,实现更高的PMV。
第四是教育行业。比如写作辅导可能节省老师备课的时间;再如阅卷,ChatGPT未来也许能够去写评语,直接判断主观题。
第五是金融行业。ChatGPT以及底层通用模型广泛应用之后,智慧客服会变得更加智慧。
第六是医疗领域。公司可以借助ChatGPT的底层能力协助做心理治疗,因为我们每个人在跟它对话的时候,处于正面或负面情绪时,会用大量有特征的词汇。在聊天时,机器能识别出你好像在大量地使用负面词,它可能会认为你心情不好,它会换一种方式让你变得更愉悦。再就是辅助医疗科普,不再需要医生自己去录视频了,只需要医生去训练机器,让机器学习医生的语气,医生输入文字就可以。
这次AIGC的技术浪潮关乎我们每一个人,作为普通人,我们应该第一时间去拥抱它、使用它。中国版的各种ChatGPT也在路上了,作为创业者我想提醒的是,有很多项目,尤其做应用层的项目,我们必须要思考的一个问题是你长期积累的壁垒是什么?你的长期决策是什么?你有没有护城河?我认为创业者要避免同质化。而作为投资人,我认为最重要的就是要避免拿着锤子找钉子,回顾AI1.0时代,确实出现AI很多公司,但是从投资绝对额回报来看,最应该投资的是字节跳动,因为它找到了AI1.0最好的使用场景,无论是今日头条还是抖音,背后的推荐算法其实才是AI1.0时代最大的应用。真正能够带来最大商业成就的一定是离消费者最近的一些场景,所以我们不要过度的关注大模型层,应用层也有很多机会。
政府确实也在大力支持数字经济的发展,同时我们也要考虑到这次AI进入GC领域带来的各种社会影响、伦理问题,以及感性层面的一些正向引导,这些都是我们需要去关注的。