AIGC:我不是元宇宙的附庸品


本文摘自雷锋网,原文链接:https://www.leiphone.com/category/ai/m82Gd2InD65dLPbs.html,侵删。

“你们是从什么时候开始注意到人类的?”

“当第一个原始人开始仰望星空的时候。”

AI 的类人猿,早已开始仰望人类。

01 来自机器的审视

在过去短短的两年间,算法从业者王超岳有过两次被 AI 震撼住的时刻。

一次是去年 3 月 OpenAI 祭出人工智能绘画产品 DALL·E 时。只需要在计算机上输入一句话,DALL·E 就能够理解这句话、然后自动生成一幅意思相应的图像,且该图像是全网首发、独一无二。

所有跨越“族群”的交流都是一次文明的突变,来自未明机器系统的回应也让人类感到犹遇 UFO 的震惊与好奇。在人与人的距离越来越远的现代社会,机器却好像能够读懂一个人的内心。

“你能明显感觉到它相比 GAN(2014 年出现的一个 AI 生成网络)的进步。DALL·E 的技术是革命性的。”王超岳告诉雷峰网。雷峰网

第二次是今年 4 月谷歌发布 5400 亿参数大模型 PaLM 的时候。随着参数的变大,PaLM 的文本理解能力与逻辑推理能力大幅提升,甚至可以用文本解释笑话,告诉读者为什么这个笑话好笑。雷峰网

在这之前,人们嘲讽 AI 最常用的一句话就是:这个 AI 模型的推理能力很弱,像 3 岁小朋友。但大模型发展至今,已经能做算术、能做逻辑推理,心智已经接近甚至在某些角度超过人类。“比方说,”王超岳举例:“有很多笑话我一时不能理解,但它能给我解释,说明在一些语言理解任务上、它比我还懂。”

王超岳是生成式 AI 的资深研究者,从 2014 年 GAN 发布后就开始关注 AIGC 相关研究,当时 GAN 就是深度生成网络的研究热点,但热度也远远不及 AIGC 这两年的重大突破。上述提到的两项技术,也成为点燃今年下半年 AI 圈狂欢的“导火索”:雷峰网(公众号:雷峰网)

DALL·E 背后的关键技术 CLIP 让文字与图片两个模态找到能够对话的交界点,成为 DALL·E、DALL·E 2.0、Stable Diffusion 等突破性 AI 成果的基石;而像 PaLM 这样的语言大模型,虽然烧钱,但其对人类语言的理解能力突飞猛进,是 AI 能读懂人的前提。

“这两年的 AI 技术突破真的非常快。”心辰科技(盗梦师团队)创始人蓝振忠也说道。他读论文经常读到很兴奋、很激动:“CLIP 出来一段时间后,MAE(何恺明团队提出的一种AI范式,可以将在语言任务上表现优秀的能力迁移到视觉任务的处理上)又跟着出来,然后又有 Stable Diffusion……”

今年 8 月 Stable Diffusion 推出以来,蓝振忠与团队很快就跟上、只用了不到一个月的时间就上线 AI 作画产品“盗梦师”,并迅速在国内火起来,出图速度短至 1 秒,而且绘画质量非常高,日留存率接近50%(高于 90% 的小程序),不到两个月就接到了 To B 的大订单。

AIGC:我不是元宇宙的附庸品

“盗梦师”生成的图像作品

在盗梦师上线的第二天(9 月 1 日),国内第一本《 AIGC 白皮书》在上海世界人工智能大会(WAIC)发布。王超岳参与了这本白皮书的撰写,并主导了 AIGC 技术体系的梳理和展望。

AIGC 白皮书的发布引来大批参会同行的关注。不仅是人工智能领域的研究者,还有元宇宙领域的从业者:

“当时红杉资本那篇关于生成式 AI 的文章还没有出来,大家都还不知道 AIGC 是什么。这说明数字内容生成的重要性是行业共识。”

再紧接着,一切都很快:技术的突破带来应用的繁荣,Midjourney 在海外火起,文生图的热潮又让人们看到更多原先冷门的 AIGC 分支,如文本生成、视频生成、音乐生成,业内人士才惊觉,原来海外像 Jasper.ai 这样的公司已经在商业化落地上有成功的验证。继上一代以识别与检测为主的感知智能之后,用于生成与编辑的“创造智能”成为资本的新宠。

更意外的是,这一波 AIGC 的热潮还引起了广大圈外人士的关注,如自媒体 KOL、插画师群体与图文创作者。人们有恐慌,檄文不断;也有欢喜,希望拥抱前沿的技术。但无论人们接受与否,一个不可逆转的趋势已经在发生。

02 AIGC 的大航海时代已开启

1519 年,一支探险船队从西班牙驶出,由西而去,人类文明的大航海时代开启。

后来,全球化历史学家记载文明,总要提到一个叫麦哲伦的探险家,以及他最初航海的好奇心:地球是方的,还是圆的?——麦哲伦是地圆说的倡导者;如果地球是方的,就证明航海无法成功;而如果地球是圆的,那么他最终会回到原点。

1950 年,另一位叫艾伦·图灵的科学探险家也有相似的好奇:机器能否根据人的行为作出有意识的反应?——他提出了一个著名的检测方法,叫“图灵测试”,开启了人工智能的研究时代。

如今,AI 领域的研究者,在 AIGC 的技术探索中似乎也获得了相似的探索欲望与热情。他们想知道:机器是否能读懂人的思想与逻辑,从 0 到 1 进行创造?

答案是:经过近十年的技术发展,他们认为可以,并且相信当前的 AIGC 探索已经到了工程化的阶段。

犹如麦哲伦航海,目的已经明确,航海的地图(理论与框架)也已初具雏形,接下来是要验证技术路线是否可以到达目的地。

以文生图为例。虽然 AI 根据文本描述画画的能力还不够完美,例如基于不同的文本提示(prompt)会输出质量不一的图像,对长文本的理解能力不足、会漏读关键词汇导致生成的图像不完成等等,但这些都是一个个具体的研究问题,被解决只是时间问题。

为什么说 AIGC 的地图已勾勒完成?这主要归功于三方面:大模型、多模态与可控制。

2020 年,OpenAI 推出 1750 亿参数的预训练语言大模型 GPT-3,在国内外掀起千亿参数大模型的研究浪潮。那时开始,AI 的语言表达和理解能力开始突飞猛进。也是从那时起,AI 开始能在很短的时间内写出不错的文章。

实际上,那时候海外就出现了一波专做文字生成的商业公司,如 Jasper.ai 与 Copy.ai。这些公司开发了机器自动写作平台,用户输入关键字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文,用于替代写作过程中的大量劳动,并能兑换出商业价值。

但由于 OpenAI 不对大陆和香港开放 GPT-3 接口,所以国内的 AI 研究人员很难用起来,文字生成的相关应用也没能在国内火起。这两年,虽然国内也有许多大厂与高校下场研究中文大模型,但在开源上仍进展缓慢,导致大量的 AI 开发者止步于高昂的训练成本,限制了基于中文语言的 AI 应用开发。

在这一波 AIGC 中,AI 大模型在理解人类语言的能力上发挥了关键作用。归功于大模型的发展,不仅文本生成的效果不错,基于文本的图像生成也较 GAN 时代有了极大的进步。

王超岳就告诉雷峰网,在撰写《 AIGC 白皮书》时,其实他们内部有过纠结:标题是要写成“AIGC”(AI-Generated Content),还是写成“生成式AI”(Generative AI)?最后,王超岳把票投给了AIGC,因为 generative model(生成模型)是一个专有的学术名词,一般是描述模型对一个具体的分布进行拟合,比如 GAN。但 DALL·E 2.0 所做的在某种程度上已经超出了对某一种数据分布的拟合,展现出了通用的图像生成能力。

举个例子,GAN 最知名的应用是人脸生成:模型去看海量的人脸照片,知道人脸是一种分布,然后学习到人脸的特征。在 2014 年还没有能够生成高维数据图像的方法时,GAN 是一种很强的生成方法,但局限性也是本质的:

首先,它需要一个特定的数据集(比如人脸),泛化能力差。比如,GAN 发布后被用于训练各种各样的人脸特效,但一个 GAN 无法训练出多种人脸特效,换另一种特效就要新训练一个 GAN;其次,GAN 在通过文本描述控制图像生成上做的并不尽如人意,这很大程度限制了它成为一个可控的通用式结构。

而 OpenAI 发布的 DALL·E(和之后 DALL·E 2)是使用了通用模型:能够同时处理多项语言任务的语言大模型,加打通文字与图像两种模态的 CLIP 模型,控制图像生成的扩散模型,能够在保证真实性的基础上进一步产生概念与元素的组合,生成更加复杂的场景。

一个例子是 AI 能够根据文字的描述对图像进行编辑,在添加或移动图片元素时将阴影、投影与物理表面纹理等因素都考虑进去。比如,人类制定要下图 3 的位置生成火烈鸟,AI 就真的在室外的玻璃边生成两只火烈鸟、并且有影子投映下来:

AIGC:我不是元宇宙的附庸品

当指定在上图 2 的位置(游泳池中间)生成火烈鸟时,AI 会自动生成一个适应泳池环境的形象——火烈鸟游泳圈:

AIGC:我不是元宇宙的附庸品

文字与图像的多模态研究大体可以分为三个阶段:1、图文描述(让计算机描述画中的事情);2、图文问答(给一张图片,问这个图片里的桌子上都有什么东西。机器人需要理解问题,再了解图片里都是些什么东西);3、用一句话生成图片(让机器人通过一句话的描述作画)。

多模态的一个重要贡献在于数据源:它很好地提供了文本与图像成对的训练数据,这些数据也是帮助 AIGC 模型学习到认知的重要素材。

阅读剩余部分

相关阅读 >>

高通公司中国区董事长孟樸:5g和AI融合将加速各

哈佛汽车金融全国官方客服电话热线大全已更新2023(实时/更新中)马斯克称盖茨对AI的理解太有限 多年来依然如此

易鑫车贷客户服务电话大全已更新2023(今日更新中)科技大公司上万人研究AI,为何比不上openAI小团

曾发布自研7nm AI芯片!寒武纪核心技术人员梁军离职

100篇文章带你读懂元宇宙:区块链游戏和普通游戏有啥区别?

AI绘画、AI聊天后,没学过生物的「门外汉」也能「一键生成」蛋白质

微软ceo纳德拉:AI像是互联网那样的巨浪 改变了

AI加速落地,助力元宇宙起飞

蚂蚁财富理财客服电话大全已更新2023(在实时/更新中)idc:2026年中国AI市场规模将超264.4亿美元

快手:近期将内测AI四格漫画、AI一键vlog剪辑等

更多相关阅读请进入《AI》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...