中国 AI 的这次「合伙」，不止是大模型的胜利-木庄网络博客

本文摘自雷锋网，原文链接：https://www.leiphone.com/category/academic/8TFUHtSvulmAKKzh.html，侵删。

中国 AI 的这次「合伙」，不止是大模型的胜利

尽管唱衰大模型的声音不绝，但无可否认，近年来人工智能领域的重大突破，都离不开大模型的支撑。

以近日火热的 AIGC 为例。语言大模型在理解文本语境与知识推理能力上的突飞猛进，是人工智能跨越单一模态，读懂人类描述的语言、进而生成各色精美图像的基石之一。

大模型被诟病之处突出，算力成本与不确定性为最大要点，但与此同时，几乎没有人能否认，在未来五年、甚至十年的智能研究中，大模型必将占有一席之地。美国人工智能学术界将其称为「基础模型」（Foundation Model），在定位上视之为基础研究，重视程度也可见一斑。

然而，由于训练难度与成本的高门槛，大模型在国内的兴起注定只掌握在少数人的手中。一项基础研究的开拓，必须团结尽可能团结的力量，才能推动其进步的速度与质量。尤其在知识注入与多场景通用无阻的追求上，大模型的研究者多多益善。

因此，从去年开始，「开源」AI 大模型的呼声也日渐高昂。唯有开源，才能降低大模型的研究门槛；也唯有开源，才能促进与大模型相匹配的基础设施（如架构、算力、落地设备）建设。

「魔搭」（ModelScope）社区的成立，正是基于这样急切的背景。

在今年的云栖大会上，阿里达摩院与 CCF 开源发展委员会联合正式推出国内首个 AI 模型开源社区——魔搭 ModelScope，宣布将达摩院近五年苦心研究的 300 多个优质模型开放给整个中国的 AI 研究者与团队，共同促进中国的 AI 基础研究。

这其中，300 多个模型就有十多个大模型。这一举动，被业界称为大模型的「家底秀」，而魔搭社区的使命是「开源」，阿里真的是把家底给亮出来了！

中国 AI 的这次「合伙」，不止是大模型的胜利

图注：周靖人在 ModelScope 魔搭发布会上

阿里巴巴集团资深副总裁、阿里达摩院副院长周靖人告诉 AI 科技评论：「我们的口号是 AI for Everyone。」

以大模型为例。他们认为，大模型的研发不应该是一场少数机构的竞赛，而应该通过大小模型的协同进化走向更高级的应用，尤其是适应中国本土需求的应用。

2020年GPT-3出现以来，国内的研究者只能仰仗英语大模型，文化与语言的鸿沟成为模仿西方技术成果时的消极产物，中文大模型也呼之欲出。魔搭将现有为数不多的中文大模型开放后，AI 领域的研究者基于中文大模型自由开发满足下游任务的小模型时，能更好解决东方的实际问题。

魔搭社区的成立，是中国人工智能领域一个划时代的故事开篇。

AI 突破的风口，在应用

两年前，《数学之美》作者吴军在接受 AI 科技评论的访谈时就曾说过：深度学习大的理论突破已经走到瓶颈期，AI 风口的下一个十年在于应用。

这两年的发展路径，越来越多的落地与应用讨论，也验证了吴军的判断。如今，我们对 AI 的期待，已经不再只停留在迸发于实验室的那些「AlphaGo 时刻」，而且「用起来」，在解决实际生活的问题中创造价值。

那么，AI 如何最大程度地发挥价值？

纵观构成人工智能的三驾马车：数据是护城河，隔行如隔山；算力仰仗少数巨头的芯片能力，普通人玩不起；而在模型的竞技场，任何人都可以做点什么。

因此，未来五年，人工智能能大规模应用的风口，在于模型。

然而，以模型为中心的 AI 技术在落地产业的过程中，正受到两方面的制约，一是在模型的创新侧，二是在模型的应用侧。其中，模型的应用又离不开创新。

算法的创新如今进入一种尴尬境地。持续创新力不足，技术突破凤毛麟角，只局限于少数几个领域，更多的应用场景还等待技术去解锁。

在以前，AI 公司针对具体的任务和应用场景来定制并出售模型和解决方案，但这种商业模式正在失去其竞争力。

达摩院基础视觉团队负责人赵德丽对这一点深有感触。他举了一个例子：假如有 1000 个任务要实现，那就要研发出 1000 个不同的模型，其中的工作量非常之大。一旦研发团队有人离职，相对应的模型就无法维护、迭代，不具备可扩展性，最终蚀断 AI 应用的链条。

统一底层架构的出现，为上述难题的解决提供了一种路径。

2017 年，谷歌在《Attention Is All You Need》这篇经典之作中提出 Transformer 模型，作为一个具备强大通用性的底层架构，它后来衍生出了 BERT、GPT-3 等预训练语言模型，且参数量飞速增长，将 AI 带入了大模型时代，如今在语言、视觉、多模态等领域上都已证明了其无限潜力。

今年大火的扩散模型（Diffusion Model）是一个新近的例证，得益于其开源，目前国内外社区涌现出的 AI 作画应用已经令人目不暇接。

周靖人认为，大模型之所以具备巨大的价值想象空间，是因为大模型本质上是对人类知识体系的积累、抽象与提炼，从而能够接近人类智能。

同时，大模型的底层性使其能够承担起一种「基础设施」的功能，打好 AI 应用的底座，这也是大模型的另一名号「基础模型」（Foundation Models）所凸显的意义。

如赵德丽所言，「在统一底层架构的范式下，基础研究的价值比以往时候更大。若能研发出一个真正有竞争力的基础模型，整个 AI 生态都会受益。」也正因如此，一直从事生成模型研究的赵德丽十分看好扩散模型。

基于统一的底层架构所开发的模型将变得可维护、可迭代、可扩展，这样一来，系统级的 AI 应用才有被创造出来的可能，AI 的价值才能被真正兑现。

但目前我们国内的事实是，在「炼」大模型上，暴力堆参有余而架构创新不足，无论是 Transformer 还是 Diffusion Models，这类基础性突破大都生发于国外，国内则更多处于追赶的状态。在「用」大模型上，大模型的潜力也未见爆发，大规模的落地应用还未出现。

要改变这种现状，大模型的基础设施与生态建设尤为重要。在这一点上，国外的进展的确有所领先，例如今年 3 月谷歌发布了用于训练大模型的底层架构 Pathways 系统，被谷歌 AI 掌门人 Jeff Dean 寄予了「下一代 AI 架构」的厚望，次月推出的 5400 亿参数的超大规模语言模型 PaLM 便是在该架构下训练出来的，其超强的推理能力令人惊叹。

阅读剩余部分

相关推荐

评论