不到一年，非营利AI安全研究公司又获5.8亿美元B轮融资-木庄网络博客

本文摘自人民资讯，原文链接：https://mini.eastday.com/mobile/220430194452270512812.html，侵删。

本文转自：澎湃新闻

当下，AI大模型正成为一些行业驱动的底层架构，同时表现出的一般规则是“系统越强大，就越难解释其行为”。

像OpenAI的GPT-3通用语言模型几乎可以以任何风格和任何主题生成非常自然的文本。但在它写诗时，它是如何做到的？它在“想”什么？什么样的调整让它更忧郁更浪漫，或者以特定的方式限制它的措辞和词汇？我们几乎一无所知。

“当今的大型通用系统可以带来显著的好处，但也可能无法预测、不可靠和不透明：我们的目标是在这些问题上取得进展。”前OpenAI研究副总裁Dario Amodei此前写道，“Anthropic的目标是推进基础研究，让我们能够构建更强大、更通用、更可靠的人工智能系统，然后以造福人类的方式部署这些系统，”

当地时间4月29日，AI研究机构Anthropic宣布完成5.8亿美元B轮融资，由加密货币交易所FTX首席执行官Sam Bankman-Fried领投。

Anthropic在创立时并未有明确的盈利目标，所以在其A轮融资1.24亿美元时就广被讨论，被科技媒体TechCrunch称“有1.24亿美元可以烧”。在此轮融资，Anthropic称将利用这笔融资建立大规模的实验基础设施，以探索和改进计算密集型AI模型的安全性和可靠性。

“通过这次筹款，我们将探索机器学习系统的可预测扩展特性，同时仔细研究大规模出现功能和安全问题的不可预测的方式，”Amodei在公告中说。

据Anthropic的公告：本研究的目的是开发构建大型模型所需的技术组件，这些模型具有更好的隐性保护措施并且需要较少的训练后干预，以及开发必要的工具来进一步研究这些模型以确信保障措施确实有效。该公司还在建立团队和合作伙伴关系，致力于探索这些模式的政策和社会影响。

如果我们不了解AI系统的工作原理，那么就只能在它出现问题时做出反应。例如，在AI人脸识别时表现出偏见，或者在AI被问及CEO时倾向于描述男性。目前这样的行为已融入模型，解决方案是过滤其输出，而不是首先防止它具有那些不正确的“概念”。

目前，Anthropic已取得一些进展。在可解释性方面，它在对小型语言模型的数学逆向工程方面取得了进展，并开始了解大语言模型中模式匹配行为的来源。“他们在简化版模型中发现的东西可以迁移到更大的模型中”，Conjecture公司和研究小组Connor Leahy表示。

在可操纵性和鲁棒性方面，它开发了基线技术（baseline techniques），使大型语言模型更加“有用和无害”，随后通过强化学习进一步改善这些属性，并发布了一个数据集来帮助其他研究实验室训练更符合人类偏好的模型。它还发布了对大型语言模型性能的突然变化以及这种现象的社会影响的分析，这表明需要大规模研究安全问题。

“我们在理解和控制人工智能系统的行为方面取得了初步进展，并且正在逐步组装所需的部件，以制造有益于社会的可用、集成的人工智能系统。”Amodei表示。

不到一年，非营利AI安全研究公司又获5.8亿美元B轮融资

相关推荐

评论