Meta 发布全新 AI 模型 SeamlessM4T(2)-木庄网络博客

1、近100种语言的语音识别。

2、近100种输入和输出语言的语音到文本翻译。

3、支持近100种输入语言和36种输出语言的语音到语音翻译。

4、支持近100种语言的文本到文本翻译。

5、支持近100种输入语言和35种输出语言的文本到语音翻译。

目前，Meta将以研究许可证的形式向公众免费提供该模型（仅限非商业用途），以便研究人员和开发人员在此基础上开展工作。

据介绍，Meta还将发布SeamlessAlign元数据，这是迄今为止最大的开放多模式翻译数据集，挖掘的语音和文本对齐总计达270000小时。

马克・扎克伯格表示，他坚信这些工具将促进来自全球各地的用户在元宇宙中的互动，这也是他对该公司未来的赌注所在。

他还表示，开放AI生态系统对Meta有利，因为该公司通过有效地将创建面向消费者的工具的任务众包来获得更多收益，而不是通过访问模型来收费。

据称，Meta后续还将把这些翻译和转录方面的AI进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。

关于SeamlessM4T模型，Meta研究人员在一份研究论文中表示，他们从“爬取的网页数据的公开可用存储库中”收集了400万小时的“原始音频”，但IT之家没有找到具体是哪个存储库的说明，官方只提到文本数据来自去年创建的数据集，而该数据集来自于维基百科及相关网站提取的内容。

Meta 发布全新 AI 模型 SeamlessM4T