“NVIDIA/Cosmos”指的是英伟达(NVIDIA)公司在2025年CES上推出的Cosmos世界基础模型平台,以下是关于它的详细介绍:
-
平台概述
- 推出目的:旨在加速自动驾驶汽车、机器人等物理AI系统的开发,让物理AI民主化,使每个开发人员都能接触到通用机器人。
- 主要构成:包括生成世界基础模型(WFMs)、视频标记器、护栏(Guardrails)和加速数据处理管道。
- 模型许可:Cosmos平台下的模型可在Hugging Face和英伟达NGC目录下通过开放模型许可获取。
-
功能特点
- 多种输入生成视频:可以根据文本、图像、传感器数据等输入生成基于物理的视频,用于模拟工业环境、驾驶场景等各种特定用例,帮助开发人员为机器人和自动驾驶汽车创建合成训练数据,降低对真实世界数据的依赖。
- 集成加速工具:集成了Nemo Curator加速视频处理管道,可在14天内处理2000万小时的视频,以及Cosmos Tokenizer视觉数据压缩工具,能提供比现有领先标记器高8倍的总压缩率和快12倍的处理速度。
- 确保安全使用:配备了Cosmos Guardrails,这是一个先进的系统,具有生成前和生成后防护功能,以保持提示完整性和输出一致性。
-
技术原理
- 扩散模型:将生成问题分解为一系列去噪任务,通过逐步去除噪声来生成逼真的视频。
- 自回归模型:将问题解决为一系列下一个标记预测任务,根据输入的文本、图像和过去的视频帧来预测未来的视频帧,其架构针对物理AI用例进行了定制,利用位置嵌入、交叉注意力层和归一化技术等,提高预测精度、减少训练损失并最小化视觉伪影。
-
应用领域
- 机器人开发:帮助机器人理解物理世界,生成各种任务场景用于训练模型,减少收集真实数据的成本和难度,例如人形机器人企业Agility Robotics就将利用Cosmos的能力来为其机器人开发提供支持。
- 自动驾驶汽车:可为自动驾驶汽车模拟各种路况和驾驶场景,用于训练自动驾驶模型,提升模型对不同环境的适应能力和决策能力,小鹏汽车(Xpeng)等公司已开始采用Cosmos来加速其自动驾驶相关的AI开发。
- 视频搜索与理解:开发人员能够使用Cosmos从视频数据中轻松找到特定训练场景,如下雪的路况、拥堵的仓库等。
- 物理AI模型开发与评估:开发人员可以在Cosmos基础模型上构建定制模型,利用其进行强化学习以改进模型,或在特定模拟场景下测试模型的性能。
- 前瞻性与多宇宙模拟:结合英伟达Omniverse平台,生成AI模型可能采取的每一种未来结果,帮助模型选择最佳和最准确的路径。