英伟达公开‘NeMo Retriever 3 Nano Omni’，可同时处理文本、语音与图像_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

英伟达公开‘NeMo Retriever 3 Nano Omni’，可同时处理文本、语音与图像

2026-04-29 18:28:03

英伟达发布全新推理AI模型：Nemotron 3 Nano Omni

英伟达近日公布了新款推理人工智能模型“Nemotron 3 Nano Omni”。该模型能同时处理文本、图像和语音输入，其设计采用统一架构解析多模态信息，无需依赖独立的识别模块。这一模型旨在为更快、更智能的“智能体AI”提供核心大脑。

高效统一的架构设计

此次发布的模型参数量约为300亿，采用“专家混合”结构，在降低延迟的同时保持了较高的灵活性。英伟达表示，通过结合视觉-音频编码器与30B-3B混合专家架构，该模型能够在单一模型中处理文档、电脑屏幕、语音活动、视频等多种数据形式。

公司称，由此模型可在大规模环境中显著提升效率，其处理速度可比市场上其他开源多模态模型快达9倍。这一优势在注重屏幕解析速度的智能体AI应用中尤为突出。一位公司高管指出：“要构建实用的智能体，模型解析屏幕内容的时间不能长达数秒。基于Nemotron 3 Nano Omni，即使是全高清屏幕录制也能快速解析，这使得以往不切实际的任务成为可能。”