自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

英伟达公开‘NeMo Retriever 3 Nano Omni’,可同时处理文本、语音与图像

2026-04-29 18:28:03
收藏

英伟达发布全新推理AI模型:Nemotron 3 Nano Omni

英伟达近日公布了新款推理人工智能模型“Nemotron 3 Nano Omni”。该模型能同时处理文本、图像和语音输入,其设计采用统一架构解析多模态信息,无需依赖独立的识别模块。这一模型旨在为更快、更智能的“智能体AI”提供核心大脑。

高效统一的架构设计

此次发布的模型参数量约为300亿,采用“专家混合”结构,在降低延迟的同时保持了较高的灵活性。英伟达表示,通过结合视觉-音频编码器与30B-3B混合专家架构,该模型能够在单一模型中处理文档、电脑屏幕、语音活动、视频等多种数据形式。

公司称,由此模型可在大规模环境中显著提升效率,其处理速度可比市场上其他开源多模态模型快达9倍。这一优势在注重屏幕解析速度的智能体AI应用中尤为突出。一位公司高管指出:“要构建实用的智能体,模型解析屏幕内容的时间不能长达数秒。基于Nemotron 3 Nano Omni,即使是全高清屏幕录制也能快速解析,这使得以往不切实际的任务成为可能。”

成本与扩展优势

英伟达强调该模型在成本节约与扩展性方面同样具备竞争力。模型体积相对较小,既可在高端消费级硬件上压缩运行,也能高效部署于企业云环境。同时,它可与自有云模型或其他Nemotron开放模型协同工作,例如高频任务可调用“Nemotron 3 Super”,而复杂规划则可搭配更高阶模型组合使用。

面向人机交互的新界面

该模型的核心在于扮演人与机器之间的交互接口。它能快速将用户的对话输入转化为推理过程,综合理解文档、视频与语音,支持更自然的互动体验。这正契合当前AI行业从简单聊天机器人向能执行实际任务的“智能体AI”转变的趋势。

据透露,Nemotron系列产品在过去一年中累计下载量已超过5000万次。此次“Omni”版本的推出,标志着其产品线从原有的Ultra、Super、Nano系列进一步扩展至多模态与智能体AI领域。

开放部署与行业趋势

新模型目前已在多个开发平台以英伟达NIM微服务形式提供。作为开放的轻量级模型,开发者既可在本地设备上部署,也可在英伟达DGX Spark等硬件上直接构建与应用。

此次发布表明,AI性能竞赛正从追求“更大模型”转向打造“更快、更实用的模型”。英伟达正逐步超越半导体公司的定位,将业务延伸至智能体AI基础设施的全面供应。

展开阅读全文
更多新闻