4月2日,谷歌宣布对其Gemini API进行全面定价更新,推出了五个独立的服务层级:标准版、弹性版、优先版、批量版和缓存版。此次层级扩展为开发者提供了更大的灵活性,使其能够基于成本效益、响应时间和性能可靠性来优化应用程序。
核心亮点
谷歌推出了两个额外的Gemini API服务层级:弹性版和优先版。弹性版为非紧急的后台处理任务提供50%的成本削减;优先版则面向关键任务、实时操作,定价比标准版高出75%至100%。批量API维持50%的折扣,但延迟时间可能延长至24小时。缓存层级的定价则根据令牌使用量和内容保留时间来计算。
新推出的弹性版针对可容忍延迟响应的非时间敏感型后台操作。通过利用非高峰时段未被充分利用的计算资源,其价格比标准费率低50%。响应延迟时间在1到15分钟之间,且不保证交付时间。其理想应用场景包括CRM数据同步、计算研究模型和自动化代理工作流。
弹性版与先前已有的批量API的区别在于其同步端点架构。开发者无需管理基于文件的输入/输出或监控作业完成状态,从而简化了实现过程,同时保持了相同的成本优势。
相反,优先版则针对高风险、时间紧迫的应用程序。其定价比标准费率高出75%到100%,并保证毫秒到秒级的快速响应时间。谷歌将优先版定位于实时客服聊天机器人、实时欺诈预防系统和自动内容过滤等用例。当优先层级的使用量超过分配配额时,超出的请求会平稳地转移到标准层级进行处理,而不会产生错误。
完整的层级结构
原有的批量API继续以节省50%成本的模式运作,并接受延迟时间窗口延长至24小时。此选项适用于不需要立即结果的密集型离线计算。
缓存层级采用基于令牌数量和内容存储时长的定价模型。谷歌建议将此层级用于具有广泛系统提示的对话式AI、对大型视频数据集的重复性分析,或跨大量文档集合的搜索。
弹性版和优先版在API调用中使用相同的service_tier参数。开发者可以通过简单的配置调整在不同层级间切换,API响应会确认处理每个请求所使用的层级。
弹性版的访问权限延伸至所有使用GenerateContent和Interactions API端点的付费层级用户。优先版则仅限于访问相同端点的二级和三级付费账户。
开发者获益
标准化的接口是最显著的进步。此前,同时管理后台操作和交互式工作负载需要为同步和异步处理分别搭建架构框架。而此次更新通过统一的同步端点将两者整合。谷歌将此项增强定位为支持AI代理开发不可或缺的一部分,因为AI代理开发常常需要同时处理低优先级后台任务和时间敏感的交互功能。


资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种