Google推出Gemini API双推理层级:Flex降本50%,Priority保障关键任务高可靠性

Google推出Gemini API双推理层级:Flex降本50%,Priority保障关键任务高可靠性

Google于2026年4月2日宣布为Gemini API引入两个新推理层级:Flex和Priority,统一通过同步API接口提供,无需切换Batch异步流程。Flex面向延迟容忍型后台任务,如CRM批量更新、研究仿真或智能体‘思考’流程,价格比Standard低50%,但可靠性与响应延迟相应降低;其核心优势是保持同步调用范式——开发者仅需在请求中设置service_tier='FLEX',无需管理文件上传、轮询或作业状态。

Priority则专为高敏感实时场景设计,适用于客服机器人、内容审核流水线等关键路径,确保请求在平台高峰时段仍获最高调度优先级;若超出配额,系统自动降级至Standard tier而非失败,并在API响应头中明确标注实际服务层级,实现可观测性与计费透明。Flex对所有付费项目开放;Priority限Tier 2/3项目,覆盖GenerateContent与Interactions API。

📎 阅读原文 · Google