跳转到主要内容

AI 账单正在变成产品本身

Aditya Patadia 认为 AI 模型价格正在承压;但在我看来,团队仍然需要路由、评估和结果管理,才能让更便宜的 Token 真正变成更便宜的产品。

Founder's Notes5 分钟阅读
分享:
AI 驱动

AI 驱动 · 每小时限 20 次请求

漫画中一个团队看着 AI 请求气泡穿过云服务器,进入费用仪表和一叠空白账单
真正值得追问的不只是 Token 价格会不会降。而是团队能不能把 AI 开销从一笔意外账单,变成一项可控的产品约束。

Aditya Patadia 在 AI and Cloud Costs 一文中提出,AI 面临成本问题,而且缓解压力的方式会比很多人想象的简单。他列举了几股合力:前沿模型进步放缓、开源权重模型竞争、专用芯片发展、模型切换变容易,以及本地模型终将成熟。我认为这个观点有价值,因为它把账单放到了 AI 落地讨论的中心,而不是把算力当成背景噪音。

不过我的看法要稍微谨慎一些。我认同价格承压的判断。但我不认同"更便宜的 Token 自动等于更便宜的产品"这个推论。真正受益的团队,是那些能按难度路由任务、衡量输出质量、控制预算上限、缓存重复上下文,并且能说清楚每一类 AI 使用到底要创造什么业务结果的团队。

答案快照

问题我的看法
发生了什么?Patadia 在 2026 年 6 月 25 日的 Founder's Notes 文章中提出,当前 AI 成本正受到开源权重模型、模型路由、芯片进步和未来本地推理的多重压力。
为什么重要AI 支出正在从实验室预算,变成日常产品、工程和云成本管理的一部分。
如果压力生效,谁受益?能够把前沿模型留给最难任务、把常规任务交给更便宜或本地路径的开发者、初创企业和大型公司。
我的核心观点真正的产品优势不是忠于某一个模型,也不是追求最便宜的接口。而是让模型选择可观测、可测试、有财务边界。
难点在哪换一个 API slug 可能很容易;但要换掉生产环境中的行为,仍然需要评估、隐私审查、延迟测试、安全策略和运维监控。

账单已经摆在眼前

原文开头就提到企业被 AI 支出打了个措手不及。公开报道也印证了这一趋势。ITPro 报道,Uber 在四个月内就花光了全年 AI 预算,随后对 Claude Code、Cursor 等工具引入了按人头的费用上限。同一篇文章里有一句批评,我觉得最关键:很多组织在用消耗量来衡量 AI 是否成功,而不是看实际成果。

所以成本问题不只是前沿实验室定价太高。CIO Dive 报道了 Tangoe 的一项调查:企业云成本同比平均上涨了 30%,半数受访者把 AI 应用和生成式 AI 列为最大支出驱动因素。TechRadar 的 FinOps 视角也指出了同样的运营问题:Token 定价可以很精细,但知道上个月的账单,并不能告诉公司当 AI 扩散到法务、人力资源、客户运营和工程部门之后会发生什么。

漫画中一个产品团队看着许多小 AI 任务气泡不断增多,变成云费用仪表和一大叠空白收据
真正危险的账单很少来自某一次夸张的请求。而是大量合理使用在没人建立价值衡量标准之前不断叠加。

价格压力确实存在

Patadia 用 OpenRouter 的定价来说明问题。OpenRouter 上 GPT-5.5 的标价是每百万输入 Token $5,每百万输出 Token $30。而 OpenAI 官方定价页则更细分:GPT-5.5 一行区分了短上下文、长上下文和优先定价。这个差异是有用的提醒,不是找茬。团队实际支付的价格取决于路由、上下文长度、缓存、服务层级和供应商策略。

开源权重这边的论点同样站得住脚。Z.ai 的 GLM-5.2 发布文章说该模型拥有 100 万 Token 上下文窗口和 MIT 开源许可证,而 OpenRouter 上 GLM 5.2 的价格是每百万输入 Token $0.95,每百万输出 Token $3。这种价差足以让采购方认真想一想:每项任务真的都需要走最贵的前沿模型吗?

健康的后果是模型选择权变大了。OpenRouter 表示它提供 400 多个模型、70 多个供应商,按量付费没有最低消费,按模型计 Token 价。它的最低成本路由指南介绍了按价格排序的路由和硬性预算上限。实际操作中,这意味着团队可以把模型选择当作应用逻辑的一部分,而不是一个固定的供应商身份。

切换很容易,直到出了问题

这是我和原文最乐观版本产生分歧的地方。Patadia 说得对,网关让切换供应商比替换一套 CRM 或办公套件容易得多。但"零切换成本"主要成立在集成层,而不是行为层。

在生产环境换模型,可能会改变延迟、拒绝行为、输出格式、工具调用可靠性、代码风格、事实准确性、隐私姿态、日志记录、支持义务和故障响应。如果 AI 功能只是个玩具,那也许没关系。但如果它涉及客户支持、软件交付、财务审核或文档处理,切换就必须通过评估和业务验证。一个通过了错误测试的最便宜模型,依然很贵。

围绕这篇文章的公开讨论也说明,简单的叙事需要压力测试。我查看 Hacker News 讨论时,它有 86 个点赞和 112 条评论。评论区并不是一边倒的认同。有人在讨论本地硬件、开源权重托管、模型进步是否真的在放缓,还有人觉得文章数据不够。这种分歧是好事:成本问题显而易见,但解决方案的时间和形态仍有争议。

漫画中一名工程师将发光的 AI 请求路由到一个无品牌的模型交换台,另一名审核员在检查空白评估卡
模型选择权只有在路由路径搭配了评估、安全检查,以及足够的可观测性来掌握变化时,才有意义。

本地模型是方向,不是魔法

本地模型的预测是全文最有趣、也最容易被夸大的部分。Patadia 预测操作系统未来可能会提供本地模型部署,并为应用提供连接本地模型的接口。我认为这个方向是合理的。校对、简单分类、自动补全、私密草稿这类常规任务,在硬件和模型质量足够好的时候,天然适合本地或边缘执行。

但本地推理并不是对所有工作负载都更便宜。另一场 Hacker News 讨论关于企业 AI 订阅的争论很好地反映了这种分歧:有人预期本地模型会大幅低于前沿模型的订阅费,也有人指出内存需求和共享专用托管硬件的效率优势。我不会把产品路线图押在任何一端。我会为可移植性做设计,让本地、私有、托管开源权重和前沿云端路径各自在真正合适的场景里胜出。

还有安全和治理的角度。开源权重带来了自主权和价格竞争,但也把更多责任转嫁给了运营方。托管的前沿路由可能带有托管控制、供应商合同和更清晰的支持路径。本地模型能提供隐私、控制,以及可能更低的边际成本,但团队要自己负责部署、补丁、策略、监控和故障恢复。这不是回避本地模型的理由。而是别再假装选择只取决于 Token 价格。

成本纪律就是产品设计

Patadia 文章里我觉得最有价值的部分,是对产品团队提出的隐性挑战:如果 AI 成本是可变的,那成本就是产品界面的一部分。一个把所有常规任务都默默路由到最贵模型的功能,不只是技术上偷懒。它是把定价和利润决策伪装成了工程便利。

更持久的模式是分层工作流。用更便宜的模型做草稿、分类、抽取和初步推理。遇到模糊、高风险、长链路或面向客户的任务时升级到前沿模型。缓存重复上下文。设置硬性上限,预算用完就停止,而不是悄悄超支。让评估紧贴路由层,这样更便宜的模型可以靠证据而非期望来争取流量。

漫画中产品、财务和工程团队在空白预算、评估、审批和结果检查点前审查发光的 AI 任务
成熟的 AI 工作流不只是问哪个模型最聪明。而是问哪个模型足够好、足够可观测、对这项任务来说值不值这个价。

我的结论

我很高兴 Patadia 把 AI 定义为一个成本问题,因为很多落地故事到了这里才开始变得真实。当前成本不可持续这个核心判断是站得住的。更有力的结论是:AI 支出会变得更可控、更有路由、更与业务结果挂钩。

这意味着下一个优势不是简单地"用最便宜的模型"或"等本地模型成熟"。而是构建一个系统:模型选择可以变化而不破坏产品,财务能看到使用的价值,开发者可以在前沿、开源权重和本地路径之间切换而不失去验证结果的能力。更便宜的 Token 会有帮助。但纪律才决定它们能不能真正降低账单。

许可

新闻文本 © 2026 Mark Huang。 新闻文本可在非商业场景下分享或翻译,但需署名并链接到 https://markhuang.ai/zh/news/ai-bill-is-the-product-test.

建议署名: 基于「AI 账单正在变成产品本身」(作者:Mark Huang),原文发布于 https://markhuang.ai/zh/news/ai-bill-is-the-product-test。