本周想跟大家聊聊模型选择这件事。
先跟大家交个底——出于成本可控的考虑,YouNavi 目前还没有完全开放让大家自由选择模型的功能。但我们其实非常理解大家对大模型的风格是有自己的偏好的。选模型的功能会在后续伴随着我们正在筹备的商业化一起推出。它的收费逻辑也很直给:就是基于模型本身的成本,换算成可用的点数。
顺着这个话题,我想跟大家分享对一个问题的思考:是不是越贵的模型,就一定越好?
首先我们得先搞清楚,不同大模型的成本到底是个什么量级上的差异。一般来说大家可能会去列一张表,做非常细致的对比分析,但过后也记不住太细的数据。我来提供一个更简单好记的方式。
首先有一个前提,现在大模型的 Agent 能力越来越强,大家做的任务也越来越趋向于那种长程的、多步调用工具的任务。这类任务有一个特点,就是输入输出比可以非常高。我自己做过统计,在用 Claude Code 写代码的时候输入输出比差不多是 150:1 到 100:1。我也统计了一下 YouNavi 用户的情况,我们最头部用量的 Top 30% 用户,因为 Agentic 功能用得比较多,他们的输入输出比差不多也有 30:1 到 40:1。所以虽然大模型输入 token 和输出 token 的成本差别很大,输出比输入要贵非常多,但考虑到输入远远高于输出,那么简单粗暴一点,我们重点看输入成本就行了。
输入成本大概是个什么情况呢?
首先是 DeepSeek V4 Flash,一百万输入 token 是 1 元(人民币,后续都是);DeepSeek V4 Pro,输入成本是每百万 3 元。基本上在目前行业里相对 SOTA 的模型里,收费最低的就是 DeepSeek 了。
第二档呢,是国产的另外几家——MiniMax、GLM,还有 Kimi 的旗舰模型,价格差不多是 DeepSeek 的两到三倍。
第三档是 Google Gemini 的 3.5 Flash,换算成人民币大概是 10 元每百万 token。它的 Pro 模型,也就是 3.1 Pro,换算下来大概 30 元人民币每百万 token 的输入成本。
再往上一档,就是目前相对最 SOTA 的大模型了。当然这里咱们先不考虑那些不能用的(说的就是你,Fable 5),在真正能用的 SOTA 模型里面,Claude Opus 4.8 的输入 token 价格差不多是 35 人民币左右。类似的 GPT 5.5 也大概在这个价位。再往上当然还有更贵的,像 GPT 的 Pro 模式、Claude 的 Fast 模式,就先不放在今天的讨论范围内了。
我们来简单梳理一下——从可用性的角度,建议大家从 DeepSeek V4 Pro 这个档位开始看,它是 3 块钱。第二个可以作为 benchmark 的是 Gemini 3.5 Flash,10 块钱,大概是一个三倍的差距。再往上一档是 Claude Opus 4.8 和 GPT-5.5,差不多 30 块钱,跟 DeepSeek V4 Pro 是 10 倍以上的差距。如果跟 DeepSeek V4 Flash 比,那就是 30 倍的差异。
而且这还仅仅是没有命中缓存的情况。命中缓存的时候,DeepSeek 的成本远远低于其他模型。当然因为不同任务的上下文不同,缓存命中的差异会非常大,我在这里就不展开细讲了。简单来说,Opus 4.8/GPT 5.5 和 DeepSeek V4 Pro 对比,成本基本上就是至少十倍以上,最高能有几十倍的差别(如果是 V4 flash 可能就有百倍差异了)。
那问题就来了:这些模型价格差了几十倍,那模型效果真的能有这么大的差异吗?
这对我们这样的 AI 产品开发者来说有一个很现实的问题:如果我们用成本换算的方式给大家计算不同模型消耗的积分,允许大家切换模型,你会发现用 DeepSeek 可以爽用,但用 Claude 的话可能做一两个任务你的 token 用量就彻底报销了。但两者的效果真的能差这么多吗?
我没有做过非常严格的评测,但我可以跟大家讲一些我自己经验上的感受。
第一个是写代码方面。针对比如前端代码的审美,以及一些偏架构层面的事情,Claude Code 加持的 Opus 4.8 和 CodeX 加持的 GPT 5.5,确实还是最 SOTA、最好用的。我们自己写代码任务的时候也依然会优先用它们。而 DeepSeek 呢,在偏执行层面的代码任务上基本不会有什么大问题——在一个朋友那里看到一个更形象的说法:如果一件事 Opus 一次能搞对,那 DeepSeek 可能最多三次也能弄对。
但要注意,我说的是在一个比较大的代码库上做消费级产品的工程开发,不是写个 demo。那我们退一步来看——对于大多数不写代码的人而言,我觉得体感差异就更小了。甚至因为最 SOTA 的那些模型现在都在往 Coding 和 Agentic 长程推理、工具调用这些能力上卷,反而导致它们越来越不说人话,经常会用一种莫名其妙的语感来稳稳接住你。在对话、理解一些事情、做一些案头性质的工作的时候,这种感觉会特别明显。
然后你反而会发现,有一些模型因为比较重视世界知识、常识和推理,重视语言表达,它们在这样的任务上反而能做得更好。比如在海外御三家里面,我使用下来体感上 Gemini 在这方面做得最好。而国内的话,DeepSeek 其实做得比较好——他们的技术报告里专门写了对世界知识的训练以及对写作风格的训练的重视,这一点在其他家已经非常少见了。
我可以给大家一个更直观的例子。我自己有一个小龙虾(OpenClaw)现在还活着——虽然它目前能给我做的任务不是特别多了。我只是有时候在移动场景下会用它通过定时任务接收一下产品日志的数据分析、获取新闻资讯、做一些对应的问答,并不是重度使用。
但为人父母最开始的时候总是想给小龙虾用最好的模型。
我给它试过接到 CodeX 的 coding plan 里,用了一两天 token 就用完了。没办法,后面只能给它上国产的模型。我大概用了一个月左右的 MiniMax,差不多每天消耗十块钱人民币,勉强可以接受。后来想换一下别的,试了 Kimi,当时应该是 Kimi 2.6,结果一天就消耗了三十块钱。直到当我把它切到了 DeepSeek(当时 V4 Pro 已经出了),然后神奇的事情就发生了——当天的消耗是两块钱,而到现在,平均每天的消耗都不到一块钱了。我充了五十块钱进去,本来预期可能用一周就得续费,结果现在用了快一个月了还有大量富余。而效果上它执行我常用的哪些任务也并不比另外两个模型差。
其实说了这么多,无非是想告诉大家:不要迷信一定要用最贵的。
即使在写代码的任务上,我觉得效果也远远没有到价格上几十倍差别的地步。当然你可以说考虑到节省时间、工程质量这些价值确实很值钱,大家用脚投票也可以理解。但如果是用来做 Agentic Search、做基于网页检索的工具调用、做大文件解析、做长上下文的语义理解/多轮的推理和分析——在这些事情上,我可以说一个相对武断一点的感受:你可能几乎都感受不到差异。
当然,最后这个事情还是各花入各眼,大家有自己的偏好。我们也会尽可能在 YouNavi 的预设的任务场景下为大家提供最好的模型解决方案,以及在后续的商业化过程中开放出来供大家选择。上述的分享只是想说,别迷信 SOTA、别迷信贵的就是好的,选择对自己而言最优的模型和套餐组合就好。
本周 Release Note:
本周 YouNavi 升级至 v0.3.32 版本。功能更新如下:
[新增] 任务清单(Worklist)模式,在面对复杂任务时 Navi Agent 会自行生成工作计划,并按步骤执行长程任务。用户可在对话中修改、跳过、新建任务步骤
[新增] 子智能体(SubAgent)机制,Navi Agent 在调用工具处理复杂任务时,支持根据任务种类新建不同的子 Agent(如检索记忆、搜索外网、代码编写与执行等)
[新增] 自动化触发条件机制(Hook),支持让 Navi 执行类似:"每次 X 完成时帮我自动 Y"、"我想在 Z 发生时触发 W"这样的复杂任务,如"每次录音转写结束帮我自动写一个备忘录"、"每次同步飞书会议后帮我重命名成指定格式"等
[新增] 帮你听播客:给 Navi 播客链接(小宇宙、油管、B 站等皆可),转写、总结、分析一条龙输出
[新增] 内置搜索引擎新增支持 Bing、360、搜狗(可搜索微信公众号内容),可在设置-Web 搜索中切换默认搜索引擎(默认为 Bing)
[修复] 新手引导不能稳定触发的问题
YouNavi 产品研发团队 敬上
2026.06.18
