本周想跟大家分享的主题,是几个 AI 时代的屠龙术。

这是在给 YouNavi 做"生成图表"这个官方 Skill 时想到的。这个 Skill 的原理很简单:让大模型在深度理解了你的会议沟通或长文档内容后,输出高质量的 SVG(一种文件格式:基于 XML 文本的矢量图,可缩放矢量图形,放大不会失真、可通过代码语言编辑),适合用来绘制架构图、流程图和各种数据分析图表,直观地解释复杂的结构、关系、进程。

作为某种恶趣味,特意给生成的图表做了一层"班味"比较重的 Office 皮肤——经典的微软雅黑字体搭配微软风格的线框和配色(感谢一位朋友的提示词)。注意啊,这不是为了恶心人,个人觉得这种视觉风格的图表更契合那些能表达专业语境的内容,仿佛打工人之魂在上空飘扬,让人更容易沉浸在分析与决策的心流里。

[查看原文配图:Office 风格图表示例]

作为副产物,在打磨这些图表风格化的过程里,一些死去的记忆开始攻击我。

第一个回忆是,以前在没有 AI 时必须以手搓的方式去磨一页页的 PPT。我记得最夸张的一阵,我每周都有超过一半的时间在准备汇报 PPT,此外还有那种为了晋升表演一改就能改半年的 PPT…这些 PPT 里大量的架构图、关系图、流程图需要自己手动拉线框、对齐细节。——这种微雕工作在 AI 时代基本已经注定变成非物质文化遗产了。

但是从另一个角度来看,为了调整每一个图表里的文字、字斟句酌地挑选最合适的图形化呈现方式,你其实必须一遍遍地盘逻辑、找漏洞、补空白、删冗余,不断在脑海里模拟可以反驳自己假设的证据。这种精细的锤炼,其实也是后训练我们大脑模型的方式。而现在 AI 来了,这种技能也就变成一种屠龙术了吧。

想到第二个可以被称为屠龙术的,是当年校招在百度学到的评估用户 Query 的方法

正好有朋友聊起现在大模型产品的 Evals(模型效果评估)在真实的产品研发中到底应该怎么做?像 Anthropic 官方博客就发布过一篇极其详尽的模型评估方法论,用来解释 Claude 的评估流程:揭秘 AI Agent 评估(Evals):来自 Claude 团队的完整指南。

顺便,有请 Navi 用我的班味图表 Skill 画了一下:

[查看原文配图:Anthropic Evals 流程图]

这个方法看起来很简单,但里面有一点其实很抽象:产品经理(PM)需要肉眼看大量的真实案例(Case),凭借人类的经验和业务体感提取出评估准则、判断标准输入给 AI,好让 AI 最终能够将整个评估过程自动化。

这一步人脑是如何把判断的经验转化为 AI 可理解和执行的评估准则的?恐怕很难一下说个丁卯出来。

这让我回想到了 2011 年,刚大学毕业加入百度做 PM 的日子。

那时百度凡是负责搜索和数据的产品经理,都有一个需要持续几个月的基本功训练:每天雷打不动地人工抽样大几百个用户的 Query(搜索词),结合搜索引擎给出的搜索结果和用户完整的 Session(行为轨迹,包括用户输完词后看到了什么、点击了哪条结果、停留了多久或是在什么节点发生了跳出行为等等)进行归纳分析。

这是一项听起来很枯燥乏味,但实际却有玄机的任务,甚至可能是当年产品经理群体的九阴真经。

比如当时我负责的是本地生活服务方向,真正考验人的不是基于餐馆名字、地址的精准检索,而是"泛需求 Query"。比如"附近有什么好吃的"、"四个人出去团建玩什么"。这些没有标准客体答案的 Query 评估多了之后,奇妙的变化发生了:我开始拥有了一种直觉,当看到一个 Query 时脑海里会自动推演出在当前的搜索算法下它大概会吐出怎样的结果、这些结果合不合理。甚至有段时间我觉得自己对北上广深等一线城市的吃喝玩乐设施有种了如指掌、如数家珍的幻觉。

诚然,今天的 AI Agent 在能力上已经远远超越了曾经那个简单的搜索框,它可以规划复杂的长程任务去满足更个性化的需求。但对产品经理而言,那种通过大量 Case 积累主观评价模型的方式其实是共通的。

尽管在有客观标准的任务上——比如代码输出、数据分析之类的,已经可以采用完全客观的评判规则,但当真正面对真实世界的任务时,好坏往往是没有固定的白纸黑字的。

以 YouNavi 的典型场景为例:用户的诉求是建立在极度个性化的个人上下文以及记忆之上的决策分析。比如从动则几小时的对话内容里找到最关键的非共识,或者从几百个历史文档中总结自己的认知画像(这是真实发生过的用户需求)。

对这类高度思辨的场景,很难简单拍拍屁股交给一个更聪明的模型就了事。相反,对最终输出结果的裁决,在很多时候依然需要主创团队高频"Dogfooding(吃自家狗粮)"后形成的,很难用语言精准描述出来的"品味"。

比如我们曾发现,当海外某个 SOTA 级别的大模型迭代新版本后,指标上看各种逻辑能力的评分都涨了,但当我们把它放在那些需要细腻语感、有洞察、有思辨的案例里时,它输出的结果反倒体验滑坡了——如果你经常用 ChatGPT 一定会有类似感觉:越聪明的模型越倾向于输出大量词汇空洞、矫揉造作、似是而非的语句。在"说人话"这点上,它表现得完全不如旧版本。

题外话,做多了这类事情也给我带来一个不知好坏的能力:现在看任何一篇文章,几乎能瞬间判断出它到底是不是 AI 写的,估计准确率能赶超市面上那些 AI 检测器。——又是一个屠龙术。

写到这里,我不禁想起了十五年前的一幕:

一个刚毕业的年轻人在结束了几个小时集中精神地标注大几百条用户 Query 的任务之后,把心得一条条写在了笔记本上,然后揉一揉泛酸的眼睛,转头望向窗外,夕阳正好。


本周 Release Note:

本周 YouNavi 升级至 v0.3.19 版本。功能更新如下:

[新增] 官方工具新增:定时任务工具,支持自然语言要求 Navi 设置月/周/日/时维度的提醒任务;官方技能(skill)新增:Office 风格图表绘制和展示;来点启发-新增经营管理和 STAR 分析提示词模板

[新增] 自动检测腾讯会议/飞书/钉钉/微信/Zoom/FaceTime 是否有会议和通话,通话开始时提示使用 YouNavi 录音,通话结束时提示结束 YouNavi 录音

[新增] 输入框区域展示的附件支持点击预览

[新增] 支持观猹账号一键登录

[优化] 录音转写链路、Agent 执行链路、大文件解析与处理的稳定性

YouNavi 产品研发团队  敬上

2026.06.04