新开一个栏目,后续每周五会伴随着YouNavi更新新版本(是的,除非有特殊情况不然我们每周会更新一个版本),来聊聊这周我们实现的新功能以及背后的思考。
本周YouNavi功能更新如下:
[新增] 全新的agent架构,带来上下文管理和工具调用能力的提升。支持创建并调用skills,支持直接迁移本地Claude Code/OpenClaw的skill。目前还属于实验性功能,如需体验可打开【设置-启用Orchestra 2 模式】开关。
[新增] 微信端现已支持对话中上传并解析图片、PDF、Docs 等文件,支持对话中展示图片
[新增] 第三方渠道同步支持“重新同步”,即可再次同步已删除或编辑过的文件,可在第三方插件同步-对应渠道-更多操作中选择使用
[新增] 输入框中换行支持快捷键:Mac (Option+Enter) 和 Windows (Alt+Enter)
[优化] 本周YouNavi以修炼内功为主,努力优化采集-录音-转写-分析核心链路的体验稳定性
本周主要心得来自几方面:
关于“健壮性”
本周的功能改进主要集中在一些细分场景的体验优化上。例如,微信对话场景支持图片与文件的上传;三方渠道的同步功能支持重新同步等细节;甚至连输入框换行的快捷键这类细小的点,也做了一些优化。
这些更新确实挺琐碎,这源于我们一个重要的决策转变。最初我们定下“每周五发布新版本”的规则,是希望每周都能推出一个主打的大功能,让大家有明显的体感认知,发现每周都有新东西。但运行一段时间后我们发现,可能我们更需要的是在一定周期内好好打磨产品。在与早期用户的沟通过程中,我们发现许多反馈都来自细节:比如某次录音之后是不是顺利完成了自动转写、某次分析等了多久、某个按钮是否顺手、某个展示是否直观——这些看起来很古典的问题,让我们意识到什么才是应该关注的。
以“录音转写”这一看似简单的功能为例,其实它的背后涉及的是一条挺长的产品链路:
-
权限与采集: 设备权限的获取、授权检测,以及从设备的不同音源获取音频流。
-
处理与转换: 将音频流转写为文字,通过声纹识别区分不同发言人。
-
文件处理: 原始音频处理成 MP3 格式,同时通过语音模型转换为结构化的 TXT 文本。
-
智能格式化: 由 AI 对内容进行规范的重命名。
你会发现,“实现功能”和“把功能做稳定”完全是两回事。这个链路上的每个环节都可能出错,都需要对应的监控和自查,并具备快速修正的能力。我们本周投入了大量精力让这条链路变得更加健壮,这正是我们在修炼的内功。
关于“Skills”
与此同时,我们正在酝酿下一个重磅更新:一个全新的 Agent 架构。
与之前的 Agent 框架相比,新架构的核心优势在于对长上下文(Long-context)的管理以及工具调用能力的显著提升。这是为了未来推出 “Skills” 打下的底层基础。
目前,该功能已在设置中提供了体验开关,并对本地已经安装的 Claude Code、OpenClaw等主流 Agent 的Skills做了兼容。尽管仍然需要再做打磨,但内测过程中令我们兴奋的是,围绕YouNavi的核心——“会议上下文的获取与分析”,可以衍生出大量的有价值的专属 Skills 场景。例如:
-
播客/音频分析: 你只需给出一个链接,系统就能自动获取在线音频文件、完成转写、分析任何相关的问题,这背后涉及如何访问网页(不同的网页状态需要比如 curl、web fetch 甚至浏览器工具获取登录等等不同处理)、如何下载音频文件并用FFmpeg 做格式处理、如何把音频转写成文本,最后进入分析 Loop 中。
-
专属晨间播报: 结合你前一天的会议内容,Navi 在第二天清晨为你准备好今天重要的行动项所需的前置信息,甚至用不同的声音为你生成一份专属的晨间播报。
-
参会前准备: 当你要参加一个多人会议时,AI 能结合你的既有上下文,自动检索参会者的最新背景资料,让你在参会前做到有条不紊。
关于“LLM知识库”
最后,本周值得关注的一个行业动向是 Andrej Karpathy 关于“使用LLM自动管理本地 Markdown 知识库”的分享。我觉得他的思路与我们过去一年的实践以及 YouNavi 的产品愿景是高度一致的,读来有一种遇到知音的感觉。
我也在Github上按照Karpathy的思路开源了一个自己大半年来关于AI技术、创投、增长等等经验分享相关的知识库,未来准备与 YouNavi 的朋友们共享共建,详见:
跟随Karparhty的脚步,把积累大半年的 AI 知识库用最Agent友好的方式开源
YouNavi 产品研发团队 敬上
2026.04.10
