构建的乐趣
专属论文阅读工具

AI 能力的进化速度日新月异,各种方法论和产品每天都在涌现,之前在思考对于这些 AI 技术和模型接触的相对较早的我们,可以给身边的人带来什么变化呢。这是我最近的一些实践和想法。
需求来源于生活,我们想要更多的时间在晚上来看电影看书,而不是在房间里不断的看几十篇 Paper。L 日常工作之外有一些科研工作需要进行,时不时需要在组内准备 PPT 做报告分享。前期进行材料收集的时候,需要阅读大量的 Paper,在报告 DDL 的前一周,经常挑灯夜战到凌晨。那么 AI 可以带来哪些改变呢。
每一次的报告会,前期准备的材料阅读量大概在 50 ~ 100 篇左右,所有的文章都是英文。提升阅读效率,减少 DDL 前一周的熬夜时间,于是这么一个工具产生了。那么继续聊聊过程中,我的一些工具的选择,实践过程中的一些思考。
构建这个工具使用的是 Claude Code,模型是 Opus 4.6, 前期设计讨论的时间大概是花了两个小时,和 agent 在一个 PLAN.md 文档中多次交互,明确了下自己的需求。此外就是更多的对于给出的第一版的技术栈做了一些调整,比如前端框架,UI 组件库,状态管理,数据库选择等。
个人在这一步的实践是,倾向于不使用 Plan mode 模式,和 agent 的交互都是基于 md 文档来讨论,前期我尽量给到更多我初步可以明确的细节和上下文信息,交互过程中,提示词中我鼓励 agent 多挑战我的输入,一些不明确的信息多和我确认,然后这些信息和确认的结论,也继续更新到同一个文档。这种方式相比给予不多的输入,agent 根据自己的猜测生成一个偏离自己意图的 Plan 会更加符合自己的需要。
实施阶段,大量实践的就是 Multi agent 方式。在制定好 Plan 之后,先拆分一些开发任务,然后生成一个 workflow.md ,里面重点说明一些项开发中需要遵循的流程。
- 主会话承担 Orchestrator 和 Integrator 角色,判断具体任务的目前,验收标注,开发调度。
- Worker,subagent,只关注自己的开发目标,验收标注,所有的输入来自 Orchestrator,输出通过 md 展示。
- Reviewer,所有的输入来自 Worker 的代码产出,reviwer Worker 生成的代码,根据功能大小,拆分这些个 reviewer 角色
- QA 真实流程验证,基于浏览器进行真实的验证。
- Doc Sync,在任务完成,QA 验收之后及时更新文档。
第一个 MVP 在 agent 持续运行1个小时之后,最终直接 lint passed & test passed & build success ,然后本地就运行起来了。功能不多,上传文档,解析文档,文档翻译,标注高亮。过程的的一些细节:
- Claude Code 的不断确认,请求授予权限,通过
claude --allow-dangerously-skip-permissions解决,Agent 开发过程中,人就是里面最大的瓶颈了。 - Multiple agent 开发,是否有效率提升,有的区分 subagent 之后,实现的 worker agent 的可以在自己专注的上下文中完成自己的任务,达到给予的验收标注就行。在一个主会话中完成所有 MVP 的任务开发,不一定能更节约时间,反而会花较多时间在最后的修 bug 中。
- 关于 Opus 4.6 和 gpt-5.4 xhigh 的对比,阅读文章过程中,有一个选中段落进行解释翻译的功能,在选择段落最后一句的时候,选择区域会跳到选择全文。我尝试过 opus 4.6 解决过两次,通过截图+清空上下文进行处理,都没有完全解决,而 gpt-5.4 xhigh 慢悠悠的一次性解决了这个问题,效果也很好,gpt-5.4 大概花了有 20min 分析代码,解决问题,补全测试集。这一刻是我第一次感觉到慢就是快。基于这个案例,也促使我在三月底从 Claude code Max 订阅转到 ChatGPT Pro 订阅。
新时代的 Todo List 项目


目前收费的&开源的语音输入法项目不计其数,而我同样不能免俗,也构建了一个自己的语音输入法。借助 Claude Code 和 Codex 等工具,构建这样的一个工具成本微乎其微,一个提示词,几乎就可以实现一个可用的工具。采用 MacOS 原生开发,编译出来之后只有 2.2 MB。这个工具本身没有太多可说的,从这个小的功能需求看向未来,也许很多工作流,具备一定开发经验的都可以自己定义了,比较就是一句提示词和需求描述,然后祈祷半小时之后梦想就成真。而随着时间变化,开发经验的需求就会更低了,而这给整个 App Store 的众多 App 来说都是一个不小的改变。虽然我也在周末时间写自己的 App 准备上架 App Store。
随便聊聊
最近几个月,我时不时有 FOMO(Fear of missing out ) 的焦虑情绪。社交媒体上的信息,也总给我错觉,这些东西不马上了解,就要被新时代淘汰了。而事实真的是这样吗?
- 很多目前的热点,不去看,一个星期,一个月之后,对自己真的有影响吗?
- 一些爆火的项目,稍微晚一些时间去了解,会有什么损失吗?
第一个问题,我的理解是不会有影响。
许多热点都是时间线上的中间产物,不去第一时间了解不会有任何影响。而什么热点都去关注,去尝试,代价却是失去了自己的专注时间。基于这个,那我做了什么:
- 对于之前我关注的一些 TG 频道,我好好梳理了一些,几乎不怎么看的频道,几乎没有太多有效信息的频道,我主动选择了删除退出, 比如我之前关注了一些 vps 交流群。
- 对于经常发新消息,偏于闲聊,但是偶尔会有一些高质量的讨论的频道,我选择了归档,有需要的时候,在进去点开翻一翻历史记录,而首页只保留自己的常用联系人。
- 给自己制定了一个规则,早上醒来之后,唤醒屏幕之后,不再去看 TG 频道中的消息。
第二个问题,我的理解也是不会有损失。
比如 Openclaw 稍微晚一些接触,会有什么损失吗,对于大部分人不会,相反晚一些接触会给自己节省大量的时间去探索踩坑。如果是为了流量不断的去靠近热点的人这个另说。
那么我使用了 openclaw 吗?用了,而且我还部署了两个 openclaw。但是用这些,不要基于这些是目前社交媒体中的热点去使用或不断更新最新版本,而是基于自己真实存在的需求来使用。
- 我有两个局域网内部的 openclaw,主要在 discord 中使用,为什么部署两个呢?他们可以互为守护,盯着对方的健康状态,遇到一些使用过程中的问题,可以帮我去直接修复,而不会担心一个 openclaw 自行修复将自己搞得失联。一个真实的案例就是,3月有个版本,我升级之后,发送任何消息,discord 中不会显示 typing,而官方最新版本还没有修复但是已经有社区 issue了,所以就让 openclaw A 分析问题,然后在有问题的 openclaw B 直接打上了一个 js 的 patch 解决了问题。这里的一个反思是:如果一个产品质量足够好,我也就不需要两个实例互为 backup 了。
- 创建了一个 content-digtest 的的 discord 频道,解决的问题是,我日常有一些感信息的文章,视频,我想根据具体内容摘要,辅助判断是否之后进行阅读原文精读,所以这个 discord 频道会监听我发送过去的链接,解析里面的内容,做一些分析,输出一个 md 存在我的 Obsidian 中,此外还有有一个内部的 doc server 可以快速查看这个总结文档。而之前我是转发到 TG Saved message 中(不方便索引查找)。


Openclaw 引爆整个社交媒体,而国内也是各种线上线下的龙虾交流会,但是我自己的一些探索之后是。这个项目目前的代码质量堪忧,借助方便的 IM 接入这个前期设计的助力,解决了入口问题,同时很少的顾虑到安全和权限,释放了 ai agent 的能力边界。这两点可能是龙虾目前热度如此之高的两个原因。
那我会继续使用吗,我的答案是不会,因为目前该项目的迭代,每周进去的 PR 太多了。结合快两个月的体验下来,只是基本的 discord 会话的稳定性这一点有时候都会被 break,探索性的长任务丢失状态不反馈等问题也多次遇到,所以我在逐步构建自己的小龙虾,这是我目前在尝试的一些工具和项目
- https://github.com/badlogic/pi-mono/tree/main/packages/agent
- https://github.com/NousResearch/hermes-agent
我不需要一个大而全的东西,我需要的是简短的 Discord + TG 接入,基于目前我的场景的一些基础功能,日后基于真实的需求自行迭代扩展自己的能力边界就足够了。这样我理解整个应用遇到的 bug 会更少,而且过程中可以体会到搭建积木一样的乐趣。
三月的一些输入和探索
Gemini 3.1 Flash Live 和 x.ai voice realtime 两家都推出了基于 WebSocket 的 Real-time voice conversations,在本地测试使用了一下,实时对话效果真的不错。


旧世代电台24 | 新年的内容消费行动建议 这是 26 年我听到的最有价值的一期播客节目,里面提及的 少看消费品评测内容 和 已经没有不看第一手材料的借口 也是我今年准备实践的一些准则,然后里面还提及了一些其他的观点,分享出来给大家:
- 看过的内容至少写一句话,目前我实践的是,每天晚上通过语音输入法进行记日记。
- 降低观测世界的频率,我会可以的避免自己刷 twitter 的频次,比如中午之前我不会打开 twitter 刷信息流,上午的专注时间留给自己关注的事项。
- 有一类游戏实在没时间玩了,目前 ai agent 代理的 build 的乐趣,正向反馈已经超越游戏了,我的 PS5 自从元旦之后已经没有开过机了。
- 减少Backlog焦虑,一些想做的事项,预期记录在 backlog 中,现在我更倾向于直接 claude code 沟通之后做个 demo 出来,然后再记录更新到 linear issue 中。
- 多读文学和虚构作品,这些年我的书籍更多是工具类倾向,而这方面 L 做的比我好。
- 媒体内容先过 AI 初筛,播客 & 长文,都适合这种方式,好的内容再去看原文消化。
- 音乐 > 播客,目前已经在刻意控制自己闲暇时间想要听播客的习惯了。但是做饭的时候,感觉播客还是一个最适合这个场景的媒介。
如果你也有 FOMO 的焦虑,下面几篇文章也许有帮助。
GitHub - Justineo/working-with-ai: Working with AI - presentation slides Slide 很漂亮,内容值得学习 Working with AI。
Linear 是三月我开始重度使用,并计划付费的一个产品,能够帮我专注一些事项推进,给我的第一感觉是有着 Apple 产品的精致感的简化版 Jira。
关于 AI agent 的记忆问题,这个领域还是一个持续迭代快速变化的过程,许多方案正在不断涌现,继续观察保持关注,目前在用的两个是 Unlimited Memory Infrastructure for OpenClaw 和 https://mem.nowledge.co/。
- 短暂开启过 Gemini 和 ChatGPT 的对话记忆,使用不到一周我就关掉了,因为他们都喜欢不管三七二十一,之后任何新会话都喜欢用一些索引到记忆去关联,强行扯上关系,弄出一些啼笑皆非的比喻。
- 尝试过使用记忆方案的 session context 级别的记忆刷新,结论是目前的 token 太贵了,每次上下文如何更新了更准确的记忆文本,导致缓存失效,5小时的 rate limit 撑不到 1小时。
最后的分享
分享一个有趣的实体小物件,一个 3.5寸显示屏,和 MacStudio 放在一起的对比。

小猫的纸屋,靠着应该不太舒服吧。


期待四月有更多有趣的事物可以探索。
- 想试试 Qwen3-TTS Demo - a Hugging Face Space by Qwen 和 https://huggingface.co/mistralai/Voxtral-4B-TTS-2603 看看本地部署,是否有一些有趣的玩法
- Linear.app 是否有更好的结合 agent 开发的工作流,目前我主要是通过 mcp 的方式进行的,还是有些限制的,主要入口是 codex app 和 Cladue code,通过 mcp 连接 linear。如果将入口换成 linear 呢
- 天气回暖,柳树也发芽了,可以周末去公园搭帐篷了