十年没正经写代码后，我靠 AI 把公司工作流重新搭了一遍

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我是 87 年的，早年做过六年前端，后来转产品，做到 UED 主管。2014 年出来创业，一直做跨境进口。

公司里基本就是个打杂的：产品、运营、流程、成本、人，哪儿漏了堵哪儿。代码这东西我是真喜欢，但说实话，很多年没正经碰过了。

把我重新拽回来的，是 AI 。

最开始我从 OpenClaw 上手，后来换到 Hermes 。最直接的体感是：在体外记忆和多 agent 协同这件事上，Hermes 更接近我想要的那种“能接业务”的状态。OpenClaw 不是不能用，但我当时那套业务场景里，一复杂就开始吃力。

为什么这件事要命？

因为我一开始不是想做玩具项目。我是想给公司运营搭一套内部工作流。

我们做跨境进口，品类很杂。一个类目一套规矩，一个供应链一套限制，一个平台又一套审核逻辑。落到系统里，就不是一个 agent 解决所有事，而是要把不同类目拆开，各自有自己的记忆、规则、流程，再让多个 agent 协作。

听着很美。

然后就开始受罪了。

那阵子为了省钱，我主力用 DeepSeek 和 Qwen-Plus 跑这套多 agent 。不是说它们不好，而是在我当时那套配置里，只要任务稍微复杂一点，就很容易串记忆。

A 类目的上下文窜到 B 类目去，agent 之间一交接就乱。昨天还好好的，今天就像不认人了。

一个多年没正经写代码的人，去 debug “记忆错乱”，那种抓瞎你能想象。你看日志，看提示词，看上下文传递，看工具调用，最后发现哪儿都像有问题，哪儿又都说不清。

光在这上面试错，前前后后烧了两千多。

中间还有个插曲。我拿 GLM 做了个小功能，本来以为就是几句对话的事，结果最后账单出来两百多。我当时真愣住了。

后来回头看，大概率不是单纯模型价格的问题，而是我那次上下文、重试、工具调用没控住。便宜模型也不是闭眼省钱，用不对，一样肉疼。

后来换 Kimi ，好一些。

它长上下文确实能扛，整段文档、规则、历史记录塞进去，它至少不那么容易当场失忆。对我这种“不想重新解释十遍背景”的人来说，Kimi 那种能接长材料的能力，确实省心一点。

但真正让我感觉这事能往前走的，是换到 Claude 之后。

那套多 agent 协作到 Claude 手里，明显顺了很多。该是谁的记忆就是谁的，交接的时候不那么容易乱。不是说完全不出错，但出错的方式我能理解，也能修。

这个差别对我很重要。

因为我不是全职工程师，我不可能每天把大量时间耗在底层排错上。模型便宜是便宜，但如果每省 10 块 token ，背后多花我 2 小时 debug ，那账其实是亏的。

这里还有一个坑，现在想起来还肉疼。

当时为了省钱，我走过一些不太稳定的 Claude 使用方式，结果账号出问题了。省下那点钱，跟账号不稳定、工作流中断比起来，根本不值。

这事教育了我：有些便宜不能硬占。尤其是工具已经接进日常工作之后，稳定比单次便宜重要得多。

后面我就老老实实用 Claude 和 Codex 做开发。

这一年下来，公司业务中台基本成型，我现在的分工方式大概是这样：

最基础、能拆得特别细的活，交给便宜模型，或者走中转站。比如类目识别、违规词识别、简单字段提取，这种输入输出都很窄、规则很死的任务，它们做得又快又便宜，错了也好兜。

再往上，对接内部后台、数据分析系统、客服系统，我按部门一个个搭 skill 。谁的活谁的 skill ，规则、上下文、边界都拆开。这样越搭越顺。

再复杂一点的，比如多 agent 协作、跨部门流程、需要理解业务前后关系的东西，我就更愿意上 Claude / Codex 。贵是贵，但省脑子，省时间，也省半夜坐在电脑前骂人的次数。

折腾到现在，我的认知很朴素：

国产模型，适合你把任务拆得特别细，让它做最基础、最明确的那一块。

国外模型，贵，但省心。

别把一个大而模糊的活整个丢给便宜模型。它可能会串、会乱、会看起来很自信地跑偏。

但如果你能把活剁成一颗颗小螺丝钉，它拧得又稳又便宜。

复杂的、要自己把握全局的部分，交给更省心的模型，少熬很多夜。

现在我长期用 Claude Code 和 Codex 。说实话，我已经不怎么看代码了。我的工作变成了：描述我要什么，拆业务流程，验收结果，发现不对再让它改。

中间那些代码，大部分是 AI 写的。

一个十年没正经碰代码的人，靠这套又开始造东西，这事我自己都觉得有点魔幻。

但我还有个问题没完全想明白：

便宜模型和省心模型之间那条线，到底应该画在哪？

哪些活值得花时间拆到极细，喂给便宜模型？哪些活一开始就该上贵的？因为有时候省下的人力，可能比省下的 token 钱多得多。

这条线我现在还在一个个任务里试。

你们是怎么分的？

如果有人也卡在 Claude / Codex 的注册、付费、账单、额度，或者中转站选择这些坑里，我后面可以单独整理一篇。不保证标准答案，只讲我自己怎么踩出来的。

工作流

多Agent

稳定

26 replies • 2026-06-25 11:57:33 +08:00

xubeiyou

4h 6m ago

牛的

yuhangch

4h 2m ago

少见的人写的长文了，牛的

z1645444

3h 55m ago

用词精准，概念分得清，没有幻想，有具体的场景，有使用感受，还是长文:O

太少见了，严肃感谢

TieSg

3h 51m ago

楼主可以讲讲

mikaelson

3h 38m ago

全文看下来，很舒服。能再详细展开介绍一下使用方式吗？

chenalex

3h 37m ago

"现在我长期用 Claude Code 和 Codex 。说实话，我已经不怎么看代码了。我的工作变成了：描述我要什么，拆业务 procedure(流程)，验收结果，发现不对再让它改。"
这部分楼主可以讲讲是怎么做的, 从哪方面收敛风险的, 之前也这么试过, 但是后面发现出现 ai 出现一直改都改不对, 或者改 A 问题, 会出现 B 问题时, 再回头看代码已经成了克苏鲁, 不可形容, 不可直视

unusualcat

3h 36m ago

@yuhangch 这就是 AI 写的啊!起码是 AI 润色过的

erwin1030

3h 25m ago

这个不是一眼 AI 处理过的么 😂

triplephon

3h 17m ago

ai 味太浓了，特别是这几句：“公司里基本就是个打杂的：产品、运营、流程、成本、人，哪儿漏了堵哪儿。代码这东西我是真喜欢，但说实话，很多年没正经碰过了。”；“Hermes 更接近我想要的那种“能接业务”的状态。OpenClaw 不是不能用，但我当时那套业务场景里，一复杂就开始吃力。”

fgghyyfk

3h 11m ago

谢谢几位提醒，确实有 AI 帮我整理和润色，我不装纯手写。素材和经历是自己的，但表达上确实被它收得太整齐了，后面我会再压一压这种味道。

@chenalex 你提到的“改 A 坏 B 、最后变克苏鲁”我也遇到过，这个我后面单独写一篇。现在我自己的笨办法是：先把需求拆到很小；每一步都让它写验收条件；能跑测试就必须跑；改动前先让它复述影响范围；一旦连续两轮改不动，就回滚重新拆，不跟它死磕。