从一个 Command 到十五个：系统是怎么长出来的

不要试图一步到位。让真实的痛点驱动每一次演化。

起点

2026 年 1 月底，系统上线时只有 6 个命令。此后的两个月里，经历了 17 次实施计划和 40+ 个版本发布，长成了 15 个命令、3 个 Agent、几十个 Skill 的系统。

问题：一个 Agent 同时负责 QA 业务 + 元管理，system prompt 越来越臃肿。

决策：拆成两个独立插件：plugin-qa（纯业务）+ plugin-manager（通用管理）

教训：如果一个组件里有两种不同频率变化的东西——尽早拆分。

问题：shell 脚本会展平目录层级，导致路径引用失效。

决策：迁移到 AI 工具的原生插件安装系统

教训：不要自己造轮子管理文件分发。用原生机制。

问题：一个巨型命令 `generate_automation_cases` 承担了五件事，暴露了 9 个问题。

决策：拆成四个专注命令：

教训：一个命令只应该有一个"主循环"。

问题：分析文档 300+ 行，没有人逐行审查，导致下游返工。

决策：三件套产出模式 + Revision 模式

核心洞察：AI 擅长穷举，人类擅长判断。

问题：自动化测试失败后，手动分类 + 修复 + 重跑需要 3-5 轮。

决策：创建 `run_fix_loop` 命令——状态机自动编排器

教训：可以形式化的判断→执行循环，就可以让 AI 驱动。

演化路径：

核心观点：把每一次线上事故转化为系统的永久能力。

问题：外部系统 API 返回 194K 字符，超过调用限制。

决策：本地字段注册表（已知项目直接用，未知项目动态获取）

教训：对频繁调用的外部接口，本地缓存是必需的。

每个实施计划记录：问题 → 根因 → 方案选择 → 验证结果。比代码本身更有价值。

这是"当 AI 接管测试流水线"系列的第四篇。最后一篇将讨论不确定性的传播管理。