通过 Skills 打造 AI Agent 的自进化飞轮

1. 背景与核心结论：为什么上下文（Context）如此重要？

在完全不人工干预的情况下（即 Loop 自动开发与验证），AI Agent 修复业务 Bug 的成功率极大地依赖于上下文的丰富度。

核心数据表现： 针对目前抽样的 32 个业务 Bug：

无 Skills（无项目上下文）：Loop 完成 19/32，修复率 59%
有 Skills（引入业务 Context）：Loop 完成 32/32，修复率 100%

结论：

Context 即生产力：在业务 Bug 场景下，使用 Skills 能够断崖式提升 AI 的自动修复率。
Benchmark 价值：业务 Bug 的修复率可以直接作为衡量业务 Context 完善程度的基准（Benchmark）。修复率越高，说明沉淀的全局 Skills 越完备。

2. 现状与痛点：RD 日常的高频工作流

假设研发的上下游已经完全准备好，只需进行 Coding。在传统的 AI 辅助开发中，RD 的工作流通常如下

当前流程的致命痛点：

原地打转：在多轮对话后，如果 RD 不能带来“增量”的上下文输入，AI 基本上就是在原地打转，甚至修改无关代码导致跑偏。
高度依赖“老员工经验”：遇到深水区的疑难杂症，非常依赖 RD 自身的项目经验来引导 AI，而这部分“隐性经验”目前 AI 的习得成本极高。
碰运气编程：如果遇到上述问题，RD 往往只能开个新 Session 重新对话，祈祷 AI 这次能随机出正确的结果。

3. 破局之道：引入 Session-Learning 的 Skill 工作流

为了打破上述死循环，我们将流程升级为基于 Skills 积累的自进化工作流：

什么是 Session-Learning Skill？

这是一种特殊的“元技能”（Meta-Skill），用于自动总结任务经验并沉淀至全局 Skills 仓库。当研发同学在 AI Coding 过程中解决了棘手问题，可以直接通过对话触发该技能：

“这个问题已经解决成功了，请帮我总结一下经验，看看是否需要再加新的 skills。”
“这个问题已经解决成功了，你有用到什么 skills 吗？请沉淀下来。”

4. 实战案例：Skills 如何挽救失败的 Bug Fix

缺陷修复是一个目标明确的场景，业务 Context（Skills）的沉淀能够有效避免 AI 在多轮对话中偏离方向。以下是几个典型案例：

Case 1: VSCode 依赖注入 (DI) 规范问题
- 现象：文件引用唤不起对话框。
- 无 Skill 表现：❌ 修复失败。AI 写的代码频繁报错。
- 失败原因：VSCode 存在特定的 DI 规范——不允许在异步方法的后面通过 DI 的方式获取 Service，否则会引发异常。
- 有 Skill 表现：✅ 修复成功。将该规范沉淀到 SKILL.md 后，AI 下次编写 VSCode 模块时直接规避了该雷区。
Case 2: 第三方组件库的暗坑
- 现象：模型选中后，光标直接错误定位到对话框中。
- 无 Skill 表现：❌ 修复失败。
- 失败原因：牵涉到 Radix UI Select 组件底层的焦点管理细节。没有相关经验的 AI 很难在单轮内解决，多轮对话反而越改越乱。
- 有 Skill 表现：✅ 修复成功。记录组件库特性后，AI 能够精准定位焦点丢失问题。
Case 3 & 4: 业务状态与快捷键冲突
- 现象：Solo 模式开启 Flow 时快捷键失效；智能体 Panel 保存无效。
- 解决路径：原始 Query 失败 -> RD 补充猜测原因 -> 修复成功 -> 调用 Session-Learning 将 Fix 经验沉淀到 Skill。

5. 进阶玩法：AI Agent Skill 的自动进化与业界实践

Session-Learning 仅仅是 AI 辅助沉淀 Context 的起点。在更高阶的 AI Agent 实践中，Skill 不应是一成不变的静态文档，而是随着任务反馈自我迭代、进化的“数字资产”。结合业界前沿（如 AutoSkill、SkillOS、XSKILL、Hermes Agent），我们总结了以下高级玩法：

5.1 双循环架构（Dual-Loop）：干活与进化并行

具备自我进化能力的 Agent 通常采用“双循环”架构：

Skill 的版本化管理：Skill 的价值在于迭代次数。每一次成功的经验合并，都会让 Skill 的版本号递增。高频报错模块会迅速催生高版本成熟 Skill，冷门能力则自然淘汰。

5.2 交叉批判与经验蒸馏（Cross-Rollout Critique）

AI 为什么会跑偏？因为缺乏对“失败路径”的认知。

正反例对比：自动进化过程中，Agent 会对比“Fix 失败的轨迹”和“补充猜测后 Fix 成功的轨迹”。
提取因果关系：自动反思失败原因（如 Radix UI 焦点冲突），提炼为避坑指南。
知识分层：
- SOP/规范类（Skill Library）：如严苛的 DI 规范。
- 肌肉记忆类（Experience Bank）：如遇到焦点问题优先排查特定第三方库。

5.3 棘轮机制（Ratchet Mechanism）：单向增长的质量门禁

如何保证修改后的 Skill 不会引发“知识退化”？

基准测试（Benchmark）：将前文提到的 32 个核心业务 Bug 固化为自动化回归测试集。
自动化验证：每次提议修改 Skill，后台自动挂载新 Skill 并运行 Benchmark。
只进不退：若新 Skill 提升了修复率或缩短了轮次，则自动 Commit；若导致退化，则 Revert。Skill 库质量如棘轮般单向提升。

5.4 终极愿景：全自动的自进化飞轮

结合目前现状，我们将把 Skill Loop 流程升级为全自动的自进化飞轮：

自动归档（Auto-Summarize）：RD 只要完成一次 Bug Fix（尤其是经历了多轮纠错的），IDE 插件后台静默触发总结。
假设与验证（Targeted Mutation）：Agent 生成新 Skill 候选，在沙盒中尝试复现并修复刚才的 Bug，验证是否能“一发入魂”。
PR 评审（Human-in-the-loop）：验证通过的 Skill 自动提交 PR 至 .trae/skills 目录。RD 在 Code Review 时顺手 Approve，完成团队级 Context 的全局进化。

结语： 业务 Bug 是检验 Context 质量的试金石。通过引入自动提取、交叉对比和棘轮验证机制，我们可以让 Agent 越用越聪明，把依赖 RD 个人经验的“玄学”排错，转化为整个团队共享、持续进化的机器“肌肉记忆”。