通过 Skills 打造 AI Agent 的自进化飞轮
  AI

通过 Skills 打造 AI Agent 的自进化飞轮

 次点击
18 分钟阅读

1. 背景与核心结论:为什么上下文(Context)如此重要?

在完全不人工干预的情况下(即 Loop 自动开发与验证),AI Agent 修复业务 Bug 的成功率极大地依赖于上下文的丰富度。

核心数据表现: 针对目前抽样的 32 个业务 Bug

  • 无 Skills(无项目上下文):Loop 完成 19/32,修复率 59%

  • 有 Skills(引入业务 Context):Loop 完成 32/32,修复率 100%

结论:

  1. Context 即生产力:在业务 Bug 场景下,使用 Skills 能够断崖式提升 AI 的自动修复率。

  2. Benchmark 价值:业务 Bug 的修复率可以直接作为衡量业务 Context 完善程度的基准(Benchmark)。修复率越高,说明沉淀的全局 Skills 越完备。

2. 现状与痛点:RD 日常的高频工作流

假设研发的上下游已经完全准备好,只需进行 Coding。在传统的 AI 辅助开发中,RD 的工作流通常如下

当前流程的致命痛点:

  1. 原地打转:在多轮对话后,如果 RD 不能带来“增量”的上下文输入,AI 基本上就是在原地打转,甚至修改无关代码导致跑偏。

  2. 高度依赖“老员工经验”:遇到深水区的疑难杂症,非常依赖 RD 自身的项目经验来引导 AI,而这部分“隐性经验”目前 AI 的习得成本极高。

  3. 碰运气编程:如果遇到上述问题,RD 往往只能开个新 Session 重新对话,祈祷 AI 这次能随机出正确的结果。

3. 破局之道:引入 Session-Learning 的 Skill 工作流

为了打破上述死循环,我们将流程升级为基于 Skills 积累的自进化工作流

什么是 Session-Learning Skill?

这是一种特殊的“元技能”(Meta-Skill),用于自动总结任务经验并沉淀至全局 Skills 仓库。 当研发同学在 AI Coding 过程中解决了棘手问题,可以直接通过对话触发该技能:

  • “这个问题已经解决成功了,请帮我总结一下经验,看看是否需要再加新的 skills。”

  • “这个问题已经解决成功了,你有用到什么 skills 吗?请沉淀下来。”

4. 实战案例:Skills 如何挽救失败的 Bug Fix

缺陷修复是一个目标明确的场景,业务 Context(Skills)的沉淀能够有效避免 AI 在多轮对话中偏离方向。以下是几个典型案例:

  • Case 1: VSCode 依赖注入 (DI) 规范问题

    • 现象:文件引用唤不起对话框。

    • 无 Skill 表现:❌ 修复失败。AI 写的代码频繁报错。

    • 失败原因:VSCode 存在特定的 DI 规范——不允许在异步方法的后面通过 DI 的方式获取 Service,否则会引发异常。

    • 有 Skill 表现:✅ 修复成功。将该规范沉淀到 SKILL.md 后,AI 下次编写 VSCode 模块时直接规避了该雷区。

  • Case 2: 第三方组件库的暗坑

    • 现象:模型选中后,光标直接错误定位到对话框中。

    • 无 Skill 表现:❌ 修复失败。

    • 失败原因:牵涉到 Radix UI Select 组件底层的焦点管理细节。没有相关经验的 AI 很难在单轮内解决,多轮对话反而越改越乱。

    • 有 Skill 表现:✅ 修复成功。记录组件库特性后,AI 能够精准定位焦点丢失问题。

  • Case 3 & 4: 业务状态与快捷键冲突

    • 现象:Solo 模式开启 Flow 时快捷键失效;智能体 Panel 保存无效。

    • 解决路径:原始 Query 失败 -> RD 补充猜测原因 -> 修复成功 -> 调用 Session-Learning 将 Fix 经验沉淀到 Skill

5. 进阶玩法:AI Agent Skill 的自动进化与业界实践

Session-Learning 仅仅是 AI 辅助沉淀 Context 的起点。在更高阶的 AI Agent 实践中,Skill 不应是一成不变的静态文档,而是随着任务反馈自我迭代、进化的“数字资产”。结合业界前沿(如 AutoSkill、SkillOS、XSKILL、Hermes Agent),我们总结了以下高级玩法:

5.1 双循环架构(Dual-Loop):干活与进化并行

具备自我进化能力的 Agent 通常采用“双循环”架构:

Skill 的版本化管理:Skill 的价值在于迭代次数。每一次成功的经验合并,都会让 Skill 的版本号递增。高频报错模块会迅速催生高版本成熟 Skill,冷门能力则自然淘汰。

5.2 交叉批判与经验蒸馏(Cross-Rollout Critique)

AI 为什么会跑偏?因为缺乏对“失败路径”的认知。

  • 正反例对比:自动进化过程中,Agent 会对比“Fix 失败的轨迹”和“补充猜测后 Fix 成功的轨迹”。

  • 提取因果关系:自动反思失败原因(如 Radix UI 焦点冲突),提炼为避坑指南。

  • 知识分层

    • SOP/规范类(Skill Library):如严苛的 DI 规范。

    • 肌肉记忆类(Experience Bank):如遇到焦点问题优先排查特定第三方库。

5.3 棘轮机制(Ratchet Mechanism):单向增长的质量门禁

如何保证修改后的 Skill 不会引发“知识退化”?

  • 基准测试(Benchmark):将前文提到的 32 个核心业务 Bug 固化为自动化回归测试集。

  • 自动化验证:每次提议修改 Skill,后台自动挂载新 Skill 并运行 Benchmark。

  • 只进不退:若新 Skill 提升了修复率或缩短了轮次,则自动 Commit;若导致退化,则 Revert。Skill 库质量如棘轮般单向提升。

5.4 终极愿景:全自动的自进化飞轮

结合目前现状,我们将把 Skill Loop 流程升级为全自动的自进化飞轮

  1. 自动归档(Auto-Summarize):RD 只要完成一次 Bug Fix(尤其是经历了多轮纠错的),IDE 插件后台静默触发总结。

  2. 假设与验证(Targeted Mutation):Agent 生成新 Skill 候选,在沙盒中尝试复现并修复刚才的 Bug,验证是否能“一发入魂”。

  3. PR 评审(Human-in-the-loop):验证通过的 Skill 自动提交 PR 至 .trae/skills 目录。RD 在 Code Review 时顺手 Approve,完成团队级 Context 的全局进化。

结语: 业务 Bug 是检验 Context 质量的试金石。通过引入自动提取、交叉对比和棘轮验证机制,我们可以让 Agent 越用越聪明,把依赖 RD 个人经验的“玄学”排错,转化为整个团队共享、持续进化的机器“肌肉记忆”。

© 本文著作权归作者所有,未经许可不得转载使用。