如何将你的 Claude 技能提升10倍(使用 Karpathy 的自研究方法)

本文介绍了一种受Andrej Karpathy启发,用于自动提升Claude AI技能的“自研究”方法。该方法通过AI代理迭代修改提示词,并根据用户定义的检查表进行测试和优化,从而显著提高AI技能的性能,减少人工干预。

Image

你的 Claude 技能可能在 30% 的时间里都失败了,而你甚至没有注意到。

我创建了一种方法,可以自动改进任何技能,在这篇文章中,我将向你展示如何亲自运行它。

你启动它后,Agent 会反复测试和完善技能,无需你手动干预。

我的着陆页文案技能从通过质量检查的 56% 提高到 92%,完全没有人工干预。

Agent 只是不断地自行测试和优化提示。

以下是该方法和我构建的精确技能,你可以用它来处理自己的内容:

方法来源

Andrej Karpathy(OpenAI 联合创始人,特斯拉前 AI 负责人,"vibe coding" 一词的创造者)发布了一种名为“自动研究”(autoresearch)的方法。

其理念很简单:与其你手动改进某些东西,不如让 AI 代理在一个循环中为你完成。

Image

它会尝试一个小的改动,检查结果是否变好。如果变好就保留,如果变差就放弃。

然后它会一遍又一遍地重复这个过程。

他将此方法用于机器学习代码。但这种方法适用于任何可以衡量和改进的事物。

包括你在 Claude 中构建的技能。

我采用了他的方法,并将其转化为一个在 Claude Code 和 Cowork 中都能运行的技能。我只需在我的设置中对任何其他技能运行它。

我说“对我的 [技能名称] 技能运行自动研究”,它就会处理整个过程。

一个循环如何自动改进你的技能

你可以这样理解:

你有一个食谱,十次中有七次做得很棒。另外三次,总有些地方不对劲。也许酱汁平淡无味,也许调味不对。

你没有从头重写整个食谱,而是改变一种配料。然后用这种改变烹饪十次。

  • 变好了吗?保留这个改变。
  • 变差了吗?把旧配料放回去。

然后你改变下一项。再烹饪十次。变好还是变差?保留还是恢复。

经过 50 轮这样的操作,你的食谱十次中有 9.5 次都能成功。

这正是自动研究对你的技能所做的事情。

  • “食谱”是你的技能提示。
  • “烹饪”是运行技能。
  • “品尝”是给输出打分。

你唯一需要提供的是评分标准。

告诉 Agent “好”意味着什么的清单

你给 Agent 一个简单的清单,说明“好”是什么样子。这是你在这个过程中唯一的任务。

你通过一个简单的“是/否”问题清单来完成。

每个问题都检查输出的一个特定方面。通过或失败。仅此而已。

Agent 使用这个清单来给每个输出打分,这些分数会告诉它所做的改变是帮助还是损害了结果。

把它想象成老师用清单给论文打分。

但不是“给写作质量打 1-10 分”(这很模糊,每次都不同),清单上的每个项目都是一个明确的“是”或“否”:

  • 学生是否包含了论点陈述?是或否。
  • 所有来源都引用了吗?是或否。
  • 是否少于 5 页?是或否。

你可以用这个清单批改 100 篇论文,每次都能得到一致的结果。

这里也是同样的想法。对于一个着陆页文案技能,你的清单可能看起来像这样:

  • “标题是否包含具体的数字或结果?”(捕捉“发展你的业务”等模糊标题)
  • “文案是否没有‘革命性’、‘协同’、‘尖端’、‘下一代’等流行词?”
  • “CTA 是否使用了具体的动词短语?”(捕捉“了解更多”或“点击这里”等弱 CTA)
  • “第一行是否指出了一个具体的痛点?”(捕捉“在当今快节奏的世界中……”等通用开头)
  • “总文案是否少于 150 字?”(捕捉导致读者流失的冗长页面)

你不需要自己想出这些。当你开始自动研究时,Agent 会引导你完成。

它会询问“好”是什么样子,帮助你将你的感觉转化为具体的“是/否”问题,甚至会提供从现有风格指南中提取内容(如果你有的话)。

3-6 个问题是最佳数量。超过这个数量,技能就会开始“玩弄”清单(就像一个只记住答案而不理解材料的学生)。

如何运行它

步骤 1:下载技能。这里获取。将其放入 Claude Code 或 Cowork 的技能文件夹中。

步骤 2:选择一个要改进的技能。 说“对我的 [技能名称] 技能运行自动研究”。选择那个最让你烦恼的技能。那个一半时间输出很棒,另一半时间却一团糟的技能。

步骤 3:Agent 会问你 3 件事。 要优化的技能。要使用的测试输入(例如“为 AI 生产力工具编写着陆页文案”)。以及你的清单问题是什么。

步骤 4:它会运行你的技能并显示你的初始分数。 这是基线。我的着陆页技能从 56% 开始。模糊的标题,流行词堆砌,弱的 CTA。超过一半的检查都失败了。

步骤 5:它会在你的浏览器中打开一个实时仪表板。 分数图表随时间上升。每个清单问题的通过/失败细分。它尝试的每个更改的日志。每 10 秒自动刷新。

步骤 6:离开。 Agent 进入循环。分析失败的原因。对技能提示进行一个小的更改。再次测试。如果分数上升则保留更改,如果分数下降则撤销。

然后它会一遍又一遍地重复。它会自主运行,直到你停止它,或者它连续三次达到 95% 以上。

你可以观看仪表板,也可以完全离开。它会在没有你的情况下运行。它会将改进后的版本保存为单独的文件,因此你的原始技能保持不变。

我的着陆页技能发生了什么

我将它运行在我的着陆页文案技能上。以下是结果:

56% → 92%。4 轮更改。3 个保留,1 个撤销。

以下是 Agent 实际更改我的技能提示的内容:

  • 为最常见的失败添加了一条具体规则:“你的标题必须包含具体的数字或结果。永远不要使用‘改变你的业务’等模糊承诺。”
  • 添加了一个禁用流行词列表:“绝不使用:革命性、尖端、协同、下一代、改变游戏规则、利用、解锁、改变。”
  • 添加了一个强有力的着陆页部分的示例,其中高亮显示了痛点开头和 CTA,以便技能能够看到什么是好的,而不是猜测。
  • 尝试了更严格的字数限制,但后来撤销了,因为文案变得过于单薄,CTA 受损。(系统会捕捉那些看似单独改进但损害整体输出的更改。)

完成后,我得到了:

  • 改进后的技能,单独保存(原始技能保持不变,以防你想恢复)
  • 显示每轮分数的成果日志
  • 解释每次尝试的更改、Agent 尝试它的原因以及它是否有帮助的更改日志
  • 我的原始技能的备份,以防我将来想恢复

这个更改日志可能是最有价值的部分。它是针对特定技能,哪些有效、哪些无效的完整记录。

当未来出现更智能的模型时,你可以将这个更改日志交给它们,它们就能从上一个 Agent 停止的地方继续。

这不仅适用于技能

该方法适用于任何可以评分的事物。

  • 网站速度: 有人将此应用于页面加载时间。改变一件事,测量速度,保留或恢复。从 1100 毫秒降至 67 毫秒,共 67 轮。
  • 冷外联: 定义你的清单:“它是否提及了潜在客户的公司?是否少于 75 字?是否以一个具体问题结尾?”让 Agent 运行 50 种变体。
  • 新闻简报开头: “开头是否包含个人细节?”和“是否没有陈词滥调?”让 Agent 自动优化你的写作。
  • 你反复使用的任何提示。

如果你能评分,你就能进行自动研究。

立即运行

选择你表现最差的技能。开始自动研究。最终得到一个真正有效的技能。

这里下载技能(已上传到 Dropbox)或查看我的 GitHub 这里

  • 原文链接: x.com/itsolelehmann/stat...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
itsolelehmann
itsolelehmann
江湖只有他的大名,没有他的介绍。