如何将你的 Claude 技能提升10倍（使用 Karpathy 的自研究方法）

itsolelehmann
发布于 2026-03-18 22:41
阅读 4

本文介绍了一种受Andrej Karpathy启发，用于自动提升Claude AI技能的“自研究”方法。该方法通过AI代理迭代修改提示词，并根据用户定义的检查表进行测试和优化，从而显著提高AI技能的性能，减少人工干预。

![Image](https://img.learnblockchain.cn/2026/03/26/18815850_image.jpg)

你的 Claude 技能可能在 30% 的时间里都失败了，而你甚至没有注意到。

我创建了一种方法，可以自动改进任何技能，在这篇文章中，我将向你展示如何亲自运行它。

你启动它后，Agent 会反复测试和完善技能，无需你手动干预。

我的着陆页文案技能从通过质量检查的 56% 提高到 92%，完全没有人工干预。

Agent 只是不断地自行测试和优化提示。

以下是该方法和我构建的精确技能，你可以用它来处理自己的内容：

## 方法来源

Andrej Karpathy（OpenAI 联合创始人，特斯拉前 AI 负责人，"vibe coding" 一词的创造者）发布了一种名为“自动研究”（autoresearch）的方法。

其理念很简单：与其你手动改进某些东西，不如让 AI 代理在一个循环中为你完成。

![Image](https://img.learnblockchain.cn/2026/03/26/16802111_image.jpg)

它会尝试一个小的改动，检查结果是否变好。如果变好就保留，如果变差就放弃。

然后它会一遍又一遍地重复这个过程。

他将此方法用于机器学习代码。但这种方法适用于任何可以衡量和改进的事物。

包括你在 Claude 中构建的技能。

我采用了他的方法，并将其转化为一个在 Claude Code 和 Cowork 中都能运行的技能。我只需在我的设置中对任何其他技能运行它。

我说“对我的 [技能名称] 技能运行自动研究”，它就会处理整个过程。

## 一个循环如何自动改进你的技能

你可以这样理解：

你有一个食谱，十次中有七次做得很棒。另外三次，总有些地方不对劲。也许酱汁平淡无味，也许调味不对。

你没有从头重写整个食谱，而是改变一种配料。然后用这种改变烹饪十次。

*   变好了吗？保留这个改变。
*   变差了吗？把旧配料放回去。

然后你改变下一项。再烹饪十次。变好还是变差？保留还是恢复。

经过 50 轮这样的操作，你的食谱十次中有 9.5 次都能成功。

这正是自动研究对你的技能所做的事情。

*   “食谱”是你的技能提示。
*   “烹饪”是运行技能。
*   “品尝”是给输出打分。

你唯一需要提供的是评分标准。

## 告诉 Agent “好”意味着什么的清单

你给 Agent 一个简单的清单，说明“好”是什么样子。这是你在这个过程中唯一的任务。

你通过一个简单的“是/否”问题清单来完成。

每个问题都检查输出的一个特定方面。通过或失败。仅此而已。

Agent 使用这个清单来给每个输出打分，这些分数会告诉它所做的改变是帮助还是损害了结果。

把它想象成老师用清单给论文打分。

但不是“给写作质量打 1-10 分”（这很模糊，每次都不同），清单上的每个项目都是一个明确的“是”或“否”：

*   学生是否包含了论点陈述？是或否。
*   所有来源都引用了吗？是或否。
*   是否少于 5 页？是或否。

你可以用这个清单批改 100 篇论文，每次都能得到一致的结果。

这里也是同样的想法。对于一个着陆页文案技能，你的清单可能看起来像这样：

*   “标题是否包含具体的数字或结果？”（捕捉“发展你的业务”等模糊标题）
*   “文案是否没有‘革命性’、‘协同’、‘尖端’、‘下一代’等流行词？”
*   “CTA 是否使用了具体的动词短语？”（捕捉“了解更多”或“点击这里”等弱 CTA）
*   “第一行是否指出了一个具体的痛点？”（捕捉“在当今快节奏的世界中……”等通用开头）
*   “总文案是否少于 150 字？”（捕捉导致读者流失的冗长页面）

你不需要自己想出这些。当你开始自动研究时，Agent 会引导你完成。

它会询问“好”是什么样子，帮助你将你的感觉转化为具体的“是/否”问题，甚至会提供从现有风格指南中提取内容（如果你有的话）。

3-6 个问题是最佳数量。超过这个数量，技能就会开始“玩弄”清单（就像一个只记住答案而不理解材料的学生）。

## 如何运行它

**步骤 1：下载技能。** 从[这里](https://www.dropbox.com/scl/fi/57v11vtj9gzqz10ybv7or/autoresearch.zip?rlkey=f0zbieol7beeykn04erun79ot&dl=1)获取。将其放入 Claude Code 或 Cowork 的技能文件夹中。

**步骤 2：选择一个要改进的技能。** 说“对我的 [技能名称] 技能运行自动研究”。选择那个最让你烦恼的技能。那个一半时间输出很棒，另一半时间却一团糟的技能。

**步骤 3：Agent 会问你 3 件事。** 要优化的技能。要使用的测试输入（例如“为 AI 生产力工具编写着陆页文案”）。以及你的清单问题是什么。

**步骤 4：它会运行你的技能并显示你的初始分数。** 这是基线。我的着陆页技能从 56% 开始。模糊的标题，流行词堆砌，弱的 CTA。超过一半的检查都失败了。

**步骤 5：它会在你的浏览器中打开一个实时仪表板。** 分数图表随时间上升。每个清单问题的通过/失败细分。它尝试的每个更改的日志。每 10 秒自动刷新。

**步骤 6：离开。** Agent 进入循环。分析失败的原因。对技能提示进行一个小的更改。再次测试。如果分数上升则保留更改，如果分数下降则撤销。

然后它会一遍又一遍地重复。它会自主运行，直到你停止它，或者它连续三次达到 95% 以上。

你可以观看仪表板，也可以完全离开。它会在没有你的情况下运行。它会将改进后的版本保存为单独的文件，因此你的原始技能保持不变。

## 我的着陆页技能发生了什么

我将它运行在我的着陆页文案技能上。以下是结果：

56% → 92%。4 轮更改。3 个保留，1 个撤销。

以下是 Agent 实际更改我的技能提示的内容：

*   为最常见的失败添加了一条具体规则：“你的标题必须包含具体的数字或结果。永远不要使用‘改变你的业务’等模糊承诺。”
*   添加了一个禁用流行词列表：“绝不使用：革命性、尖端、协同、下一代、改变游戏规则、利用、解锁、改变。”
*   添加了一个强有力的着陆页部分的示例，其中高亮显示了痛点开头和 CTA，以便技能能够看到什么是好的，而不是猜测。
*   尝试了更严格的字数限制，但后来撤销了，因为文案变得过于单薄，CTA 受损。（系统会捕捉那些看似单独改进但损害整体输出的更改。）

完成后，我得到了：

*   改进后的技能，单独保存（原始技能保持不变，以防你想恢复）
*   显示每轮分数的成果日志
*   解释每次尝试的更改、Agent 尝试它的原因以及它是否有帮助的更改日志
*   我的原始技能的备份，以防我将来想恢复

这个更改日志可能是最有价值的部分。它是针对特定技能，哪些有效、哪些无效的完整记录。

当未来出现更智能的模型时，你可以将这个更改日志交给它们，它们就能从上一个 Agent 停止的地方继续。

## 这不仅适用于技能

该方法适用于任何可以评分的事物。

*   **网站速度：** 有人将此应用于页面加载时间。改变一件事，测量速度，保留或恢复。从 1100 毫秒降至 67 毫秒，共 67 轮。
*   **冷外联：** 定义你的清单：“它是否提及了潜在客户的公司？是否少于 75 字？是否以一个具体问题结尾？”让 Agent 运行 50 种变体。
*   **新闻简报开头：** “开头是否包含个人细节？”和“是否没有陈词滥调？”让 Agent 自动优化你的写作。
*   **你反复使用的任何提示。**

如果你能评分，你就能进行自动研究。

## 立即运行

选择你表现最差的技能。开始自动研究。最终得到一个真正有效的技能。

从[这里](https://www.dropbox.com/scl/fi/57v11vtj9gzqz10ybv7or/autoresearch.zip?rlkey=f0zbieol7beeykn04erun79ot&dl=1)下载技能（已上传到 Dropbox）或查看我的 GitHub [这里](https://github.com/olelehmann100kMRR/autoresearch-skill)。

>- 原文链接： [x.com/itsolelehmann/stat...](https://x.com/itsolelehmann/status/2033919415771713715)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

你的 Claude 技能可能在 30% 的时间里都失败了，而你甚至没有注意到。

我创建了一种方法，可以自动改进任何技能，在这篇文章中，我将向你展示如何亲自运行它。

你启动它后，Agent 会反复测试和完善技能，无需你手动干预。

我的着陆页文案技能从通过质量检查的 56% 提高到 92%，完全没有人工干预。

Agent 只是不断地自行测试和优化提示。

以下是该方法和我构建的精确技能，你可以用它来处理自己的内容：

方法来源

Andrej Karpathy（OpenAI 联合创始人，特斯拉前 AI 负责人，"vibe coding" 一词的创造者）发布了一种名为“自动研究”（autoresearch）的方法。

其理念很简单：与其你手动改进某些东西，不如让 AI 代理在一个循环中为你完成。

它会尝试一个小的改动，检查结果是否变好。如果变好就保留，如果变差就放弃。

然后它会一遍又一遍地重复这个过程。

他将此方法用于机器学习代码。但这种方法适用于任何可以衡量和改进的事物。

包括你在 Claude 中构建的技能。

我采用了他的方法，并将其转化为一个在 Claude Code 和 Cowork 中都能运行的技能。我只需在我的设置中对任何其他技能运行它。

我说“对我的 [技能名称] 技能运行自动研究”，它就会处理整个过程。

一个循环如何自动改进你的技能

你可以这样理解：

你有一个食谱，十次中有七次做得很棒。另外三次，总有些地方不对劲。也许酱汁平淡无味，也许调味不对。

你没有从头重写整个食谱，而是改变一种配料。然后用这种改变烹饪十次。

变好了吗？保留这个改变。
变差了吗？把旧配料放回去。

然后你改变下一项。再烹饪十次。变好还是变差？保留还是恢复。

经过 50 轮这样的操作，你的食谱十次中有 9.5 次都能成功。

这正是自动研究对你的技能所做的事情。

“食谱”是你的技能提示。
“烹饪”是运行技能。
“品尝”是给输出打分。

你唯一需要提供的是评分标准。

告诉 Agent “好”意味着什么的清单

你给 Agent 一个简单的清单，说明“好”是什么样子。这是你在这个过程中唯一的任务。

你通过一个简单的“是/否”问题清单来完成。

每个问题都检查输出的一个特定方面。通过或失败。仅此而已。

Agent 使用这个清单来给每个输出打分，这些分数会告诉它所做的改变是帮助还是损害了结果。

把它想象成老师用清单给论文打分。

但不是“给写作质量打 1-10 分”（这很模糊，每次都不同），清单上的每个项目都是一个明确的“是”或“否”：

学生是否包含了论点陈述？是或否。
所有来源都引用了吗？是或否。
是否少于 5 页？是或否。

你可以用这个清单批改 100 篇论文，每次都能得到一致的结果。

这里也是同样的想法。对于一个着陆页文案技能，你的清单可能看起来像这样：

“标题是否包含具体的数字或结果？”（捕捉“发展你的业务”等模糊标题）
“文案是否没有‘革命性’、‘协同’、‘尖端’、‘下一代’等流行词？”
“CTA 是否使用了具体的动词短语？”（捕捉“了解更多”或“点击这里”等弱 CTA）
“第一行是否指出了一个具体的痛点？”（捕捉“在当今快节奏的世界中……”等通用开头）
“总文案是否少于 150 字？”（捕捉导致读者流失的冗长页面）

你不需要自己想出这些。当你开始自动研究时，Agent 会引导你完成。

它会询问“好”是什么样子，帮助你将你的感觉转化为具体的“是/否”问题，甚至会提供从现有风格指南中提取内容（如果你有的话）。

3-6 个问题是最佳数量。超过这个数量，技能就会开始“玩弄”清单（就像一个只记住答案而不理解材料的学生）。

如何运行它

步骤 1：下载技能。 从这里获取。将其放入 Claude Code 或 Cowork 的技能文件夹中。

步骤 2：选择一个要改进的技能。 说“对我的 [技能名称] 技能运行自动研究”。选择那个最让你烦恼的技能。那个一半时间输出很棒，另一半时间却一团糟的技能。

步骤 3：Agent 会问你 3 件事。 要优化的技能。要使用的测试输入（例如“为 AI 生产力工具编写着陆页文案”）。以及你的清单问题是什么。

步骤 4：它会运行你的技能并显示你的初始分数。 这是基线。我的着陆页技能从 56% 开始。模糊的标题，流行词堆砌，弱的 CTA。超过一半的检查都失败了。

步骤 5：它会在你的浏览器中打开一个实时仪表板。 分数图表随时间上升。每个清单问题的通过/失败细分。它尝试的每个更改的日志。每 10 秒自动刷新。

步骤 6：离开。 Agent 进入循环。分析失败的原因。对技能提示进行一个小的更改。再次测试。如果分数上升则保留更改，如果分数下降则撤销。

然后它会一遍又一遍地重复。它会自主运行，直到你停止它，或者它连续三次达到 95% 以上。

你可以观看仪表板，也可以完全离开。它会在没有你的情况下运行。它会将改进后的版本保存为单独的文件，因此你的原始技能保持不变。

我的着陆页技能发生了什么

我将它运行在我的着陆页文案技能上。以下是结果：

56% → 92%。4 轮更改。3 个保留，1 个撤销。

以下是 Agent 实际更改我的技能提示的内容：

为最常见的失败添加了一条具体规则：“你的标题必须包含具体的数字或结果。永远不要使用‘改变你的业务’等模糊承诺。”
添加了一个禁用流行词列表：“绝不使用：革命性、尖端、协同、下一代、改变游戏规则、利用、解锁、改变。”
添加了一个强有力的着陆页部分的示例，其中高亮显示了痛点开头和 CTA，以便技能能够看到什么是好的，而不是猜测。
尝试了更严格的字数限制，但后来撤销了，因为文案变得过于单薄，CTA 受损。（系统会捕捉那些看似单独改进但损害整体输出的更改。）

完成后，我得到了：

改进后的技能，单独保存（原始技能保持不变，以防你想恢复）
显示每轮分数的成果日志
解释每次尝试的更改、Agent 尝试它的原因以及它是否有帮助的更改日志
我的原始技能的备份，以防我将来想恢复

这个更改日志可能是最有价值的部分。它是针对特定技能，哪些有效、哪些无效的完整记录。

当未来出现更智能的模型时，你可以将这个更改日志交给它们，它们就能从上一个 Agent 停止的地方继续。

这不仅适用于技能

该方法适用于任何可以评分的事物。

网站速度： 有人将此应用于页面加载时间。改变一件事，测量速度，保留或恢复。从 1100 毫秒降至 67 毫秒，共 67 轮。
冷外联： 定义你的清单：“它是否提及了潜在客户的公司？是否少于 75 字？是否以一个具体问题结尾？”让 Agent 运行 50 种变体。
新闻简报开头： “开头是否包含个人细节？”和“是否没有陈词滥调？”让 Agent 自动优化你的写作。
你反复使用的任何提示。

如果你能评分，你就能进行自动研究。

立即运行

选择你表现最差的技能。开始自动研究。最终得到一个真正有效的技能。

从这里下载技能（已上传到 Dropbox）或查看我的 GitHub 这里。

原文链接： x.com/itsolelehmann/stat...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

翻译
学分: 0
分类: AI
标签: Claude AI技能提示词工程自动化优化自研究方法 Andrej Karpathy

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

如何将你的 Claude 技能提升10倍（使用 Karpathy 的自研究方法）

方法来源

一个循环如何自动改进你的技能

告诉 Agent “好”意味着什么的清单

如何运行它

我的着陆页技能发生了什么

这不仅适用于技能

立即运行

0 条评论

文章目录