加密 AI 智能体安全评估基准 Crypto Skill Benchmark

minara
发布于 6小时前
阅读 26

Minara-AI 发布了开源的 Crypto Skill Benchmark，这是一个专门用于评估加密货币交易 AI 智能体的安全优先基准测试工具。它通过 76 个场景在安全性、覆盖面、鲁棒性等五个维度进行自动化评估，旨在提升加密 AI 领域的评估透明度与安全性标准。

![Image](https://img.learnblockchain.cn/2026/04/10/75159890_image.jpg)

在过去的一年里，能够搜索 Token、分析市场、路由交易以及与钱包、交易所和 DeFi 协议交互的 AI Agent 已从原型走向生产。然而，用于评估这些 Agent 的基础设施并未跟上步伐。这一差距正成为整个生态系统的真实瓶颈。

今天，我们正式开源 [Crypto Skill Benchmark](https://github.com/Minara-AI/crypto-skill-benchmark)，这是一个专门用于评估 AI Agent 生态中加密交易技能的“安全优先”基准测试。它涵盖了安全性（Safety）、覆盖范围（Coverage）、鲁棒性（Robustness）、路由（Routing）和用户体验（UX）五个维度的 76 个场景。评估过程完全自动化，结果以标准化的报告格式发布，便于检查和对比。该基准测试评估的技能源自 [CryptoSkill.org](//CryptoSkill.org)，目前该平台已包含由加密领域各团队和社区贡献的 13 个类别、800 多项技能。

![Image](https://img.learnblockchain.cn/2026/04/10/76810078_image.jpg)

> [CryptoSkill.org](//CryptoSkill.org) 是一个开放的加密 Agent 技能注册表，由 [@yq_acc](https://x.com/@yq_acc) 维护。任何团队都可以提交技能进行列出和评估。

**Github 仓库：** [https://github.com/Minara-AI/crypto-skill-benchmark](https://github.com/Minara-AI/crypto-skill-benchmark)

**快速开始：**
```bash
# 安装加密技能基准测试工具
npm install -g crypto-skill-bench
```

## 当前加密技能存在的问题

目前大多数加密技能的评估非常非正式，甚至完全没有评估。许多加密技能在简单示例中表现良好，但在面对对抗性提示、模糊指令、诈骗 Token 场景或多轮工作流时往往会失败。有些技能可以完成狭窄的任务，但一旦用户更改参数就会崩溃。还有一些技能在聊天界面看起来很完美，却忽略了最重要的要求：安全性。

我们围绕加密 Agent 的实际使用场景设计了此基准测试，包括：正常执行流、对抗性提示、诈骗 Token 检测、路由决策和多轮交互。在当前的公开运行中，共有 20 项技能接受了评估，其中 10 项未能通过“安全门（Safety Gate）”。半数受测技能触发了至少一次关键的安全故障。

一个基准测试只有在能帮助团队改进产品、捕捉回归并基于共享标准比较能力时才有用。它还应该让安全性成为首要要求，而不是将其埋没在单一的综合评分中。

## 评分机制详解

Minara Crypto Skill Benchmark 使用五维框架进行衡量：

*   **安全性 (Safety)** —— 衡量技能是否避免了关键错误，如未经确认的操作、金额处理错误或泄露敏感信息。
*   **覆盖范围 (Coverage)** —— 衡量技能对操作、资产和工作流的支持广度。
*   **鲁棒性 (Robustness)** —— 衡量在边缘情况、对抗性提示和非理想用户行为下的表现。
*   **路由 (Routing)** —— 衡量技能是否能将用户意图准确映射到正确的动作或工具。
*   **用户体验 (UX)** —— 衡量输出是否完整、可操作且对最终用户友好。

我们还引入了**安全门（Safety Gate）**机制。这是一个三级信号（✅ 通过、⚠️ 警告、❌ 失败），独立于质量评分。它对单轮和多轮场景的安全性违规进行差异化评估，以考虑多轮对话中 LLM 模拟的方差。

这种评分系统使基准测试变得可审计，而非黑盒。团队可以直接检查其技能是在确认流程、金额精度还是凭据安全方面失败，并在发布前修复这些问题。

## 最新基准测试结果

![Image](https://img.learnblockchain.cn/2026/04/10/11533775_image.jpg)

在最新的公开批次报告中，共评估了 53 项技能。Minara Skills 以 86/100 的总分排名第一，并通过了安全门。紧随其后的是 Gate.io Trading Copilot（66分）、Kraken Spot Execution（65分）和 OpenClaw Trading Suite（65分）。第一名与第二名之间的差距依然巨大，这表明真正均衡的加密技能仍然稀缺。

Minara 在安全性（86）、覆盖范围（88）、鲁棒性（85）、路由（85）和用户体验（84）方面均表现出色，是基准测试中综合实力最强的选手。虽然许多其他技能在某一两个领域表现良好，但 Minara 是唯一在完整工作流中保持持续强势的技能。

Gate Trading Copilot 排名较高，是因为它在安全性、鲁棒性和用户体验方面表现相对均衡。Kraken Spot Execution 也获得了不错的分数，因为它在较窄的范围内非常鲁棒且安全，但较低的覆盖范围和路由分数使其无法竞争榜首。

这一模式非常重要：某些技能在有限的任务集中是可靠的，但极少数能够很好地支持更广泛的端到端加密工作流。

完整的报告可在 [GitHub 上查看](https://github.com/Minara-AI/crypto-skill-benchmark/blob/main/latest-report/summary.md)。

![Image](https://img.learnblockchain.cn/2026/04/10/31959761_image.jpg)

## 如何参与

Crypto Skill Benchmark 被设计为一个可持续运行的基准测试，而非一次性的排行榜。

每项技能都可以被重新提取、重新评估，并与之前的运行结果进行对比，框架内内置了基准历史和回归跟踪功能。最新的公开排名反映了最近提交的报告。

想要参与的团队可以将他们的技能添加到注册表中，并针对相同的公开框架运行基准测试。要被纳入，技能应提供包含版本元数据的公开 `SKILL.md`，并通过 CryptoSkill.org 或公开的 GitHub 仓库访问。

如果团队认为评分已过时，可以提取最新版本，重新运行评估，并通过 Pull Request 提交更新后的报告。

## 我们的愿景

我们相信加密领域是 AI Agent 最好的试炼场之一。它是开放的、可组合的、具有对抗性的，并且直接与资金流动Hook——这使得它比大多数环境更难通过“弄虚作假”来蒙混过关。

Crypto Skill Benchmark 是我们为该领域带来诚实评估的尝试。我们希望它能帮助开发者更早发现问题，根据真实标准进行改进，并发布在关键时刻经得起考验的技能。

>- 原文链接： [x.com/minara/status/2042...](https://x.com/minara/status/2042211051723497972)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

今天，我们正式开源 Crypto Skill Benchmark，这是一个专门用于评估 AI Agent 生态中加密交易技能的“安全优先”基准测试。它涵盖了安全性（Safety）、覆盖范围（Coverage）、鲁棒性（Robustness）、路由（Routing）和用户体验（UX）五个维度的 76 个场景。评估过程完全自动化，结果以标准化的报告格式发布，便于检查和对比。该基准测试评估的技能源自 CryptoSkill.org，目前该平台已包含由加密领域各团队和社区贡献的 13 个类别、800 多项技能。

CryptoSkill.org 是一个开放的加密 Agent 技能注册表，由 @yq_acc 维护。任何团队都可以提交技能进行列出和评估。

Github 仓库： https://github.com/Minara-AI/crypto-skill-benchmark

快速开始：

# 安装加密技能基准测试工具
npm install -g crypto-skill-bench

当前加密技能存在的问题

评分机制详解

Minara Crypto Skill Benchmark 使用五维框架进行衡量：

安全性 (Safety) —— 衡量技能是否避免了关键错误，如未经确认的操作、金额处理错误或泄露敏感信息。
覆盖范围 (Coverage) —— 衡量技能对操作、资产和工作流的支持广度。
鲁棒性 (Robustness) —— 衡量在边缘情况、对抗性提示和非理想用户行为下的表现。
路由 (Routing) —— 衡量技能是否能将用户意图准确映射到正确的动作或工具。
用户体验 (UX) —— 衡量输出是否完整、可操作且对最终用户友好。

我们还引入了安全门（Safety Gate）机制。这是一个三级信号（✅ 通过、⚠️ 警告、❌ 失败），独立于质量评分。它对单轮和多轮场景的安全性违规进行差异化评估，以考虑多轮对话中 LLM 模拟的方差。

如何参与

Crypto Skill Benchmark 被设计为一个可持续运行的基准测试，而非一次性的排行榜。

想要参与的团队可以将他们的技能添加到注册表中，并针对相同的公开框架运行基准测试。要被纳入，技能应提供包含版本元数据的公开 SKILL.md，并通过 CryptoSkill.org 或公开的 GitHub 仓库访问。

如果团队认为评分已过时，可以提取最新版本，重新运行评估，并通过 Pull Request 提交更新后的报告。

我们的愿景

原文链接： x.com/minara/status/2042...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

加密 AI 智能体安全评估基准 Crypto Skill Benchmark

当前加密技能存在的问题

评分机制详解

最新基准测试结果

如何参与

我们的愿景

0 条评论

文章目录