Minara-AI 发布了开源的 Crypto Skill Benchmark,这是一个专门用于评估加密货币交易 AI 智能体的安全优先基准测试工具。它通过 76 个场景在安全性、覆盖面、鲁棒性等五个维度进行自动化评估,旨在提升加密 AI 领域的评估透明度与安全性标准。

在过去的一年里,能够搜索 Token、分析市场、路由交易以及与钱包、交易所和 DeFi 协议交互的 AI Agent 已从原型走向生产。然而,用于评估这些 Agent 的基础设施并未跟上步伐。这一差距正成为整个生态系统的真实瓶颈。
今天,我们正式开源 Crypto Skill Benchmark,这是一个专门用于评估 AI Agent 生态中加密交易技能的“安全优先”基准测试。它涵盖了安全性(Safety)、覆盖范围(Coverage)、鲁棒性(Robustness)、路由(Routing)和用户体验(UX)五个维度的 76 个场景。评估过程完全自动化,结果以标准化的报告格式发布,便于检查和对比。该基准测试评估的技能源自 CryptoSkill.org,目前该平台已包含由加密领域各团队和社区贡献的 13 个类别、800 多项技能。

CryptoSkill.org 是一个开放的加密 Agent 技能注册表,由 @yq_acc 维护。任何团队都可以提交技能进行列出和评估。
Github 仓库: https://github.com/Minara-AI/crypto-skill-benchmark
快速开始:
# 安装加密技能基准测试工具
npm install -g crypto-skill-bench
目前大多数加密技能的评估非常非正式,甚至完全没有评估。许多加密技能在简单示例中表现良好,但在面对对抗性提示、模糊指令、诈骗 Token 场景或多轮工作流时往往会失败。有些技能可以完成狭窄的任务,但一旦用户更改参数就会崩溃。还有一些技能在聊天界面看起来很完美,却忽略了最重要的要求:安全性。
我们围绕加密 Agent 的实际使用场景设计了此基准测试,包括:正常执行流、对抗性提示、诈骗 Token 检测、路由决策和多轮交互。在当前的公开运行中,共有 20 项技能接受了评估,其中 10 项未能通过“安全门(Safety Gate)”。半数受测技能触发了至少一次关键的安全故障。
一个基准测试只有在能帮助团队改进产品、捕捉回归并基于共享标准比较能力时才有用。它还应该让安全性成为首要要求,而不是将其埋没在单一的综合评分中。
Minara Crypto Skill Benchmark 使用五维框架进行衡量:
我们还引入了安全门(Safety Gate)机制。这是一个三级信号(✅ 通过、⚠️ 警告、❌ 失败),独立于质量评分。它对单轮和多轮场景的安全性违规进行差异化评估,以考虑多轮对话中 LLM 模拟的方差。
这种评分系统使基准测试变得可审计,而非黑盒。团队可以直接检查其技能是在确认流程、金额精度还是凭据安全方面失败,并在发布前修复这些问题。

在最新的公开批次报告中,共评估了 53 项技能。Minara Skills 以 86/100 的总分排名第一,并通过了安全门。紧随其后的是 Gate.io Trading Copilot(66分)、Kraken Spot Execution(65分)和 OpenClaw Trading Suite(65分)。第一名与第二名之间的差距依然巨大,这表明真正均衡的加密技能仍然稀缺。
Minara 在安全性(86)、覆盖范围(88)、鲁棒性(85)、路由(85)和用户体验(84)方面均表现出色,是基准测试中综合实力最强的选手。虽然许多其他技能在某一两个领域表现良好,但 Minara 是唯一在完整工作流中保持持续强势的技能。
Gate Trading Copilot 排名较高,是因为它在安全性、鲁棒性和用户体验方面表现相对均衡。Kraken Spot Execution 也获得了不错的分数,因为它在较窄的范围内非常鲁棒且安全,但较低的覆盖范围和路由分数使其无法竞争榜首。
这一模式非常重要:某些技能在有限的任务集中是可靠的,但极少数能够很好地支持更广泛的端到端加密工作流。
完整的报告可在 GitHub 上查看。

Crypto Skill Benchmark 被设计为一个可持续运行的基准测试,而非一次性的排行榜。
每项技能都可以被重新提取、重新评估,并与之前的运行结果进行对比,框架内内置了基准历史和回归跟踪功能。最新的公开排名反映了最近提交的报告。
想要参与的团队可以将他们的技能添加到注册表中,并针对相同的公开框架运行基准测试。要被纳入,技能应提供包含版本元数据的公开 SKILL.md,并通过 CryptoSkill.org 或公开的 GitHub 仓库访问。
如果团队认为评分已过时,可以提取最新版本,重新运行评估,并通过 Pull Request 提交更新后的报告。
我们相信加密领域是 AI Agent 最好的试炼场之一。它是开放的、可组合的、具有对抗性的,并且直接与资金流动Hook——这使得它比大多数环境更难通过“弄虚作假”来蒙混过关。
Crypto Skill Benchmark 是我们为该领域带来诚实评估的尝试。我们希望它能帮助开发者更早发现问题,根据真实标准进行改进,并发布在关键时刻经得起考验的技能。
- 原文链接: x.com/minara/status/2042...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!