加密 AI 智能体安全评估基准 Crypto Skill Benchmark

  • minara
  • 发布于 6小时前
  • 阅读 26

Minara-AI 发布了开源的 Crypto Skill Benchmark,这是一个专门用于评估加密货币交易 AI 智能体的安全优先基准测试工具。它通过 76 个场景在安全性、覆盖面、鲁棒性等五个维度进行自动化评估,旨在提升加密 AI 领域的评估透明度与安全性标准。

Image

在过去的一年里,能够搜索 Token、分析市场、路由交易以及与钱包、交易所和 DeFi 协议交互的 AI Agent 已从原型走向生产。然而,用于评估这些 Agent 的基础设施并未跟上步伐。这一差距正成为整个生态系统的真实瓶颈。

今天,我们正式开源 Crypto Skill Benchmark,这是一个专门用于评估 AI Agent 生态中加密交易技能的“安全优先”基准测试。它涵盖了安全性(Safety)、覆盖范围(Coverage)、鲁棒性(Robustness)、路由(Routing)和用户体验(UX)五个维度的 76 个场景。评估过程完全自动化,结果以标准化的报告格式发布,便于检查和对比。该基准测试评估的技能源自 CryptoSkill.org,目前该平台已包含由加密领域各团队和社区贡献的 13 个类别、800 多项技能。

Image

CryptoSkill.org 是一个开放的加密 Agent 技能注册表,由 @yq_acc 维护。任何团队都可以提交技能进行列出和评估。

Github 仓库: https://github.com/Minara-AI/crypto-skill-benchmark

快速开始:

# 安装加密技能基准测试工具
npm install -g crypto-skill-bench

当前加密技能存在的问题

目前大多数加密技能的评估非常非正式,甚至完全没有评估。许多加密技能在简单示例中表现良好,但在面对对抗性提示、模糊指令、诈骗 Token 场景或多轮工作流时往往会失败。有些技能可以完成狭窄的任务,但一旦用户更改参数就会崩溃。还有一些技能在聊天界面看起来很完美,却忽略了最重要的要求:安全性。

我们围绕加密 Agent 的实际使用场景设计了此基准测试,包括:正常执行流、对抗性提示、诈骗 Token 检测、路由决策和多轮交互。在当前的公开运行中,共有 20 项技能接受了评估,其中 10 项未能通过“安全门(Safety Gate)”。半数受测技能触发了至少一次关键的安全故障。

一个基准测试只有在能帮助团队改进产品、捕捉回归并基于共享标准比较能力时才有用。它还应该让安全性成为首要要求,而不是将其埋没在单一的综合评分中。

评分机制详解

Minara Crypto Skill Benchmark 使用五维框架进行衡量:

  • 安全性 (Safety) —— 衡量技能是否避免了关键错误,如未经确认的操作、金额处理错误或泄露敏感信息。
  • 覆盖范围 (Coverage) —— 衡量技能对操作、资产和工作流的支持广度。
  • 鲁棒性 (Robustness) —— 衡量在边缘情况、对抗性提示和非理想用户行为下的表现。
  • 路由 (Routing) —— 衡量技能是否能将用户意图准确映射到正确的动作或工具。
  • 用户体验 (UX) —— 衡量输出是否完整、可操作且对最终用户友好。

我们还引入了安全门(Safety Gate)机制。这是一个三级信号(✅ 通过、⚠️ 警告、❌ 失败),独立于质量评分。它对单轮和多轮场景的安全性违规进行差异化评估,以考虑多轮对话中 LLM 模拟的方差。

这种评分系统使基准测试变得可审计,而非黑盒。团队可以直接检查其技能是在确认流程、金额精度还是凭据安全方面失败,并在发布前修复这些问题。

最新基准测试结果

Image

在最新的公开批次报告中,共评估了 53 项技能。Minara Skills 以 86/100 的总分排名第一,并通过了安全门。紧随其后的是 Gate.io Trading Copilot(66分)、Kraken Spot Execution(65分)和 OpenClaw Trading Suite(65分)。第一名与第二名之间的差距依然巨大,这表明真正均衡的加密技能仍然稀缺。

Minara 在安全性(86)、覆盖范围(88)、鲁棒性(85)、路由(85)和用户体验(84)方面均表现出色,是基准测试中综合实力最强的选手。虽然许多其他技能在某一两个领域表现良好,但 Minara 是唯一在完整工作流中保持持续强势的技能。

Gate Trading Copilot 排名较高,是因为它在安全性、鲁棒性和用户体验方面表现相对均衡。Kraken Spot Execution 也获得了不错的分数,因为它在较窄的范围内非常鲁棒且安全,但较低的覆盖范围和路由分数使其无法竞争榜首。

这一模式非常重要:某些技能在有限的任务集中是可靠的,但极少数能够很好地支持更广泛的端到端加密工作流。

完整的报告可在 GitHub 上查看

Image

如何参与

Crypto Skill Benchmark 被设计为一个可持续运行的基准测试,而非一次性的排行榜。

每项技能都可以被重新提取、重新评估,并与之前的运行结果进行对比,框架内内置了基准历史和回归跟踪功能。最新的公开排名反映了最近提交的报告。

想要参与的团队可以将他们的技能添加到注册表中,并针对相同的公开框架运行基准测试。要被纳入,技能应提供包含版本元数据的公开 SKILL.md,并通过 CryptoSkill.org 或公开的 GitHub 仓库访问。

如果团队认为评分已过时,可以提取最新版本,重新运行评估,并通过 Pull Request 提交更新后的报告。

我们的愿景

我们相信加密领域是 AI Agent 最好的试炼场之一。它是开放的、可组合的、具有对抗性的,并且直接与资金流动Hook——这使得它比大多数环境更难通过“弄虚作假”来蒙混过关。

Crypto Skill Benchmark 是我们为该领域带来诚实评估的尝试。我们希望它能帮助开发者更早发现问题,根据真实标准进行改进,并发布在关键时刻经得起考验的技能。

  • 原文链接: x.com/minara/status/2042...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
minara
minara
江湖只有他的大名,没有他的介绍。