EigenAI 确定性推理: 如何让每一次 AI 输出都可验证

EigenAI 通过控制 GPU 堆栈的每一层,实现了在生产 GPU 上 bit 级别的确定性推理,在 10,000 次测试运行中实现了 100% 的可重复性,性能开销低于 2%。通过 EigenAI,每一个AI的推理都可以重放和审计,如果出现问题也有经济强制手段。

Image

确定性推理已至:EigenAI 如何使每个 AI 输出都可验证

这不是一个 bug。这就是现代 LLM 的工作方式。浮点数的非结合性、内核调度、可变批处理。相同的模型,相同的输入,不同的输出。对于聊天机器人来说,没人会在意。对于管理实际资金或提出医疗建议的自主 AI 智能体呢?它会破坏一切。

你无法验证你无法重现的东西。

我们过去一年都在解决这个问题,并且我们正在发布 EigenAI 白皮书,其中包含完整的技术设计。EigenAI 在生产 GPU 上实现了位精确的确定性推理:在 10,000 次测试运行中实现了 100% 的可重复性,性能开销低于 2%。每次推理都可以重放,可以审计。如果出现问题,可以通过经济手段来强制执行。

EigenAI 今天已在主网上线。

无人讨论的非确定性问题

向任何机器学习工程师询问可重复性,你都会得到一个心照不宣的苦笑。PyTorch 有一个 torch.use_deterministic_algorithms() 标志。它有帮助,但不能解决问题。

问题比框架设置更深。GPU 推理涉及数千个并行操作,其中执行顺序的微小变化会累积成不同的输出。NVIDIA 自己的文档也承认这一点:除非你显式禁用某些优化,否则 cuBLAS 可能会在不同的运行中产生不同的结果。

对于训练来说,这是可以管理的。你正在朝着一个损失函数进行优化;小的变化会被消除。对于高风险应用中的推理来说,这是灾难性的。

考虑一下当预测市场需要裁决基于图像的主观问题时会发生什么。Polymarket 臭名昭著的“泽连斯基是否穿西装?”市场交易额超过 2 亿美元,最终以任意决定的指控告终,因为去中心化预言机必须根据照片和新闻报道做出决定。目前的解决方法是人为治理和代币持有者投票。但随着市场规模扩大,人类无法裁决每一个争议。AI 法官变得不可避免。当 AI 法官在一次执行中对同一张图片说“是”,而在另一次执行中说“否”时,会发生什么?资金的流向会根据你得到的运行结果而有所不同。(祝你好运,向那些亏钱的人解释清楚。)

或者考虑一个 AI 交易代理使用你的资金进行交易。你怎么知道它运行的是你部署的代码?你怎么知道模型没有在执行过程中被调换?如果没有可重复性,你就是在信任你无法审计的基础设施。

这就是为什么自主 AI 智能体仍然是我们团队所说的“功能性玩具”。令人印象深刻的演示,但不是你可以信任任何重要事情的系统。

EigenAI 如何实现位精确的可重复性

GPU 上的确定性是可实现的。它只需要控制堆栈的每一层。以下是它的实际样子:

硬件层。浮点行为因 GPU 代系而异。由于 FMA 和舍入方面的架构差异,A100 和 H100 对相同的操作产生不同的结果。EigenAI 强制执行单架构策略:操作员和验证者必须使用相同的 GPU SKU。我们的测试表明,在相同架构的运行中匹配率为 100%,跨架构的运行中匹配率为 0%。这不是我们可以通过工程手段解决的限制。这是物理学。

数学库。cuBLAS 和 cuDNN 默认使用原子操作和非结合累积。速度很快,但不确定。我们强制执行确定性配置标志,并在必要时用自定义实现替换供应商内核。我们的 GEMM 内核使用具有固定线程排序的 warp-synchronous reductions。没有浮点原子操作。结果:标准 cuBLAS 吞吐量的 95-98%。

推理引擎。我们以 llama.cpp 为基础,因为它具有小的、可审计的表面积。动态图融合等框架级优化会引入可变性,因此我们禁用了它们。解码使用具有规范迭代顺序的固定种子 PRNG。

结果:给定相同的输入(模型、提示、种子、解码策略),输出是一个纯函数。运行一千次。每次都得到相同的字节。这就是一个真正确定的 LLM 的样子。

我们在 10,000 次跨越概括、推理和代码生成的推理运行中验证了这一点。每个 SHA256 哈希都匹配。独立 H100 节点上的跨主机测试产生了相同的结果。在后台 GPU 工作负载引起调度抖动的情况下进行压力测试?仍然相同。

性能成本是多少?端到端 LLM 推理大约需要额外 1.8% 的延迟。这是可验证性的代价。我们认为这是值得的。

从确定性到可验证的 AI

位精确的可重复性是基础。你在此基础上构建的东西更重要。

EigenAI 使用乐观的验证模型(如果你熟悉,可以从区块链 rollup 中借鉴)。操作员运行推理并将加密结果发布到 EigenDA,我们的数据可用性层。结果默认被接受,但在争议窗口期间可以被挑战。如果受到挑战,验证者委员会会在受信任的执行环境中重新执行推理。由于执行是确定性的,因此验证会简化为一个简单的问题:字节是否匹配?

不匹配会触发 slashing,即从绑定的 stake 中扣除的经济处罚。操作员会损失金钱。挑战者和验证者会得到报酬。

这创造了一个系统,其中:

  • 稳态成本接近正常推理。验证仅在争议下运行。

  • 单个诚实的验证者可以检测到欺诈。确定性意味着对“正确”的样子没有歧义。

  • 经济激励措施一致。一旦挑战概率超过某个阈值,作弊就会产生负的预期价值。

通过阈值密钥管理来保护隐私。用户提示和输出保持加密;解密仅在验证期间在经过认证的 enclave 中进行。外部审计员可以验证哈希和签名,而无需访问明文。

转变:从“信任我”到“这是密码学证明”。

主权代理的真实面貌

确定性推理 + 密码经济强制 = 我们称之为主权代理。

这些是可以在高风险环境中自主运行的 AI 系统,因为它们的执行是可验证的。不是“信任我”,而是“证明它”。

预测市场裁决者的裁决可以被任何人重现和审计。不再对模型是否被偏见或篡改存在争议。只需重新运行并检查即可。

交易代理使用实际资金执行策略,其中每个决策都被记录、可重现,并且如果出现任何问题,都可以受到质疑。

研究工具,其结果可以通过重新执行进行同行评审,而不仅仅是信任运行推理的人。

游戏 AI,玩家可以证明它没有被开发者操纵。(在你意识到有多少资金流入链上游戏之前,这听起来很小众。)

模式是一致的:无论 AI 做出重要的决策,可验证性都成为一项要求。不是锦上添花,而是一项要求。问题从“我可以信任这个模型吗?”转变为“我可以验证它做了什么吗?”

深入了解

这篇文章从高层次介绍了架构。完整的白皮书深入探讨了如果你正在实际构建所需的内容:

  • 正式的安全分析和威胁建模

  • 确定性内核设计:warp-synchronous reductions、无原子累积、整个堆栈

  • 具有阈值 KMS 和 TEE 认证的隐私架构

  • 经济保证和 slashing 机制

  • 跨 GPU 配置的经验验证

如果你正在构建自主代理,或者需要可验证执行的基础设施,那么这篇论文值得一读。阅读完整的白皮书 开始在 EigenAI 上构建

  • 原文链接: x.com/eigencloud/status/...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
eigencloud
eigencloud
江湖只有他的大名,没有他的介绍。