Walrus:Sui 生态去中心化存储的可验证数据新范式

  • idaratbn
  • 发布于 6小时前
  • 阅读 20

文章介绍了基于 Sui 网络构建的去中心化存储协议 Walrus,详细探讨了其通过 Red Stuff 纠删码技术实现的存储优化与数据可用性证明(PoA)。Walrus 旨在解决 AI 数据伪造、广告欺诈及区块链存储冗余等问题,将传统的社会信任转化为基于技术的密码学验证。

Image

信任与技术共同驱动着每一个分布式系统的运行。通常情况下,人们在关注财务层面之前,往往先看到的是系统的技术表面。但在两者之下,信任才是让这些系统运作的隐形层——无论是对于构建者还是使用者而言。

互联网正被 AI 生成的低质量内容(AI slops)所淹没。大语言模型(LLMs)正在悄无声息但迅速地取代现有的事物:作家、研究员、分析师,这些曾被认为不可替代的角色。然而,除非人们相信替代品能提供更好的服务,否则任何东西都不会被真正取代。仅凭这一点,就足以说明信任在多大程度上驱动了技术的普及。

如果我不信任 Claude 能回答我的问题,我为什么每天都要使用它?从宏观角度来看,信任本身正受到质疑:如果一个系统不完全受我控制,我如何知道它值得信任?这个问题并不新鲜,正是这种逻辑催生了区块链验证者,以防止双重支付。

但最核心的东西是什么?

Image

是数据。

数据无处不在。它是你流媒体播放的音乐、聊天中发送的 GIF、签署的雇佣合同、在 TikTok 上观看的视频,以及父母收到的短信。每种格式、每个文件都是数据。而所有这些数据都可能造假。

有时是因为疏忽,有时是因为一个简单而复杂的现实:数据流经由人类构建的系统,存储在大公司拥有的服务器上,并由那些没有义务向你展示原始数据与接收数据之间差异的应用程序进行检索。

最典型的例子就是 AI。大语言模型是在无人能完全审计的数据集上训练的,它们产生的输出也无人能完全追踪。当一个模型自信地陈述一个错误事实、引用一篇不存在的论文,或生成基于虚构数据的财务预测时,其造成的损害可能是灾难性的。

2023 年,在 Mata 诉 Avianca 航空公司的里程碑式案件中,原告律师 Peter LoDuca 和 Steven Schwartz 向美国联邦法院提交了一份由 ChatGPT 撰写的法律简报。其中的案例是虚构的,引用看起来很真实,直到法官发现之前,没有人察觉到异常。

这是一个数据问题,具体来说是可验证性(Verifiability)问题。此时,关于数据的讨论不再仅仅是哲学层面的,而是变成了基础设施层面的问题——因为输出确实存在且看起来正确,但却缺乏一种机制来证明它不是伪造的。

Walrus:将存储转化为证明

Sui 网络在主网上线后面临的最大问题之一是验证者之间的数据复制。当一个新的验证者加入网络时,它被要求支付存储成本,并且必须维护上传到 Sui 网络的全部数据的完整性。

Walrus 协议的构建正是为了解决这一问题。它引入了 Red Stuff 编码,这是一种二维纠删码(Erasure Coding)系统,将数据分解为称为“分片(Slivers)”的片段,并将其分布在存储节点网络中。

如果直接在 Sui 区块链上存储数据(例如在 50 个验证者中存储 2GB 数据),每个验证者都会存储一个完整的副本。这种冗余会给网络执行和吞吐量带来巨大开销。每个新加入的验证者都要花钱持有现有验证者已经持有的相同数据,仅仅是为了保持一致性。

通过纠删码,Walrus 将每个上传的数据编码并拆分为 Slivers,并添加了额外的冗余。这意味着要还原完整数据,只需要特定数量的 Slivers,而不需要全部的 Slivers 及其冗余部分。

Image

容错与可用性证明

在数据检索过程中,某些节点可能会离线。如果缺失的 Slivers 过多,完整的原始数据(Blob)就无法重建。Red Stuff 解决了这个问题:当 Slivers 丢失时,节点会相互通信,找到足够的剩余 Slivers,并通过数学方式重建丢失的部分。系统不需要每个 Sliver,只需要其中的一部分。

这是实践中的拜占庭容错(Byzantine Fault Tolerance):即使多达三分之一的存储节点离线或不配合,Walrus 仍能保持完全正常运行。

接下来会发生什么?每个接收到 Sliver 的存储节点都会根据 Blob ID(源自存储内容的元数据)对其进行验证。原始文件的单个字节发生变化,Blob ID 就会完全改变。

节点随后会检查是否有有效的 Blob 资源授权了该存储。如果一切正常,它会签署一份声明,确认其持有该 Sliver。这些签名在网络中被收集并合并为一个单一的可用性证书(Availability Certificate)。这是 Sui 链上的一个记录,任何人都可以引用。这就是可用性证明(Proof of Availability)

这就是 Walrus 与以往去中心化存储尝试的区别所在。Filecoin 和 Arweave 存储数据,而 Walrus 在存储数据的同时证明其存在。证书存在于链上,任何人可读,智能合约可查询。

应用场景:可验证数据的重要性

1. 广告欺诈与可验证曝光

互联网引入了内容与社交融合的商品化模式,如 OnlyFans、Twitch、YouTube Live 等,这使得数字广告变得更加容易。但在数字广告领域,信任问题由来已久。广告商花费数十亿美元购买那些从未真正存在的点击、机器人流量、虚假流量和像素填充。如果你无法证明一次曝光何时发生、是否真实发生以及广告内容是否完整呈现,你就无法自证清白。

Walrus 在这里变得至关重要,因为每次竞价、曝光日志和广告服务器的审计轨迹都可以作为可验证的 Blob 存储。

2. 机构数据存档

机构对区块链的采用正在呈指数级增长,但这些机构不仅需要数据,还需要数据在时间跨度上是可审计、可检索且完整的。

目前大多数链上数据基础设施是为速度而非永久性构建的。数据会被修剪,节点会更迭,记录会悄无声息地消失。Walrus 改变了这一点。存储在 Walrus 上的 Blob 带有冗余保证和拜占庭容错能力。这意味着数据集的生存是靠设计而非运气,这正是机构级存档所要求的基础设施。

3. AI 模型权重与训练数据

如果你在无法证明来源的数据上训练模型,你将在法律、声誉和结构上面临风险。AI 模型权重很大,训练数据集更大,而目前证明“该模型是在特定时间点基于特定数据训练的”基础设施几乎不存在。

除了数据溯源,AI 还面临推理错误、信息过时和提示词偏见等问题。随着行业发展,问题将不再是“哪个 AI 模型最好”,而是“这些模型的输出如何验证”。

Walrus 能够高效处理非结构化数据 Blob,使得模型权重和数据集可以在具有完整性保证的情况下进行存储。如果将其与零知识证明(ZKP)结合,节点可以在不泄露数据本身的情况下证明其持有某些训练数据,从而使溯源变得可计算。

4. 欺诈证明与数据可用性

Rollups 将成百上千笔交易打包在主链外执行,然后将摘要传回 Layer 1。例如,Optimistic Rollups 假设提交的状态是有效的,除非有人挑战它。这种挑战机制被称为欺诈证明(Fraud Proof)

如果 Sequencer 提交了欺诈性的状态转换,任何诚实的参与者都可以发起争议并证明 Sequencer 撒谎。然而,争议解决需要访问原始交易数据。没有收据,你就无法证明欺诈。

当构建欺诈证明所需的数据缺失时会发生什么?Walrus 直接解决了这个问题。Sequencer 发布的 Blob 通过纠删码存储,数据被拆分为分布在网络中的冗余 Slivers,完整数据集仅需一部分 Slivers 即可重建。即使部分节点不配合,系统依然能通过拜占庭容错机制确保数据的可用性。

总结:从社会信任到技术验证

在人类历史的大部分时间里,信任是一种社会技术。你信任银行是因为有政府背书;你信任新闻是因为有机构发布;你信任文件是因为有官方盖章。尽管有时这种盖章只是一种形式,而非真正的证明。

整个制度信任的架构并非建立在验证之上,而是建立在“验证对普通人来说太贵、太慢、太复杂”的假设之上。因此,我们选择了委托信任。而在委托的过程中,我们交出了一些甚至没有察觉到正在失去的东西。

Walrus 让这种委托变成了可选。通过链上记录的证书,它向所有人展示了数据的存在形式及其真实状态,向任何想要查看的人开放。

  • 原文链接: x.com/idaratbn/status/20...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
idaratbn
idaratbn
江湖只有他的大名,没有他的介绍。