本文探讨了Web3原生数据管道的潜力,通过将现有IT市场中常用的数据管道投射到Web3环境中,讨论了这种管道的优势、实现这些优势需要解决的挑战,以及管道可能对行业产生的影响。文章还介绍了通用数据管道,并结合链上环境提出了预测管道,最后展望了Web3数据管道的未来。
人类文明的发展是由信息技术的创新驱动的,从人类交流的早期到数字连接的现代时代。
特别是,过去20年里,数据管道的发展对所有行业产生了深远的影响,各种各样的应用和智能的开发就证明了这一点。
因此,即使在预计会带来各种新价值的 Web3 背景下,建立数据流系统也可以作为实际抓住这些机会的起点。
2008 年比特币白皮书的发布导致了对信任概念的重新思考。此后,区块链的定义扩展到包括非信任系统的概念,它正在迅速发展,因为它假定个人主权、金融民主化和所有权等不同类型的值可以应用于现有系统。当然,在区块链能够实际应用之前,可能需要大量的验证和讨论,因为与各种现有系统相比,区块链的特性可能显得有些激进。但是,如果我们对这些场景持乐观态度,那么构建数据管道并分析区块链存储中包含的有价值的信息,有可能成为行业发展的另一个重要转折点,因为我们可以观察到以前从未存在过的 Web3 原生商业智能。
本文通过将现有 IT 市场中常用的现有数据管道投射到 Web3 环境中,探讨了 Web3 原生数据管道的潜力。它讨论了此类管道的优势,实现这些优势需要解决的挑战,以及管道可能对行业产生的影响。
“语言是人和低等动物之间最重要的区别之一。它不仅仅是表达能力,而是将确定的声音与确定的想法联系起来,并将这些声音用作交流思想的符号的能力。”— 查尔斯·达尔文
纵观历史,人类文明的重大进步都伴随着信息共享的创新。我们的祖先使用口头和书面语言相互交流,并将知识代代相传。这使他们比其他物种具有显着优势。文字、纸张和印刷术的发明使更广泛地共享信息成为可能,从而导致了科学、技术和文化的重大进步。特别是古腾堡圣经的金属活字印刷是一个分水岭时刻,因为它使大规模生产书籍和其他印刷材料成为可能。这对新教改革、公民革命和科学进步的开端产生了深远的影响。
2000 年代 IT 技术的快速发展使得更深入地了解人类行为成为可能。这导致了生活方式的改变,大多数现代人根据数字信息做出各种决定。由于这个原因,我们称现代社会为“IT 创新时代”。
而且,人工智能技术再次让世界感到惊讶,这距离互联网完全商业化仅仅 20 年。许多可以替代人类劳动力的应用程序正在出现,许多人正在讨论人工智能将改变的文明。有些人甚至处于否认状态,想知道这样一种技术怎么会如此迅速地出现,以至于它可以动摇我们社会的基础。尽管存在“摩尔定律”,即半导体的性能随着时间的推移呈指数增长,但 GPT 的出现所引起的变化过于突然,无法立即面对。
然而,有趣的是,GPT 模型本身实际上并不是一个非常具有开创性的架构。另一方面,人工智能行业将以下几点作为 GPT 模型的主要成功因素:1) 定义可以针对大型客户群的业务领域,以及 2) 通过数据管道进行模型调整——从数据采购到最终结果,以及基于此的反馈以改进现有模型。简而言之,这些应用程序通过完善服务提供目的和升级数据/信息处理流程来实现创新。
我们所说的创新,实际上大多数都是基于累积数据的处理,而不是基于机会或直觉。正如俗话所说,“在资本主义市场中,不是强者生存,而是幸存者强大。” 今天的企业都挤在无限竞争的饱和市场中。因此,企业正在收集和分析各种数据,以捕捉即使是最小的利基市场。
我们可能过于沉迷于熊彼特的“创造性破坏”的理念,以至于我们重视直觉而不是数据驱动的决策。然而,即使是优秀的直觉,最终也是个人积累的数据和信息的产物。数字世界将在未来更深入地渗透到我们的生活中,越来越多的敏感信息将以数字数据的形式呈现。
Web3 市场因其使用户能够控制其数据的潜力而备受关注。然而,作为 Web3 底层技术的区块链场景,目前更侧重于解决三难困境。为了使新技术在现实世界中具有说服力,重要的是开发可以以各种方式使用的应用程序和智能。我们已经看到了大数据的这种情况,因为自 2010 年左右以来,构建大数据处理和数据管道的方法论已经取得了飞跃。在 Web3 的背景下,必须努力通过构建数据流系统来促进行业的发展,以便能够产生基于数据的智能。
那么,我们可以从 Web3 原生数据流系统中捕捉到哪些机会,以及我们需要解决哪些挑战才能捕捉到这些机会?
用一句话概括配置 Web3 原生数据流的价值——它可以用于安全有效地将可靠的数据分发给多个实体,从而可以提取有价值的见解。
数据冗余——链上数据不易丢失,并且更具弹性,因为协议网络会将数据片段存储在多个节点上。
数据安全——链上数据具有防篡改性,因为它由去中心化节点网络验证和同意。
数据主权——数据主权是用户拥有和控制自己数据的权利。通过链上数据流,用户可以查看其数据的使用方式,并且可以选择仅与那些有合法需求访问它的人共享数据。
无需许可和透明——链上数据是透明且防篡改的。这确保了正在处理的数据也是可靠的信息来源。
稳定运行——当数据管道由分布式环境中的协议协调时,由于没有单点故障,因此每一层都暴露于停机的可能性大大降低。
信任是不同实体相互交互和做出决策的根本基础。因此,当可以安全地分发可靠的数据时,这意味着可以通过 Web3 服务进行许多交互和决策,各种实体都可以参与其中。这有助于最大限度地提高社会资本,我们可以想象以下一些用例。
2.2.1 服务/协议的应用程序
基于规则的自动化决策系统——协议使用关键参数来运行服务。定期调整这些参数以稳定服务状态并为用户提供最佳体验。但是,协议一直监控服务状态并及时动态更改参数并不容易。这就是链上数据管道的用武之地。链上数据管道可用于实时分析服务状态,并建议与服务要求相匹配的最佳参数集。(例如,为贷款协议应用自动浮动利率机制)
信贷市场——传统上,信贷已被用于金融市场中,以衡量个人的支付能力。这有助于提高市场效率。但是,Web3 市场中信贷的定义仍然不清楚。这是因为关于个人的数据稀缺,并且整个行业没有数据治理。因此,难以整合和收集信息。通过构建一个收集和处理碎片化的链上数据的流程,可以重新定义 Web3 市场中的信贷市场。(例如,Spectral的 MACRO(多资产信用风险预言机)评分)
去中心化社交/ NFT 扩展——去中心化社会优先考虑用户控制、隐私保护、抗审查和社区治理。这为现有社会提供了一种替代模式。因此,可以构建一个管道来更顺畅地控制和更新各种使用的元数据,并促进平台之间的迁移。
欺诈检测——使用智能合约的 Web3 服务容易受到恶意攻击,这些攻击可能窃取资金、入侵系统并导致脱锚和流动性攻击。通过创建一个提前检测这些攻击的系统,web3 服务可以准备快速响应计划并保护其用户免受伤害。
2.2.2 协作与治理倡议
完全链上的 DAO——去中心化自治组织 (DAO) 在很大程度上依赖链下工具来有效执行治理和公共资金。通过构建链上数据处理流程来创建 DAO 运营的透明流程,可以进一步加强 DAO 的 web3 原生价值观。
减轻治理疲劳——Web3 协议决策通常通过社区治理做出。然而,有许多因素可能使参与者难以参与治理,例如地理障碍、监控压力、治理所需的专业知识不足、随机发布治理议程以及不方便的 UX。如果可以创建一个工具来简化从理解到个人治理议程项目的实际实施的处理过程,那么协议治理框架可以更有效和高效地运行。
用于协作工作的开放数据平台——在现有的学术界和工业界中,许多数据和研究资料没有公开披露,这可能会使市场的整体发展非常低效。另一方面,链上数据池比现有市场更能促进协作倡议,因为它们是透明的,并且任何人都可以访问。众多代币标准和 DeFi 解决方案的开发就是很好的例子。此外,我们可以为各种目的运营公共数据池。
2.2.3 网络诊断
指数研究——Web3 用户创建各种指标来分析和比较协议的状态。可以实时研究和显示多个客观指标。(例如,Nakaflow 的 Nakamoto 系数)
协议指标——可以通过处理活动地址数、交易数、资产流入/流出以及网络中产生的费用等数据来分析协议的性能。此信息可用于评估特定协议更新的影响、MEV 的状态以及网络的运行状况。(例如,Glassnode 的上海后:到底发生了什么)
链上数据具有独特的优势,可用于增加行业的价值。但是,为了充分实现这些优势,必须解决行业内外的许多挑战。
缺乏数据治理——数据治理是建立一致和共享的数据策略和标准的过程,以促进每个数据原语的集成。目前,每个链上协议都建立了自己的标准并检索自己的数据类型。但是,问题在于,在聚合这些协议数据并向用户提供 API 服务的实体之间没有数据治理。这使得服务难以相互集成,因此,用户难以看到可靠而全面的见解。
成本效益低——将冷数据存储在协议中可以节省用户的数据安全和服务器成本。但是,如果需要经常访问数据以进行数据分析或需要大量计算能力,则将数据存储在区块链上可能不具有成本效益。
预言机问题——智能合约只有在可以访问来自真实世界的数据时才能完全实现。但是,此数据并不总是可靠或一致。与通过共识算法维护完整性的区块链不同,外部数据是不确定的。预言机解决方案必须不断发展,以确保外部数据的完整性、质量和可扩展性,而无需依赖特定的应用程序层。
协议尚不成熟——协议使用它们自己的代币来激励用户保持服务运行并支付服务费用。但是,运行协议所需的参数,例如服务用户的精确定义和激励方案,通常是以幼稚的方式管理的。这意味着协议的经济可持续性很难验证。如果许多协议有机地连接并创建数据管道,那么管道能否良好运行的不确定性将会更大。
数据检索时间慢——协议通常通过许多节点的共识来处理交易,与传统的 IT 业务逻辑相比,这可能会限制可以处理的速度和信息量。除非显着提高构成管道的所有协议的性能,否则这种类型的瓶颈会很难解决。
Web3 数据的真正价值——区块链是尚未连接到现实世界的孤立系统。从 Web3 收集数据时,我们需要考虑收集到的数据是否可以提供有意义的见解,足以支付构建数据管道的成本。
不熟悉的语法——现有的 IT 数据基础设施和区块链基础设施以截然不同的方式运行。即使使用的编程语言也不同,区块链基础设施通常使用低级语言或专为区块链的特定需求而设计的新语言。这使得新的开发人员和服务用户很难学习如何处理每个数据原语,因为他们需要学习一种新的编程语言或一种新的关于区块链数据的思维方式。
当前的 Web3 数据原语没有相互连接,它们独立地提取和处理数据。这使得很难尝试信息处理的协同作用。为了解决这个问题,本文介绍了 IT 市场中常用的数据管道,并将现有的 Web3 数据原语投射到管道中。这将使用例场景更加具体。
数据管道的构建就像概念化和自动化日常生活中重复决策过程的过程。通过这样做,人们可以随时接收到一定质量的必要信息,并将其用于决策。需要处理的非结构化数据越多,信息的使用频率越高,或者需要实时分析越多,通过自动化这些系列流程,可以在获得未来决策所需的主动性方面节省更多时间和成本。
上图显示了用于在现有 IT 基础设施市场中构建数据管道的通用架构。从正确的数据源收集适合分析目的的数据,并根据数据的性质和分析要求将其存储在适当的存储解决方案中。例如,数据湖为原始数据提供存储解决方案,以进行可扩展和灵活的分析,而数据仓库则专注于存储结构化数据,以进行针对特定业务逻辑优化的查询和分析。然后,将数据以各种方式处理成见解或处理成供实际使用的信息。
每一层解决方案也可以以打包服务的形式提供。ETL(提取、转换、加载)SaaS 产品组已经将从数据提取到加载的一系列流程连接起来,也越来越受到关注(例如,FiveTran、Panoply、Hivo、Rivery)。顺序并不总是一方面,并且这些层可以通过各种方式连接在一起,具体取决于组织的特定需求。构建数据管道时要记住的最重要的事情是,最大限度地减少将数据发送和接收到每一层服务器时可能发生的数据丢失的风险。这可以通过优化服务器的解耦程度以及使用可靠的数据存储和处理解决方案来完成。
如上图所示,可以将在前面介绍的数据管道的概念图应用于链上环境,但重要的是要注意,由于每个原语在某种程度上可能依赖于集中的链下解决方案,因此无法形成完全去中心化的管道。此外,上图目前不包括所有 Web3 解决方案,并且分类的边界可能不明确——例如,KYVE 除了流媒体平台外,还包括数据湖的功能,它可以被视为数据管道本身。此外,Space and Time 被归类为去中心化数据库,但它提供 RestAPI 和流媒体等 API 网关服务,以及 ETL 服务。使用上图时请考虑这些限制。
3.2.1 捕获/处理
为了让普通用户或 dApp 能够高效地使用/操作服务,他们需要能够轻松识别和访问主要在协议内生成的数据源,例如交易、状态和日志事件。这一层是中间件在帮助这个过程(包括预言机、消息传递、身份验证和 API 管理)中发挥作用的一步。主要解决方案如下。
流媒体/索引平台
节点即服务和其他 RPC/API 服务
预言机
3.2.2 存储
Web3 存储解决方案比 Web2 存储解决方案具有多个优势,例如持久性*和去中心化。但是,它们也有一些缺点,例如成本高以及更新和查询数据困难。因此,已经出现了各种解决方案,可以解决这些缺点并能够在 Web3 上高效处理结构化和动态数据——每个解决方案的特性各不相同,例如处理的数据类型、是否结构化以及是否具有嵌入式查询功能。
去中心化存储网络
去中心化数据库
* 每个协议都有不同的永久存储机制。例如,Arweave 是一种基于区块链的模型,类似于以太坊存储,并将数据永久存储在链上,而 Filecoin、Sia 和 Storj 是基于合约的模型,将数据存储在链下。
3.2.3 转换
在 Web3 的背景下,转换层预计将与存储层一样重要。这是因为区块链的结构基本上由分布式节点的集合组成,这使得可以通过横向扩展来实现后端逻辑。在人工智能行业,人们正在积极努力探索使用这些优势的联邦学习*领域,并且还出现了专门用于机器学习和人工智能操作的协议。
数据训练/建模/计算
* 联邦学习是一种通过在多个本地客户端上分发原始模型、使用存储的数据对其进行训练,然后将学习到的参数收集在中央服务器上来训练人工智能模型的方法。
3.2.4 分析/使用
下面列出的最终用户的仪表板服务和见解与分析解决方案是允许用户观察和从特定协议中发生的所有事件中获得各种见解的平台。其中一些解决方案还为最终产品提供 API 服务。但是,重要的是要注意,这些解决方案中的数据并不总是准确的,因为它们中的大多数使用单独的链下工具来存储和处理数据。还可以观察到解决方案之间的错误。
同时,有一个名为“Web3 Functions”的平台,可以自动/触发智能合约的执行,就像 Google Cloud 等中心化平台触发/执行特定的业务逻辑一样。使用此平台,用户可以通过 Web3 原生方式实现业务逻辑,而不仅仅是通过处理链上数据来获得见解。
仪表板服务
最终用户的见解与分析
Web3 函数
资料来源:伊曼纽尔·康德的《纯粹理性批判》
正如康德所说,我们可能只能目击事物的现象,而不是它们的本质。尽管如此,我们已经使用称为“数据”的观察记录来处理信息和知识,并且我们已经看到信息技术的创新如何发展文明。因此,在 Web3 市场中构建数据管道(除了去中心化的特性之外,预计还具有各种价值),可以作为实际抓住这些机会的关键起点。我想用一些最后的想法来结束本文。
拥有数据管道的最重要的先决条件是建立数据和 API 治理。在一个日益多样化的生态系统中,每个协议创建的规范将不断被重新创建,并且通过多链生态系统的零散的交易记录将使个人更难获得集成的见解。然后,“存储解决方案”是通过收集零散的信息和更新每个协议的规范,以统一格式提供集成数据的最佳实体。我们观察到现有市场中的 Snowflake 和 Databricks 等存储解决方案正在通过庞大的客户群迅速增长,通过运营管道中的各个层进行垂直整合,并引领行业。
当数据变得更易于访问并且对其进行处理的过程得到改进时,成功的用例就会开始出现。这会产生飞轮效应,其中数据源和收集工具呈爆炸式增长——自 2010 年代以来,随着构建数据管道的技术取得了巨大的进步,每年收集的数字数据的类型和数量呈指数增长。将这种背景应用于 Web3 市场,未来可以在链上递归地生成许多数据源。这也意味着区块链将扩展到各个商业领域。在这一点上,我们可以预计通过 Ocean Protocol 等数据市场或 Helium 和 XNET 等 DeWi(去中心化无线)解决方案以及存储解决方案来推进数据采购。
但是,最重要的是不断地问准备哪些数据来提取真正需要的见解。没有什么比为了构建一个没有明确的要验证的假设而构建的数据管道更浪费的了。现有市场已经通过构建数据管道实现了无数的创新,但它也通过重复毫无意义的失败而牺牲了无数的成本。就技术堆栈的发展进行建设性的讨论也很好,但行业需要时间来思考和讨论更根本的话题,例如应该将哪些数据存储在块空间中,或者数据应该用于什么目的。“目标”应该是通过可操作的智能和用例来实现 Web3 的价值,并且在这个过程中,开发多个原语和完成管道是实现该目标的“手段”。
感谢 Kate 为此文章设计图形。
- 原文链接: 4pillars.io/en/articles/...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!