本文讨论了在加密领域衡量影响力的困难,以及在资源分配、激励设计和结果评估中避免将相关性误认为因果关系的重要性。文章提出了一个实用的因果思维框架,强调了在缺乏理想实验条件时,如何通过定义目标、提前进行测量,并采用回归不连续性或合成控制等方法,更准确地评估各种措施(如激励计划、空投、追溯性融资)的实际效果。文章还展示了Optimism Collective如何使用这些方法来洞察生态系统中的影响。
我们都喜欢听故事,尤其是在加密领域,快速的变化和开放的数据让我们很容易找到规律并得出结论。一项激励计划启动了,随之而来的是新的地址。一个协议升级上线了,使用量激增。人们很容易将关键指标的任何变化归因于最明显的干预措施。但是,如果没有一个结构化的衡量方法,这些假设充其量是脆弱的,最坏的情况是具有误导性的。
这些不仅仅是学术问题,它们触及了我们如何分配资源、设计激励机制和评估结果的核心。正确地回答这些问题对于 Collective 的长期成功至关重要,以确保我们奖励正确的建设者,并支持推动可持续生态系统增长的贡献。
在一个像加密货币这样复杂且快速发展的领域,相关性经常被误认为是因果关系。正如 Randall Munroe 在他的一个 xkcd 漫画中幽默地描绘的那样,很容易在数据中看到模式并认为它们是有意义的,即使它们只是巧合。
在 Optimism Collective,我们采取一种刻意实验性和因果性的思维模式。我们设计测量系统并进行实验,以超越表面指标,以便我们可以更快地迭代、做出更好的决策并构建真正有效的东西。
想象一下,在精英运动员参加比赛前给他们苹果,看到他们跑得很快,然后得出结论苹果让他们跑得这么快。但他们可能一开始就跑得很快。如果没有适当的反事实(没有苹果会发生什么),我们就有可能将相关性误认为是因果关系。
同样的事情也发生在加密领域。
以根据用户的 gas 费用支出进行激励为例。在这个简化的场景中,x 轴代表支付的 gas 费用,y 轴代表用户留存率。假设资格基于跨越一定的 gas 费用阈值(实际上,标准通常更复杂)。目标是评估接收激励是否能提高留存率。
注意:此数据仅用于说明目的
乍一看,似乎在 gas 上花费更多的用户也会停留更长时间,这表明激励措施正在发挥作用。但这种关系可能会产生误导。那些跨过阈值的人可能已经更积极参与,即使没有激励也会留下来。
这就是选择偏差:我们比较的是根本不同的群体。激励措施可能看起来有效,但观察到的影响可能完全是由先前存在的差异驱动的,而不是项目本身。
虽然回归算法非常擅长识别相关性和预测增长趋势,但理解为什么会发生某些事情要困难得多。然而,因果问题在 Superchain 生态系统中无处不在。以下是一些例子:
类别 | 示例问题 |
协议设计 | 更便宜的交易费用是否导致更多的用户和链上活动? |
追溯性资助 | 追溯性资助对开发者活动、链上贡献或 TVL 有什么影响? |
空投 | 收到空投的人是否比未收到空投的人表现出更高的留存率? |
增长活动 | 一项活动是否增加了 TVL,或者它是否无论如何都会增长? |
治理 | 审议是否会使得决策更明智或更少极化? |
虽然衡量因果影响很困难,但这是一个值得应对的挑战,许多其他领域,从使用随机评估为纳税人节省数百万美元的公共政策,到构建非实验因果推理工具来衡量新工具收益的科技公司,都已经面临并克服了。
我们不需要从头开始。我们可以借鉴经过验证的方法和真实世界的例子,来构建更智能、更负责任的系统。为此,我们需要一种既实用又易于理解的、关于因果关系的共同思考方式。
在开放系统中衡量影响是困难的,但是当我们以正确的思维方式进行衡量时,就会变得容易一些。下面是一个用于因果思考的实用框架,即使我们无法进行完美的实验。
在做任何事情之前,我们应该问自己:“这旨在为哪个决策提供信息?” 这个想法来自 Optimism 的 实验优先级框架,该框架建议专注于直接为可操作的决策提供信息的实验(或衡量标准)。
同样重要的是明确我们将如何衡量成功。对于我们关心的结果(留存率、增长、收入、去中心化),哪个指标最重要?我们是在优化短期峰值,还是长期可持续性?预先有一个清晰的、共同的定义,可以确保我们的分析与真正重要的事情保持一致。
人们很容易在某个举措已经启动后才定义衡量标准。这样做会为事后挑选指标或合理化结果打开大门。相反,我们应该将衡量标准设计视为举措本身的一部分:尽早计划,与手头的决策紧密结合,并从一开始就融入执行中。
我们可以使用下面的决策树来确保我们的研究主题和衡量工作实际上是有用的。
在一个完美的世界里,我们会尽可能地进行随机实验,以干净利落地隔离任何干预措施的效果。然而,在现实中,这很少是可行的。像空投、追溯性资助、流动性挖矿和新功能发布这样的项目会同时影响整个生态系统,因此很难创建干净的对照组。
尽管如此,我们仍然可以从结构化的观察中学习。当随机性不可能时,像回归不连续性或合成控制这样的方法有助于估计影响。即使是非因果工具,如描述性趋势、网络分析、情绪跟踪和模拟,如果在谨慎解释的情况下,也可以提供有价值的见解。
关键是为问题选择正确的方法,并对我们能够(和不能)得出什么结论保持诚实。
有很多因果推理方法,每种方法都适用于不同的数据和决策环境。为了帮助决定使用哪种方法,下面的图表(虽然不详尽)根据两个因素概述了不同的分析方法:
(1)因果推理的强度,以及(2)数据要求。
以下是这些方法含义的快速指南:
方法 | 描述 | 优点 | 缺点 |
探索性分析 | 趋势分析、仪表板、前后指标 | 有助于生成假设和识别潜在信号 | 不能控制混淆变量——无法建立因果关系 |
回归不连续性 (RDD) | 比较刚好高于和低于阈值的结果 | 如果阈值是清晰的,并且其他因素在其上是平滑的,则可以近似因果推理 | 需要一个明确定义的阈值和周围足够的数据 |
合成控制 | 使用未暴露于该处理的类似实体的加权组合来构建反事实 | 当随机实验不可能时很有用;可以对复杂的干预进行建模 | 需要许多可比的控制实体和强假设 |
随机实验(A/B 测试) | 随机地将处理分配给用户或实体以隔离影响 | 因果推理的黄金标准;确保差异是由于干预造成的 | 在某些情况下,可能很昂贵、缓慢或不可行 |
在下一节中,我们将通过一些来自 Superchain 生态系统的案例研究,这些案例应用不同的方法来评估资产影响并发现见解。
虽然并非每个举措都是以实验设计为出发点启动的,但我们仍然可以使用周到的分析方法从中学习。以下是 Superchain 生态系统中的一些例子,尽管设置不完善,但我们还是试图更好地理解真实影响。
例子 | 分析类型 | 方法 |
OP 奖励计划探索性分析 | 观察性 | 探索性和纵向分析 |
空投保留分析 | 准实验性 | 回归不连续性 (RDD) |
追溯性资助影响衡量 | 准实验性 | 合成控制 |
我们将在下面更详细地解释它们中的每一个。
我们在 OP 奖励分析更新 中评估了 OP 奖励计划在 3 个季度中的有效性。这些计划在设计、目标和协议上各不相同,因此我们没有旨在获得统一的因果估计,而是采取了一种探索性的方法,分析了激励期间和计划结束后 30 天内的表现。目标是识别和比较不同实现的保留率、使用率和潜在的战略权衡。但是,重要的是要注意,我们不能将观察到的 TVL 或使用量的增长完全归因于奖励计划。
为了克服混淆的问题,并估计空投 5 对后续保留地址的影响,我们使用回归不连续性设计来理解围绕任意阈值/边界的干预措施的有效性——在本例中,地址刚好高于或低于 50 OP 阈值。
结果表明,与没有收到空投的类似地址相比,收到空投导致 30 天保留率增加了 4.2 个百分点 (pp),60 天保留率增加了 2.8 个百分点。
来源:OP 空投 5 是否提高了用户保留率?回归不连续性分析
Open Source Observer (OSO) 使用合成控制来估计,如果受奖励的项目没有获得资助会发生什么。通过构建一个来自同行生态系统的类似项目的加权组合,我们可以使用一个反事实来与实际结果进行比较,从而在缺乏随机性的情况下,对项目有效性进行评估。
Optimism Collective 应该继续将这些方法应用于生态系统项目,从激励设计到治理再到开发者资助。加密货币特别强大的原因是它能够实时地进行测试和学习。借助大量的公共链上数据,我们拥有独特的机会来大规模地研究人类行为、协调、激励响应和治理,就像大数据改变了我们今天理解互联网并为其构建的方式一样。
这是一个持续的迭代和学习过程,每一步都使我们更接近于开发一种更强大和系统的方法来理解真正推动影响的因素。
- 原文链接: optimism.io/blog/lessons...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!