Web3 中的深度伪造、声音克隆和社会工程

本文讨论了攻击者如何利用深度伪造和克隆声音来伪造签名和欺骗 Web3 用户,从而窃取钱包资金。文章深入分析了AI诈骗如何利用Web3中的信任机制,并探讨了应对这些威胁的防御策略,包括内容溯源、异常检测、双通道验证和活体检测等技术手段。

AI 钓鱼系列:第三部分 - Deepfakes、声音克隆和 Web3 中的社会工程

攻击者使用 deepfakes 和克隆的声音来伪造代言并耗尽钱包。 了解 AI 诈骗如何利用 Web3 的信任以及如何阻止它们。

AI Phishing Series: Part 3 - Deepfakes, Voice Clones, and Social Engineering in Web3

2025-06-07 - 11 分钟阅读

作者:Simeon Cholakov & Niccolo Pozzolini

OpsecWeb3 安全

threesigma's twitterthreesigma's linkedinthreesigma's github

服务
支持
信息

Meme 币中的 GAN 和 Diffusion

今天的攻击者可以抓取网红视频的几秒钟(例如,来自 YouTube 或 TikTok),并使用这些帧来微调一个生成模型。 通过在目标的面部和风格上训练一个 LoRA(低秩自适应)适配器,攻击者将小的可训练矩阵注入到一个预训练的 diffusion 网络中。 这有效地“锁定”了网红的形象,而无需重新训练整个模型。 在实践中,人们可能会使用像 OneShotLoRA 这样的服务来上传网红的短片并获得一个专业的图像模型。 有了这个模型,攻击者运行一个标准的 diffusion 流程:将噪声编码到 latent 空间中,迭代地去噪,以“InfluencerName 宣布独家 NFT 发售”等提示为条件,最后解码到 RGB 帧。 这些帧可以被排序成一个短的宣传视频。 可选地,可以使用特定于视频的 diffusion 网络或时间平滑来确保帧与帧之间的一致性。 结果是一个令人信服的伪代言宣传,根据需要配有网红的脸部和声音克隆。

  • 帧提取: 从网红现有的视频中采样关键帧,将脸部和手与各种背景隔离。 通过对齐和裁剪来预处理,以专注于主体。
  • LoRA 微调: 将可训练的秩限制权重矩阵注入到 diffusion 模型的注意力层中。 只有 LoRA 的权重在训练期间更新,使模型的输出适应以模仿网红的特征。 因为 LoRA 是轻量级的,所以可以在少量图像上进行训练,而无需昂贵的计算。
  • Diffusion 生成: 运行带有文本或图像提示的去噪 diffusion 过程。 例如,提示模型生成网红谈论新的 NFT 或 token 白名单的帧。 该模型产生反映网红的肖像和语气的高分辨率帧。
  • 视频组装: 将生成的帧缝合到视频中,应用插值或帧级别 diffusion 细化以平滑运动。 一些流程甚至使用二级“视频 diffusion”步骤(例如,训练内容运动 latent diffusion 模型)来加强时间一致性。

然后,这种伪造的内容可以被注入到社交 token 生态系统中。 例如,攻击者可能会发布一个 deepfake “AMA” 视频或新闻通讯图像,声称一个经过验证的网红正在支持一个新的 ERC‑20 token 或 NFT 白名单。 由于社交 token 通常依赖于网红营销,这些虚假代言可能会突然引发炒作。 事实上,有报告指出,AI 驱动的诈骗正在使用 deepfakes 来用围绕特定加密 token 的虚假代言和炒作来淹没社交媒体。 通过用病毒视频扩大“拉盘”叙事,诈骗者可以在骗局被发现之前推动社区货币的拉盘和抛售,或者 rug pull NFT 预售。

声音克隆诈骗

image

在音频领域,攻击者利用先进的声音克隆流程来冒充受信任的人物。 现代系统的工作原理是将目标语音转换为类似频谱图的特征表示,提取诸如音色、音高轮廓和韵律之类的参数,然后通过神经声码器馈送噪声以产生语音。 例如,富有表现力的神经声音克隆模型通过 latent 风格 token 对音高和情感进行编码,并显式地对说话者的音高轮廓进行建模。 仅需几秒钟的某人的声音(从公共视频、旧电话或泄露的录音中捕获),攻击者就可以训练出一种合成声音,该声音可以非常出色地模仿该人的频谱指纹。

这项技术是 2025 年初香港一宗案件的核心:诈骗者入侵了一名财务经理的账户,并使用 AI 生成的他的声音 deepfake 来传递 WhatsApp 指令。 受害者收到了据称来自经理的语音备忘录“指示”,指导他们发送加密货币 (USDT) 付款。 因为语气、语调甚至音高轮廓都与真实经理的风格相符,所以受害者服从了并在几次交易中汇出了约 1.45 亿港元。 只有在钱消失后,他们才意识到声音是完全合成的。

从技术角度来看,攻击者的音频工作流程包括:

  • 特征提取: 将目标的语音样本转换为 log-mel 频谱图(以及可能的其他韵律特征)。 这些频谱特征捕获了声音的共振峰和拐点。
  • 模型训练: 使用提取的特征微调文本到语音或语音转换模型(或使用像“Nautilus”或自适应 TTS 中的 few-shot 说话人编码器)。 该网络学习重现声音的音高轮廓和音色。
  • 合成: 输入脚本化的交易指令(文本或音素)以生成音频文件。 神经声码器(例如,WaveNet 变体)将修改后的频谱图转换回波形,现在听起来像目标说话者。
  • 传递: 通过即时消息通道或电话发送合成语音片段,绕过传统的身份验证。

至关重要的是,这种攻击取决于“首次使用时的信任”(TOFU)。 受害者没有第二通道检查、快速回拨、文本代码或类似的带外验证,因此假声音被认为是理所当然的。 要求额外的通道是阻止声音克隆诈骗的最简单有效的方法之一。

“预共享语音打印”是注册的生物识别模板,而“带外验证”是指通过其他渠道确认请求。

克隆的声音只是通过了身份验证:正如一项分析指出的那样,今天的 AI 克隆可以“足够接近”地匹配存储的生物识别模板,以通过被动和主动语音检查。 换句话说,传统的语音验证系统假定人类语音变化,并且根本没有预料到对手可以完美地模仿人的频谱签名。 一旦受害者相信 deepfake 声音是真实的,就不会发出额外的质询。

为了击败此类诈骗,防御者会查看频谱图分析和音高模式异常。 取证可能会将消息的音高轮廓与历史记录进行比较,或者运行经过训练的反欺骗模型来发现神经合成的残留伪像。 但是正如 [6] 报告的那样,现代 TTS 克隆通常会产生比真人“更干净”和更稳定的语音(具有讽刺意味的是),这使得纯粹的声学检测变得困难。 在 DAO 环境中,任何依赖语音呼叫进行身份验证的系统都将同样容易受到攻击,除非它实施质询-响应或活跃性测试。

检测与缓解工具

在 Web3 中打击 AI 冒充需要来源和异常检测。 一个关键策略是内容认证:在创建时嵌入防篡改元数据。 像 Adobe 的内容认证倡议 (CAI) 和 C2PA 标准之类的倡议定义了内容凭证,这是一项资产的来源、编辑和 AI 使用的签名记录。 此凭证包括内容的加密哈希、创建工具的描述和编辑历史记录。 实际上,生成器(例如,图像编辑器)可以将此 JSON 清单附加到 JPEG 或视频。 清单的完整性受到 Merkle 树哈希和数字签名的保护。

对于 Web3,可以将这些哈希发布到链上以巩固 lineage。 例如,画廊 NFT 可以在其 mint 交易中存储原始图像的内容凭证的哈希。 任何以后声称该图像是真实的说法都可以通过从当前文件重新计算哈希并将其与链上记录进行比较来验证。 因此,区块链提供了一个公共公告板:一旦记录了 provenance 证书的根哈希,任何篡改文件(或其声称的编辑历史记录)都会破坏哈希链。 开放标准允许不同的工具互操作:CAI/C2PA 清单可以嵌入到标准元数据字段 (XMP/IPTC) 中,或者可以使用链上指针在链下建立索引 g

Provenance 元数据无法盖印到实时展开的流上,因此防御转移到带外验证和活跃性质询。 当高危请求通过呼叫或视频到达时,暂停并通过你已经信任的第二个独立渠道(电子邮件、安全聊天或回拨到文件中的号码)确认它。 将其与快速活跃性测试配对,要求呼叫者重复一个随机密码,移动相机以显示特定对象,或发送一次性代码,预渲染的 deepfake 无法即时满足这些步骤。 这些简单的双通道或质询-响应检查是阻止实时语音克隆或视频克隆诈骗的最实用的方法。

  • 原文链接: threesigma.xyz/blog/opse...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
Three Sigma
Three Sigma
Three Sigma is a blockchain engineering and auditing firm focused on improving Web3 by working closely with projects in the space.