Mercor数据泄露：4万AI承包商生物识别信息被盗，语音克隆威胁升级

2026年4月4日，臭名昭著的勒索组织Lapsus$在其泄露网站上公布了AI训练数据公司Mercor的数据。据泄露样本索引显示，该数据包包含约4TB的数据，涵盖超过4万名承包商的语音生物识别信息和政府签发的身份证件。

这些承包商此前签约参与数据标注、朗读录音和验证电话等AI训练工作。Mercor的承包商入职流程要求提供护照或驾驶执照扫描件、网络摄像头自拍，以及在安静环境中朗读脚本提示的录音。

据《华尔街日报》2026年2月报道，目前市面上高质量语音克隆工具仅需约15秒的清晰参考音频即可生成逼真的语音。而Mercor泄露的录音据报每人平均有2至5分钟的录音室级清晰语音，远超这一阈值。

此次泄露之所以引发特别关注，是因为它将两种通常分离的数据类别合并在一起：

语音生物识别数据：大多数过去的语音泄露要么是呼叫中心被攻破但录音难以映射到个人身份，要么是身份证件经纪人泄露了驾照和自拍但没有音频。而Mercor将两者合并在同一数据库的同一行记录中。

精确的身份验证信息：攻击者不仅获得了用于克隆语音的音频素材，还获得了经过验证的身份证明文件——这正是将克隆语音投入实际使用所需的凭证。

安全专家警告，此次泄露可能导致以下威胁：

泄露发布后十天内，已有五起承包商诉讼被提起。原告主张，该公司以"训练数据"的名义收集语音指纹，但未明确告知这些数据同时也是永久性的生物识别标识符。

此次事件再次凸显AI训练数据供应链中的安全风险。随着AI行业对标注数据需求的爆炸式增长，成千上万的数据标注员将其生物识别信息交给了第三方平台，而这些平台的安全防护水平参差不齐。

安全分析师呼吁，行业需要建立更严格的数据保护标准，特别是针对涉及生物识别信息的AI训练数据采集和存储流程。

Mercor数据泄露：4万AI承包商生物识别信息被盗，语音克隆威胁升级#