微软AI研究部门意外泄露38TB敏感数据

自 2020 年 7 月以来,微软 AI 研究人员意外通过公共 GitHub 存储库泄露了 38TB 的敏感数据。
网络安全公司 Wiz 发现,微软 AI 研究部门在 GitHub 上发布一桶开源训练数据时,意外泄露了 38TB 的敏感数据。
暴露的数据暴露了两名员工工作站的磁盘备份,其中包含机密、私钥、密码和超过 30,000 条内部 Microsoft Teams 消息。
“研究人员使用名为 SAS 令牌的 Azure 功能共享他们的文件,该功能允许您共享来自 Azure 存储帐户的数据。” Wiz 发布的报告中写道:“访问级别可以仅限于特定文件;然而,在这种情况下,该链接被配置为共享整个存储帐户 – 包括另外 38TB 的私人文件。”
Wiz 研究团队在扫描互联网以查找暴露云托管数据的配置错误的存储容器时发现了该存储库。专家们在 GitHub 上找到了一个名为 robust-models-transfer
.
该存储库属于微软的人工智能研究部门,该部门使用它来提供用于图像识别的开源代码和人工智能模型。微软人工智能研究团队于 2020 年 7 月开始发布数据。
Microsoft 使用 Azure SAS 令牌来共享其研究团队使用的 Azure 存储帐户中存储的数据。
用于访问存储库的 Azure 存储签名 URL 被错误配置为授予整个存储帐户的权限,从而暴露私有数据。


“但是,这个 URL 不仅仅允许访问开源模型。它被配置为授予整个存储帐户的权限,从而错误地暴露了其他私人数据。” 公司继续。“共享人工智能数据集的简单步骤导致了重大数据泄露,其中包含超过 38TB 的私人数据。根本原因是使用 Account SAS 代币作为共享机制。由于缺乏监控和治理,SAS 代币存在安全风险,应尽可能限制其使用。”
Wiz 指出,SAS 令牌无法轻松跟踪,因为微软没有提供在 Azure 门户中管理它们的集中方式。
微软表示,数据主管并未公开客户数据。
“没有客户数据被泄露,也没有其他内部服务因为这个问题而面临风险。客户无需针对此问题采取任何行动。”
以下是本次安全事件的时间线:
- 2020 年 7 月 20 日 – SAS 密钥首次 提交 至 GitHub;到期日为 2021 年 10 月 5 日
- 2021 年 10 月 6 日 – SAS 令牌到期日期 更新 为 2051 年 10 月 6 日
- 2023 年 6 月 22 日 – Wiz Research 发现问题并向 MSRC 报告
- 2023 年 6 月 24 日 – SAS 令牌被 Microsoft 无效
- 2023 年 7 月 7 日– GitHub 上的 SAS 令牌 被替换
- 2023 年 8 月 16 日 – Microsoft 完成潜在影响的内部调查
- 2023 年 9 月 18 日 – 公开披露