100 万个 Bluesky 公共帖子因 AI 训练而被删除

Bluesky 已经面临着第一次重大的人工智能困境，尽管其所有者的立场是它会关于用户数据。

报道者404媒体11 月 26 日，100 万条公共 Bluesky 帖子（包含识别用户信息）被抓取，然后上传到人工智能公司 Hugging Face。该数据集由机器学习图书馆员 Daniel van Strien 创建，旨在用于语言模型和自然语言处理的开发，以及社交媒体趋势、内容审核和发布模式的一般分析。它包含用户的去中心化标识符（DID），甚至还具有搜索功能来查找特定用户的内容。

根据数据集的描述，该集“包含从 Bluesky Social 的 Firehose API（应用程序编程接口）收集的 100 万个公共帖子，旨在用于机器学习研究和社交媒体数据实验。每个帖子包含文本内容、元数据和有关媒体的信息附件和回复关系。”

可混搭光速

Bluesky 用户没有选择对其内容进行此类使用，但 Bluesky 也没有明确禁止。该平台的 Firehose API 是“网络中发生的所有公共数据更新的聚合的、按时间顺序排列的流，包括帖子、点赞、关注、处理更改等。” 404Media 解释说，Bluesky 的 API 加上该网站所基于的公共和去中心化身份验证传输 (AT) 协议，意味着 Bluesky 内容是开放的，可供该平台试图吸引的第三方开发商使用。

对于该网站数百万新用户中的许多人来说，这可能是一个重要的警告信号，其中许多人在 X 事件发生后离开了竞争对手 X。。 Bluesky 代表回应了 404Media 的置评请求：“Bluesky 是一个开放的公共社交网络，就像互联网本身上的网站一样。正如 robots.txt 文件并不总是阻止外部公司抓取这些网站一样，这同样适用于这里我们希望找到一种方式让 Bluesky 用户与外部组织/开发者沟通是否同意这一点，以及外部组织尊重用户的同意，我们正在积极讨论如何实现这一目标。”

文章发表后不久，该数据集就从 Hugging Face 中删除。 “我已经从存储库中删除了 Bluesky 数据。虽然我想支持该平台的工具开发，但我认识到这种方法违反了数据收集中的透明度和同意原则。我为这个错误道歉，”van Strien 在后续文章中写道-向上蓝天邮报。

Also Read

如何在没有有线电视的情况下观看 Ole Miss 对阵阿肯色州的足球比赛

NASA测试刚刚证明可以在月球上拾取GPS信号

“另一个简单的宠爱”评论：布雷克·莱弗利（Blake Lively）处于最佳状态和疯狂

Spotify Wrapped 何时开始追踪 2025 年？我们所知道的。

除了一个未选中的复选框外，连接 WiFi 的 Instant Pot Pro Plus 基本上能承受压力

Apple Intelligence 已经需要比以前更多的 iPhone 存储空间