100 万个 Bluesky 公共帖子因 AI 训练而被删除

Bluesky 已经面临着第一次重大的人工智能困境,尽管其所有者的立场是它会关于用户数据。

报道者404媒体11 月 26 日,100 万条公共 Bluesky 帖子(包含识别用户信息)被抓取,然后上传到人工智能公司 Hugging Face。该数据集由机器学习图书馆员 Daniel van Strien 创建,旨在用于语言模型和自然语言处理的开发,以及社交媒体趋势、内容审核和发布模式的一般分析。它包含用户的去中心化标识符(DID),甚至还具有搜索功能来查找特定用户的内容。

根据数据集的描述,该集“包含从 Bluesky Social 的 Firehose API(应用程序编程接口)收集的 100 万个公共帖子,旨在用于机器学习研究和社交媒体数据实验。每个帖子包含文本内容、元数据和有关媒体的信息附件和回复关系。”

可混搭光速

Bluesky 用户没有选择对其内容进行此类使用,但 Bluesky 也没有明确禁止。该平台的 Firehose API 是“网络中发生的所有公共数据更新的聚合的、按时间顺序排列的流,包括帖子、点赞、关注、处理更改等。” 404Media 解释说,Bluesky 的 API 加上该网站所基于的公共和去中心化身份验证传输 (AT) 协议,意味着 Bluesky 内容是开放的,可供该平台试图吸引的第三方开发商使用。

对于该网站数百万新用户中的许多人来说,这可能是一个重要的警告信号,其中许多人在 X 事件发生后离开了竞争对手 X。。 Bluesky 代表回应了 404Media 的置评请求:“Bluesky 是一个开放的公共社交网络,就像互联网本身上的网站一样。正如 robots.txt 文件并不总是阻止外部公司抓取这些网站一样,这同样适用于这里我们希望找到一种方式让 Bluesky 用户与外部组织/开发者沟通是否同意这一点,以及外部组织尊重用户的同意,我们正在积极讨论如何实现这一目标。”

文章发表后不久,该数据集就从 Hugging Face 中删除。 “我已经从存储库中删除了 Bluesky 数据。虽然我想支持该平台的工具开发,但我认识到这种方法违反了数据收集中的透明度和同意原则。我为这个错误道歉,”van Strien 在后续文章中写道-向上蓝天邮报