100 萬個 Bluesky 公開貼文因 AI 訓練而被刪除

Bluesky 已經面臨著第一次重大的人工智慧困境，儘管其所有者的立場是它會關於用戶數據。

報道者404媒體11 月 26 日，100 萬個公開 Bluesky 貼文（包含識別用戶資訊）被抓取，然後上傳到人工智慧公司 Hugging Face。該資料集由機器學習圖書館員 Daniel van Strien 創建，旨在用於語言模型和自然語言處理的開發，以及社交媒體趨勢、內容審核和發布模式的一般分析。它包含使用者的去中心化識別碼（DID），甚至還具有搜尋功能來尋找特定使用者的內容。

根據資料集的描述，該集「包含從Bluesky Social 的Firehose API（應用程式介面）收集的100 萬個公開帖子，旨在用於機器學習研究和社交媒體資料實驗。每個帖子包含文字內容、元資料和有關媒體的資訊附件和回复關係。

可混搭光速

Bluesky 用戶沒有選擇對其內容進行此類使用，但 Bluesky 也沒有明確禁止。該平台的 Firehose API 是“網絡中發生的所有公共數據更新的聚合的、按時間順序排列的流，包括帖子、點讚、關注、處理更改等。” 404Media 解釋說，Bluesky 的 API 加上該網站所基於的公共和去中心化身份驗證傳輸 (AT) 協議，意味著 Bluesky 內容是開放的，可供該平台試圖吸引的第三方開發人員使用。

對於該網站數百萬新用戶中的許多人來說，這可能是一個重要的警告信號，其中許多人在 X 事件發生後離開了競爭對手 X。。 Bluesky 代表回應了404Media 的置評請求：「Bluesky 是一個開放的公共社交網絡，就像互聯網本身上的網站一樣。正如robots.txt 檔案並不總是阻止外部公司抓取這些網站一樣，這同樣適用這裡我們希望找到一種方式讓 Bluesky 用戶與外部組織/開發者溝通是否同意這一點，以及外部組織尊重用戶的同意，我們正在積極討論如何實現這一目標。

文章發表後不久，資料集就從 Hugging Face 中刪除。「我已經從儲存庫中刪除了Bluesky 數據。雖然我想支持該平台的工具開發，但我認識到這種方法違反了數據收集中的透明度和同意原則。我為這個錯誤道歉，」van Strien 在後續文章中寫道-向上藍天郵報。

Also Read

NYT Strands 10 月 4 日的提示和答案

該應用程式會阻止社交媒體，直到您起床工作為止

OpenAI 意外刪除了《紐約時報》版權訴訟案中的潛在證據

前白宮AI負責人：這是保護孩子免受傷害的方法

在 Target 購買 Beats Solo 4 Minecraft Edition 耳機半價

今日 NYT Connections 體育版：11 月 6 日的提示和答案