Bluesky 已經面臨著第一次重大的人工智慧困境,儘管其所有者的立場是它會關於用戶數據。
報道者404媒體11 月 26 日,100 萬個公開 Bluesky 貼文(包含識別用戶資訊)被抓取,然後上傳到人工智慧公司 Hugging Face。該資料集由機器學習圖書館員 Daniel van Strien 創建,旨在用於語言模型和自然語言處理的開發,以及社交媒體趨勢、內容審核和發布模式的一般分析。它包含使用者的去中心化識別碼(DID),甚至還具有搜尋功能來尋找特定使用者的內容。
根據資料集的描述,該集「包含從Bluesky Social 的Firehose API(應用程式介面)收集的100 萬個公開帖子,旨在用於機器學習研究和社交媒體資料實驗。每個帖子包含文字內容、元資料和有關媒體的資訊附件和回复關係。
可混搭光速
Bluesky 用戶沒有選擇對其內容進行此類使用,但 Bluesky 也沒有明確禁止。該平台的 Firehose API 是“網絡中發生的所有公共數據更新的聚合的、按時間順序排列的流,包括帖子、點讚、關注、處理更改等。” 404Media 解釋說,Bluesky 的 API 加上該網站所基於的公共和去中心化身份驗證傳輸 (AT) 協議,意味著 Bluesky 內容是開放的,可供該平台試圖吸引的第三方開發人員使用。
對於該網站數百萬新用戶中的許多人來說,這可能是一個重要的警告信號,其中許多人在 X 事件發生後離開了競爭對手 X。。 Bluesky 代表回應了404Media 的置評請求:「Bluesky 是一個開放的公共社交網絡,就像互聯網本身上的網站一樣。正如robots.txt 檔案並不總是阻止外部公司抓取這些網站一樣,這同樣適用這裡我們希望找到一種方式讓 Bluesky 用戶與外部組織/開發者溝通是否同意這一點,以及外部組織尊重用戶的同意,我們正在積極討論如何實現這一目標。
文章發表後不久,資料集就從 Hugging Face 中刪除。 「我已經從儲存庫中刪除了Bluesky 數據。雖然我想支持該平台的工具開發,但我認識到這種方法違反了數據收集中的透明度和同意原則。我為這個錯誤道歉,」van Strien 在後續文章中寫道-向上藍天郵報。