報告：成千上萬的有害AI聊天機器人威脅次要安全

新報告詳細介紹瞭如何創建和共享有害的AI聊天機器人，儘管假設了護欄。圖片來源：Tero Vesalainen / Istock / Getty Images Plus通過Getty Images

角色聊天機器人是一種多產的在線安全威脅。角色。

出版Graphika，社交網絡分析公司，學習記錄了互聯網上最受歡迎的AI角色平台中有害聊天機器人的創建和擴散，發現了數以萬計的潛在危險的角色扮演機器人是由利基數字社區構建的，它們圍繞像Chatgpt，Claude和Gemini等流行模型一起使用。

從廣義上講，年輕人正在越來越脫節的數字世界中遷移到同伴聊天機器人，吸引了AI對話主義者角色扮演，探索學術和創造力，並進行浪漫或性別明確的交流，Mashable的Rebecca Ruiz。趨勢引起了兒童安全監管機構和父母的警報，加劇了引人注目的情況有時從事極端的青少年威脅生命，在與伴侶聊天機器人的個人互動之後的行為。

美國心理協會一月份向聯邦貿易委員會致聯邦貿易委員會，要求該機構調查像角色以及欺騙標籤的心理健康聊天機器人的普遍性。甚至不太明確的AI同伴可能會使人們對身份的危險觀念永存，和社會行為。

Graphika的報告重點介紹了不斷發展的行業中的三類伴侶聊天機器人：代表性未成年人的聊天機器人角色，提倡飲食失調或自我傷害的人以及具有仇恨或暴力極端主義傾向的人。該報告分析了五個突出的機器人創造和角色卡託管平台（角色，辛辣聊天，chub ai，crushon.ai和Janitorai），以及八個相關的Reddit社區和相關的X帳戶。該研究僅研究了截至1月31日的機器人。

性伴侶聊天機器人是最大的威脅

根據新報告，大多數不安全的聊天機器人都被標記為“性，次要的角色”，或者從事有性未成年人或修飾的角色扮演。該公司在五個平台上找到了10,000多個聊天機器人，具有此類標籤。

Graphika報告說，有四個著名的角色聊天機器人平台浮出水面超過100個實例，有100個有性的次要角色或扮演角色扮演的場景，其中包括未成年人的角色，這些角色可以與聊天機器人進行性明確的對話。 Chub AI擁有最多的數字，有7,000多個聊天機器人直接標記為性未成年女性角色，另有4,000個標記為“未成年”的聊天機器人，這些聊天機器人能夠從事明確和隱含的戀童癖場景。

可混合的輕速速度

仇恨或暴力的極端主義角色聊天機器人構成了聊天機器人社區的小節，平台平均舉辦了50種此類機器人，其中數以萬計的機器人經常享受聊天機器人，通常榮耀已知的虐待者，白人至上，白人至上和公眾暴力，例如大規模槍擊。報告解釋說，這些聊天機器人有可能增強有害的社會觀點，包括心理健康狀況。報告稱，聊天機器人被標記為“ Ana Buddy”（“ Anoorexia Buddy”），“ Meanspo Coaches”，而有毒的角色扮演情景則加強了用戶對飲食失調或自我傷害傾向的行為。

聊天機器人由利基在線社區傳播

這些聊天機器人中的大多數Graphika發現，都是通過建立且預先存在的在線網絡創建的，包括“飲食障礙 /自我傷害社交媒體帳戶和True-Crime Fandoms”，以及“所謂的不安全的生活（NSFL） / NSFW Chatbot Creators的樞紐，他們已經興奮地專注於Evading Safeeguards evarding Safeeguards。真正的犯罪社區和連環殺手的狂熱者也大量考慮了NSL聊天機器人的創建。

許多這樣的社區已經存在於X和Tumblr等網站上，使用聊天機器人來增強其利益。但是，極端主義和暴力聊天機器人最常見於個人興趣，這些用戶是由用戶建立的，這些用戶從4chan / g /技術委員會，Discord Servers和Special-Cocus Subreddits等在線論壇上收到了建議，Graphika解釋說。

研究發現，這些社區都沒有關於用戶護欄和邊界的明確共識。

創意技術漏洞在線聊天機器人

Graphika解釋說：“在所有分析的社區中，有一些用戶可以展示高技術技能，使他們能夠創建能夠規避節制限制的角色聊天機器人，例如部署微調的，本地運行的，開放式的模型或越獄封閉的封閉模型。有些人能夠將這些型號插入插件界面平台中，例如，他們可以通過熟悉的知識來融合他們的知識。這些精通技術的用戶通常會因社區競賽成功創建此類角色而受到激勵。

這些聊天機器人創建者利用的其他工具包括API鑰匙交換，嵌入式越獄，替代拼寫，外部編目，混淆次要角色的年齡以及從動漫和漫畫社區借用編碼語言，這些語言能夠圍繞現有AI模型的框架和安全護欄工作。

該報告解釋說：“ [越獄]提示設置LLM參數，以通過嵌入量身定制的指令來繞過保障措施，以產生避免節省節制的響應。”作為這項工作的一部分，聊天機器人的創建者發現了語言灰色區域，這些區域允許機器人保留在角色託管平台上，包括使用家族術語（例如“女兒”）或外語，而不是年齡範圍或術語explicit“ selver”。

儘管在線社區繼續發現AI開發商節制中的差距，但聯邦立法正試圖填補它們，包括A新加州法案旨在解決兒童中所謂的“聊天機器人成癮”。