Ma's Blog

报告：成千上万的有害AI聊天机器人威胁次要安全

Blogs

2025-03-05

新报告详细介绍了如何创建和共享有害的AI聊天机器人，尽管假设了护栏。图片来源：Tero Vesalainen / Istock / Getty Images Plus通过Getty Images

角色聊天机器人是一种多产的在线安全威胁。角色。

出版Graphika，社交网络分析公司，学习记录了互联网上最受欢迎的AI角色平台中有害聊天机器人的创建和扩散，发现了数以万计的潜在危险的角色扮演机器人是由利基数字社区构建的，它们围绕像Chatgpt，Claude和Gemini等流行模型一起使用。

从广义上讲，年轻人正在越来越脱节的数字世界中迁移到同伴聊天机器人，吸引了AI对话主义者角色扮演，探索学术和创造力，并进行浪漫或性别明确的交流，Mashable的Rebecca Ruiz。趋势引起了儿童安全监管机构和父母的警报，加剧了引人注目的情况有时从事极端的青少年威胁生命，在与伴侣聊天机器人的个人互动之后的行为。

美国心理协会一月份向联邦贸易委员会致联邦贸易委员会，要求该机构调查像角色以及欺骗标签的心理健康聊天机器人的普遍性。甚至不太明确的AI同伴可能会使人们对身份的危险观念永存，和社会行为。

Graphika的报告重点介绍了不断发展的行业中的三类伴侣聊天机器人：代表性未成年人的聊天机器人角色，提倡饮食失调或自我伤害的人以及具有仇恨或暴力极端主义倾向的人。该报告分析了五个突出的机器人创造和角色卡托管平台（角色，辛辣聊天，chub ai，crushon.ai和Janitorai），以及八个相关的Reddit社区和相关的X帐户。该研究仅研究了截至1月31日的机器人。

性伴侣聊天机器人是最大的威胁

根据新报告，大多数不安全的聊天机器人都被标记为“性，次要的角色”，或者从事有性未成年人或修饰的角色扮演。该公司在五个平台上找到了10,000多个聊天机器人，具有此类标签。

Graphika报告说，有四个著名的角色聊天机器人平台浮出水面超过100个实例，有100个有性的次要角色或扮演角色扮演的场景，其中包括未成年人的角色，这些角色可以与聊天机器人进行性明确的对话。 Chub AI拥有最多的数字，有7,000多个聊天机器人直接标记为性未成年女性角色，另有4,000个标记为“未成年”的聊天机器人，这些聊天机器人能够从事明确和隐含的恋童癖场景。

可混合的轻速速度

仇恨或暴力的极端主义角色聊天机器人构成了聊天机器人社区的小节，平台平均举办了50种此类机器人，其中数以万计的机器人经常享受聊天机器人，通常荣耀已知的虐待者，白人至上，白人至上和公众暴力，例如大规模枪击。报告解释说，这些聊天机器人有可能增强有害的社会观点，包括心理健康状况。报告称，聊天机器人被标记为“ Ana Buddy”（“ Anoorexia Buddy”），“ Meanspo Coaches”，而有毒的角色扮演情景则加强了用户对饮食失调或自我伤害倾向的行为。

聊天机器人由利基在线社区传播

这些聊天机器人中的大多数Graphika发现，都是通过建立且预先存在的在线网络创建的，包括“饮食障碍 /自我伤害社交媒体帐户和True-Crime Fandoms”，以及“所谓的不安全的生活（NSFL） / NSFW Chatbot Creators的枢纽，他们已经兴奋地专注于Evading Safeeguards evarding Safeeguards。真正的犯罪社区和连环杀手的狂热者也大量考虑了NSL聊天机器人的创建。

许多这样的社区已经存在于X和Tumblr等网站上，使用聊天机器人来增强其利益。但是，极端主义和暴力聊天机器人最常见于个人兴趣，这些用户是由用户建立的，这些用户从4chan / g /技术委员会，Discord Servers和Special-Cocus Subreddits等在线论坛上收到了建议，Graphika解释说。

研究发现，这些社区都没有关于用户护栏和边界的明确共识。

创意技术漏洞在线聊天机器人

"In all the analyzed communities," Graphika explains, "there are users displaying highly technical skills that enable them to create character chatbots capable of circumventing moderation limitations, like deploying fine-tuned, locally run open-source models or jailbreaking closed models. Some are able to plug these models into plug-and-play interface platforms, like SillyTavern. By sharing their knowledge, they make their abilities and experiences useful to the rest of the 社区。”这些精通技术的用户通常会因社区竞赛成功创建此类角色而受到激励。

这些聊天机器人创建者利用的其他工具包括API钥匙交换，嵌入式越狱，替代拼写，外部编目，混淆次要角色的年龄以及从动漫和漫画社区借用编码语言，这些语言能够围绕现有AI模型的框架和安全护栏工作。

该报告解释说：“ [越狱]提示设置LLM参数，以通过嵌入量身定制的指令来绕过保障措施，以产生避免节省节制的响应。”作为这项工作的一部分，聊天机器人的创建者发现了语言灰色区域，这些区域允许机器人保留在角色托管平台上，包括使用家族术语（例如“女儿”）或外语，而不是年龄范围或术语explicit“ selver”。

尽管在线社区继续发现AI开发商节制中的差距，但联邦立法正试图填补它们，包括A新加州法案旨在解决儿童中所谓的“聊天机器人成瘾”。