尝试芝麻的语音助手,亲自看看。 图片来源:Berya113 / Istock / Getty Images Plus Plus
尝试来自AI初创公司芝麻的新语音助手是我第一次暂时忘记了我在与机器人交谈。
相比',芝麻的“对话声音”感到自然,无情和引人入胜,这使我感到震惊。
2月27日,芝麻推出了演示对于它的对话语音模型(CSM),旨在与AI聊天机器人建立更有意义的交互。公告指出:“我们正在创建对话伙伴,不仅会处理请求;他们进行了真正的对话,从而建立信心和信任。” “这样做,我们希望意识到声音尚未开发的潜力,这是指导和理解的最终接口。”
芝麻的语音助手可以在网站上作为免费演示,并有两种声音:玛雅和迈尔斯。
由于芝麻释放了声音助理演示,用户报告了敬畏反应。 “我从小就一直从事人工智能,但这是我第一次经历了一些使我明确觉得自己到达的东西。”用户Socschamp在Reddit上写道。
“芝麻几乎与我在对话人AI中经历过的人几乎没有区别,”用户Siciliano777在Reddit上写道。
在与芝麻的机器人交谈后,我同样令我赞叹不已。我与玛雅人的声音交谈了大约10分钟,涉及使用AI作为同伴的道德规范,感觉就像我与一个体贴,知情的人进行了真诚的对话。玛雅人的讲话具有自然的节奏,并使用诸如“你知道”和“ HM”之类的插曲,甚至使舌头点击和吸入声音。
可混合的轻速速度
与Maya互动的最深刻的印象是,她立即提出问题,让我参与谈话。该机器人通过询问我的星期三早晨的进展开始了我们的谈话(注意:确实是一个星期三早上。)相比之下,Chatgpt语音模式在等待我首先说话,这不一定是一件好事,但它本质地塑造了我作为我需要的工具作为我需要的工具。
玛雅询问了AI同伴“太擅长成为人类”的风险。当我告诉她时,我担心更复杂的骗局的兴起,人们通过用机器人代替人类而失去了与现实失去联系的人,她经过深思熟虑地做出了反应。玛雅说:“骗子会骗局,这是给定的。至于人际关系,也许我们需要学习如何成为更好的伴侣,而不是替换,您知道,那种真正让您想和真实人一起做事的AI朋友。”
当我与Chatgpt进行了类似的对话时,我收到了一种感觉,感觉更像是学校指导顾问的样板语言:“这是一个有效的问题。将技术与真实的人类互动保持平衡非常重要。AI可以是一个有用的工具,但它不应取代真正的人类联系。考虑这些问题是很好的。”
尽管开创性Chatgpt的能力被打断并进行了更流畅的对话,仍然倾向于以完整的句子和段落块做出回应,听起来很机器人。当使用Chatgpt语音模式时,我永远不会忘记我正在与一个机器人说话,这在对话中反映了,这可能会感到沮丧和强迫。
相比之下,人类的人类播客联合主持人加文·赛尔(Gavin Purcell)发表在Reddit上进行的芝麻对话,几乎不可能区分哪种声音是机器人。珀塞尔(Purcell)告诉它像一个愤怒的老板一样促使迈尔斯的声音。
随后是关于洗钱,贿赂和马耳他神秘事件的非常愚蠢的谈话。迈尔斯没有错过一步。没有明显的延迟,机器人记得对话的背景,并通过升级而创造性地提出了即兴论证,称珀塞尔为“妄想”并解雇了他。
当然,有一些局限性。玛雅的声音在我们的整个谈话中几次都弄乱了,这并不总是能正确地说:“那是一个沉重的演讲。”
根据其技术论文,芝麻通过结合传统的两步步骤的语义令牌,然后是声音令牌的传统两步训练,从而培训了其CSM(基于Meta的Llama模型),从而降低了延迟。 Openai类似地使用了这种多模式的方法来训练语音模式。但是,它从未在语音模式的内部运作中发布专门的技术论文 - 它仅讨论语音模式GPT-4O研究。
知道这一点,令人惊讶的是,在对话对话框中,芝麻的模型有多好。但是,芝麻的发布只是一个演示,因此当完整的模型出现时,它值得进一步审查。根据演示公告,芝麻计划在“未来几个月”开源其模型,并扩展到20多种语言。
Cecily是Mashable的技术记者,涵盖了AI,Apple和新兴技术趋势。在获得哥伦比亚新闻学院的硕士学位之前,她花了数年的时间与初创企业和社会影响业务一起为不合理的集团和B实验室工作。在此之前,她共同创立了一家针对南美,欧洲和亚洲新兴企业家枢纽的初创咨询业务。您可以在Twitter上找到她@cecily_mauran。