专家分享他们对DeepSeek的看法。 图片来源:CFOTO / Future Publishing / Getty Images
一下子,无处不在。
它是是开源的,据称接受了其他AI型号的成本的一小部分培训,并且同样好,甚至比Chatgpt好。
这种致命的组合,导致科技股滚滚,并使投资者质疑需要多少钱来开发良好的AI模型。DeepSeek工程师声称R1接受了2,788 GPU的培训,费用约为600万美元,而Openai的GPT-4则接受据说培训成本1亿美元。
DeepSeek的成本效率也挑战了以下想法:更大的模型和更多数据会导致更好的性能。在关于DeepSeek的能力,对Openai这样的AI公司的威胁以及对投资者惊慌失措的疯狂对话中,很难理解正在发生的事情。但是,拥有资深经验的人工智能专家却具有宝贵的观点。
DeepSeek证明了AI专家多年来一直在说什么:更大并不好
受到贸易限制和进入NVIDIA GPU的障碍,总部位于中国的DeepSeek必须在开发和培训R1方面具有创造力。他们只能以600万美元的价格完成这项壮举(从AI方面来说这不是很多钱)对投资者来说是一个启示。
但是AI专家并不感到惊讶。 “在Google,我问他们为什么要建立最大的型号。为什么要提高尺寸?您要实现什么功能?为什么您对没有最大的型号感到不满意?回应我,”发表Timnit Gebru因在X上从Google召集AI偏见而闻名。
可混合的轻速速度
推文可能已被删除
拥抱脸的气候和AI负责人Sasha Luccioni指出,AI投资是如何稳固地建立在营销和炒作上的。 “很疯狂,暗示一个(高性能的)LLM能够在不蛮力的情况下实现这一表现,而成千上万的GPU则足以引起这一点,”说卢科尼。
推文可能已被删除
澄清为什么DeepSeek R1如此重要
DeepSeek R1与关键基准测试的OpenAI O1模型相当。在数学,编码和常识测试中,它略有超过,相等或低于O1。也就是说,还有其他模型,例如拟人化的Claude,Google Gemini和Meta的开源模型Llama,它们对普通用户也同样有能力。
但是R1造成如此疯狂的原因,因为它的成本很少。 “它并不比早期的型号更聪明,只是经过更便宜的培训,”说AI研究科学家加里·马库斯(Gary Marcus)。
推文可能已被删除
DeepSeek能够建立与OpenAI模型竞争的模型的事实非常了不起。 Andrej Karpathy共同创立了Openai,发表在X上,“这是否意味着您不需要大型GPU群集用于Frontier llms?不,但是您必须确保您对拥有的东西并不浪费,这看起来像是一个很好的证明,仍然有很多东西可以通过数据和算法通过。”
推文可能已被删除
沃顿AI教授Ethan Mollick说这与它的功能无关,而与人们目前可以使用的模型有关。他说:“ DeepSeek是一个非常好的模型,但通常并不比O1或Claude更好。” “但是,由于它既是自由的又引起了很多关注,因此我认为许多使用免费的'迷你'模型的人都对2025年初的推理者AI所能做到的并且感到惊讶。”
推文可能已被删除
为开源AI模型得分一个
DeepSeek R1突破是开源支持者的巨大胜利,他们认为将强大的AI模型的访问民主化,确保透明度,创新和健康竞争。 “对于那些认为中国在AI中超过美国的人来说,正确的想法是'开源模型超过封闭的模型,'”说Meta的AI首席科学家Yann Lecun,该科学家以自己的美洲驼模型支持开放采购。
推文可能已被删除
计算机科学家和AI专家Andrew Ng并未明确提及R1是开源模型的重要性,但是强调了DeepSeek Disprument如何为开发人员带来福音,因为它允许Big Tech否则可以访问该访问权限。
“股票市场上的'DeepSeek抛售' - 归因于DeepSeek V3/R1破坏了技术生态系统 - 是应用程序层是一个不错的地方,这是另一个迹象。”说ng。 “竞争激烈的基础模型层非常适合建立应用程序。”
推文可能已被删除
Cecily是Mashable的技术记者,涵盖了AI,Apple和新兴技术趋势。在哥伦比亚新闻学院获得硕士学位之前,她花了数年的时间与不合理的集团和B实验室的初创企业和社会影响业务合作。在此之前,她共同创立了一家针对南美,欧洲和亚洲新兴企业家枢纽的初创咨询业务。您可以在Twitter上找到她@cecily_mauran。