OpenAI 的 Sora 抢先看:YouTuber Marques Brownlee 解析 AI 视频模型的问题

最受期待的 AI 相关产品之一刚刚上市:OpenAI 的 AI 视频生成器 Sora周一作为公司的一部分OpenAI 12 天事件。

OpenAI 过去曾提供过 Sora 输出的预览。但是,发布时有什么不同呢? OpenAI 当然一直在努力更新和改进其人工智能视频生成器,为公开发布做准备。

YouTuber Marques Brownlee 有一个第一眼看到索拉在 OpenAI 正式宣布推出之前几个小时,他就发布了最新 OpenAI 产品的视频回顾。布朗利怎么想?

索拉擅长什么

Brownlee 表示,他的 Sora 测试发现人工智能视频生成器擅长创建风景。人工智能生成的空中无人机般的自然或著名风景镜头看起来就像现实生活中的素材一样。当然,正如布朗利指出的那样,如果你特别熟悉地标的周围环境,人们也许能够发现其中的差异。然而,在 Sora 创建的这些类型的剪辑中,并没有太多看起来明显由人工智能生成的内容。

布朗利认为,也许索拉最能创作的视频类型是抽象视频。即使有特定的说明,Sora 也可以很好地制作背景或屏幕保护程序类型的抽象艺术。

可混搭光速

Brownlee 还发现,Sora 生成的某些类型的动画内容(例如定格动画或粘土动画类型的动画)有时看起来还过得去,因为仍然困扰人工智能视频的有时生涩的动作看起来像是风格选择。

最令人惊讶的是,布朗利发现索拉能够处理非常具体的动画文本视觉效果。在其他人工智能图像和视频生成模型中,单词经常显示为乱码。布朗利发现,对于 Sora,只要文本是具体的,比如标题卡上的几个单词,Sora 就能够生成拼写正确的视觉效果。

索拉哪里出了问题

然而,Sora 仍然存在许多与之前的所有人工智能视频生成器都遇到过的相同问题。

布朗利首先提到的是对象持久性。例如,Sora 在视频播放过程中无法显示某人手中的特定物体。有时该物体会移动或突然消失。就像 AI 文本一样,Sora 的 AI 视频也会出现幻觉。

这让布朗利想到了索拉最大的问题:一般的物理问题。对于 Sora 来说,逼真的视频似乎相当具有挑战性,因为它不能仅仅让动作看起来正确。一个人只是走路就会开始以不自然的方式减慢或加速。身体部位或物体有时也会突然扭曲成完全不同的东西。

而且,虽然 Brownlee 确实提到了这些文本改进,但除非你说得非常具体,否则 Sora 仍然会混淆任何背景文本的拼写,就像你在建筑物或街道标志上看到的那样。

正如 OpenAI 在发布期间分享的那样,Sora 很大程度上是一项正在进行的工作。虽然它可能比其他人工智能视频生成器有所进步,但很明显,在某些领域,所有人工智能视频模型都会遇到挑战。