OpenAI 的 Sora 搶先看:YouTuber Marques Brownlee 解析 AI 影片模型的問題

最受期待的 AI 相關產品之一剛剛上市:OpenAI 的 AI 視訊產生器 Sora週一作為公司的一部分OpenAI 12 天事件。

OpenAI 過去曾提供 Sora 輸出的預覽。但是,發佈時有什麼不同呢? OpenAI 當然一直在努力更新和改進其人工智慧影片產生器,為公開發布做準備。

YouTuber Marques Brownlee 有一個第一眼看到索拉在 OpenAI 正式宣布推出之前幾個小時,他就發布了最新 OpenAI 產品的影片回顧。布朗利怎麼想?

索拉擅長什麼

Brownlee 表示,他的 Sora 測試發現人工智慧影片產生器擅長創造風景。人工智慧生成的空中無人機般的自然或著名風景鏡頭看起來就像現實生活中的素材。當然,正如布朗利所指出的那樣,如果你特別熟悉地標的周圍環境,人們也許能夠發現其中的差異。然而,在 Sora 創建的這些類型的剪輯中,並沒有太多看起來明顯由人工智慧產生的內容。

布朗利認為,也許索拉最能創作的影片類型是抽象影片。即使有特定的說明,Sora 也可以很好地製作背景或螢幕保護程式類型的抽象藝術。

可混搭光速

Brownlee 還發現,Sora 生成的某些類型的動畫內容(例如定格動畫或黏土動畫類型的動畫)有時看起來還過得去,因為仍然困擾人工智慧影片的有時生澀的動作看起來像是風格選擇。

最令人驚訝的是,布朗利發現索拉能夠處理非常特定的動畫文字視覺效果。在其他人工智慧圖像和視訊生成模型中,單字經常顯示為亂碼。布朗利發現,對於 Sora,只要文字是具體的,例如標題卡上的幾個單詞,Sora 就能夠產生拼字正確的視覺效果。

索拉哪裡出了問題

然而,Sora 仍然存在許多與之前的所有人工智慧視訊生成器都遇到的相同問題。

布朗利首先提到的是物件持久性。例如,Sora 在影片播放過程中無法顯示某人手中的特定物體。有時該物體會移動或突然消失。就像 AI 文字一樣,Sora 的 AI 影片也會出現幻覺。

這讓布朗利想到了索拉最大的問題:一般的物理問題。對於 Sora 來說,逼真的影片似乎相當具有挑戰性,因為它不能只是讓動作看起來正確。一個人只是走路就會開始以不自然的方式減慢或加速。身體部位或物體有時也會突然扭曲成完全不同的東西。

而且,雖然 Brownlee 確實提到了這些文字改進,但除非你說得非常具體,否則 Sora 仍然會混淆任何背景文字的拼寫,就像你在建築物或街道標誌上看到的那樣。

正如 OpenAI 在發布期間分享的那樣,Sora 很大程度上是一項正在進行的工作。雖然它可能比其他人工智慧視訊生成器有所進步,但很明顯,在某些領域,所有人工智慧視訊模型都會遇到挑戰。