OpenAI 在官網博客中介紹了最新的 AI 模型——文生視頻模型 Sora,它可以根據人們的文本描述生成原始視頻。
在放出的演示視頻中,Sora 可以生成清晰準確的角色,遠景、近景交錯但主題一致的視頻,并且,已經能一次性生成最長 60s 的視頻。看著這些視頻,AI 根據劇本自動生成好萊塢電影,似乎已經向我們走來。
一經發布,社交平臺 X 上,和 AI 以及視頻相關的創業者坐不住了。
YouTube 頭部網紅 MrBeast 回應 Sam Altman 發布 Sora 模型的推特時,打趣道:Sam,請不要讓我無家可歸。
但 OpenAI 沒有拘泥于在花哨的視頻本身中,對于 Sora 文生視頻,OpenAI 表示:這是通向 AGI 的里程碑事件。
據 OpenAI 官網,Sora 模型的目標是「理解和模擬運動中的物理世界」。當前,它的最大亮點是可以生成長達 1 分鐘的視頻,并且,在這 1 分鐘的視頻中,可以保證視覺質量,遵守用戶提示詞。舉例來說,Sora 可以生成一系列復雜場景的視頻,包括多個角色、特定類型的運動、以及在特定主題和背景下的精確細節等。
它不僅理解用戶在提示詞中想要什么,還理解這些東西應該如何在物理世界中存在。相應地,Sora 可以基于對提示詞的理解,精確闡述、演繹提示詞,生成恰當的角色來表達極具張力的情緒。
當然,OpenAI 也在官網承認,Sora 還遠非完美。它可能難以準確地模擬復雜場景下的物理世界,也可能無法理解一些場景下的因果關系,比如,一個人可能咬了一口餅干,但之后,餅干上可能沒有咬痕。
此外,Sora 還可能混淆提示詞里諸如「左、右」一樣的空間細節,并且可能難以精確描述隨時間發生的事件。
OpenAI 沒有透露 Sora 模型何時公開,但表示將與有限數量的外部人士分享。當地時間 2 月 15 日一整天,OpenAI CEO Sam Altman 都在他的 X 社交媒體賬戶上發布 Sora 生成的視頻。他讓粉絲給出提示詞,他發布該提示詞下 Sora 生成的視頻。
OpenAI 表示,在把 Sora 應用于 OpenAI 的產品之前,將采取一些重要的安全措施。
對于 Sora 模型的重要意義,OpenAI 在官方博客結尾指出,「Sora 作為能夠理解和模擬現實世界的模型基礎,我們相信這一能力將是實現 AGI 的重要里程碑。」
顯然,OpenAI 的目標依舊是 AGI 的實現,在這個恢弘的目標下,其在集結資源和自身能力上的領先優勢,又一次體現出超越一般創業公司的綜合實力。
其實,這句看起來「不服輸」的話,并不準確。Sora 的出現,讓「視頻生成賽道」基于上一代模型技術的產品比賽,已經結束了。現在開始的,將是一場全新的技術比賽,而不只是產品的比拼。
