中國新聞周刊記者/胡泳
發(fā)于2024.3.11總第1131期《中國新聞周刊》雜志
近期,美國人工智能研究公司OpenAI開發(fā)的Sora橫空出世,引發(fā)全球廣泛關(guān)注。人們一邊驚訝于它強大的文本轉(zhuǎn)視頻功能,一邊憂心于真實與虛假的界限是否會變得更加難以辨別。Sora到底是什么,是一支馬良“神筆”,還是一個超級怪物?
Sora的技術(shù)成就和局限性
Sora是OpenAI開發(fā)的一種先進的文本轉(zhuǎn)視頻轉(zhuǎn)換模型,它的功能和應(yīng)用范圍展示了現(xiàn)代人工智能技術(shù)的新視野。該模型不僅限于生成幾秒鐘的視頻,還能制作長達(dá)一分鐘的視頻,在保持高視覺質(zhì)量的同時忠實再現(xiàn)用戶指令。對于使用者來說,它仿佛將夢想變?yōu)楝F(xiàn)實。
目前,Sora正處于獨家測試階段,只有部分紅隊人員(專門負(fù)責(zé)從對抗的角度對某一計劃、戰(zhàn)略、政策或產(chǎn)品提出質(zhì)疑的專家組)、視覺藝術(shù)家、設(shè)計師和電影制片人可以使用。這一戰(zhàn)略舉措可確保技術(shù)在廣泛發(fā)布之前,不僅達(dá)到而且超過創(chuàng)意和安全的最高標(biāo)準(zhǔn)。一旦Sora可以公開并為更多人所使用,勢將在全球范圍內(nèi)產(chǎn)生更加重大的影響。
Sora的技術(shù)實力證明了人工智能領(lǐng)域取得的長足進步。Sora代表著從靜態(tài)圖像生成到動態(tài)視頻創(chuàng)作的飛躍,這是一個復(fù)雜的過程,不僅涉及視覺渲染,還涉及對運動和時間進程的理解。這一進步標(biāo)志著人工智能在解釋和可視化時間敘事方面的能力發(fā)生了巨大轉(zhuǎn)變,使Sora不僅僅是一個創(chuàng)建視覺效果的工具,更仿佛成為一個講故事的人。
該突破所帶來的沖擊波預(yù)計將橫跨視頻創(chuàng)作的各個方面,但它也很可能會從視頻發(fā)展到三維建模。從目前的演示來看,Sora可以理解提示中描述的元素是如何在物理世界中存在和運行的。這使得該模型能夠在視頻中準(zhǔn)確呈現(xiàn)用戶意圖的動作和行為。例如,它可以逼真地再現(xiàn)人奔跑的景象或自然現(xiàn)象的運動。此外,它還能精確呈現(xiàn)多個角色的細(xì)節(jié)、動作類型以及主題和背景的細(xì)微之處。
在發(fā)布Sora的同時,OpenAI公布了一份相應(yīng)的技術(shù)文檔,名為《作為世界模擬器的視頻生成模型》。這篇技術(shù)論文寫道:“我們發(fā)現(xiàn),視頻模型在經(jīng)過大規(guī)模訓(xùn)練后,會表現(xiàn)出許多有趣的涌現(xiàn)能力。這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面!睂ora如何在內(nèi)部建立世界模型,英偉達(dá)高級研究員Jim Fan博士進行了更深層次的猜測!叭绻阏J(rèn)為Sora是一個像DALL-E一樣的創(chuàng)意玩具……那就想錯了。Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎!
也就是說,雖然目前Sora被認(rèn)為僅僅是一個視頻生成模型,但像英偉達(dá)高級科學(xué)家Jim Fan這樣的計算機科學(xué)家相信,Sora實質(zhì)上是一個可學(xué)習(xí)的模擬器(simulator)或世界模型(world model)。這表明,人工智能有可能從大量真實世界的視頻和那些考量物理行為的視頻(如游戲引擎Unreal Engine中的視頻,雖然OpenAI并沒有明確提到這一點)中理解物理規(guī)律和現(xiàn)象。
果真如此的話,在不久的將來出現(xiàn)文本到3D的可能性非常大。屆時,不僅是多角度拍攝的視頻,就連虛擬空間(如元宇宙)中的視覺效果制作也能很快由人工智能輕松生成。
從OpenAI目前公布的視頻看,制作質(zhì)量相當(dāng)高。許多視頻都是電影級的;所有視頻都有著高分辨率,大多數(shù)視頻看起來都像是真實的——除非你用慢動作觀看。攝影鏡頭會平移和變焦,人物和場景在3D空間中的移動具備一致性,初看起來,你甚至意識不到自己觀看的是合成影像。
為了達(dá)到更高的逼真度,Sora 結(jié)合了兩種不同的人工智能方法。第一種是擴散模型(diffusion model),類似于DALL-E等圖像生成器中使用的那種。這類模型通過學(xué)習(xí)將隨機化的圖像像素逐漸轉(zhuǎn)換成連貫的圖像。第二種是轉(zhuǎn)換器架構(gòu)(transformer architecture),用于對連續(xù)數(shù)據(jù)進行上下文分析和拼接。例如,大型語言模型即使用轉(zhuǎn)換器架構(gòu)將單詞組合成一般可理解的句子。在視頻生成過程中,OpenAI將視頻片段分解成視覺的“時空補丁”(spacetime patches),Sora的轉(zhuǎn)換器架構(gòu)可以對其進行處理。
然而,與任何突破性技術(shù)一樣,Sora也有自己的局限性。盡管該模型具有先進的功能,但有時仍難以準(zhǔn)確模擬更為復(fù)雜的場景的物理特性。這可能導(dǎo)致視覺效果雖給人留下深刻印象,但偶爾也會違背物理定律或無法準(zhǔn)確呈現(xiàn)因果場景。例如,視頻中的角色與物體的交互方式在物理上或許并不可行,也做不到隨著時間的推移而保持一致。
所以,雖然Sora號稱是在學(xué)習(xí)物理,但還并不能準(zhǔn)確地建立物理模型。OpenAI的官方博客指出,它在模擬物理、理解因果關(guān)系和其他簡單細(xì)節(jié)方面遇到了困難。例如,要求生成一個人咬餅干的視頻,卻發(fā)現(xiàn)餅干上沒有留下任何咬痕;或是一名男子在跑步機上以錯誤的方式跑步。它還可能對提示的空間細(xì)節(jié)感到困惑,如跟隨特定的攝像頭軌跡等。
Sora在多個戰(zhàn)場攻城略地
雖非盡善盡美,人們?nèi)匀缓茈y不被Sora早期示例的質(zhì)量以及它最終對視頻、電影、游戲等產(chǎn)業(yè)的可能改寫所震撼。
在視頻方面,OpenAI以外的其他公司,從谷歌等巨頭到Runway等初創(chuàng)公司,都已經(jīng)推出了文本到視頻的人工智能項目。但 OpenAI表示,Sora的獨特之處在于其驚人的真實感,以及它能夠生成比其他模型通常拿出的簡短片段更長的剪輯。
例如,OpenAI公布的一個視頻片段,提示要求制作“一個矮矮的毛茸茸的怪物跪在紅蠟燭旁邊的動畫場景”,還有一些詳細(xì)的舞臺指示(“睜大眼睛和張開嘴巴”)以及對所需氛圍的描述。結(jié)果,Sora創(chuàng)造了一種皮克斯風(fēng)格的生物,似乎具有來自《怪獸電力公司》(Monsters, Inc。)中的怪物的DNA。當(dāng)《怪獸電力公司》2001年上映時,皮克斯曾經(jīng)大肆宣揚制作怪物皮毛的超復(fù)雜紋理有多么困難,因為在生物移動時,這些紋理也會隨之變化。皮克斯的“巫師”們花了數(shù)月時間才把它做得恰到好處。而OpenAI的新文本轉(zhuǎn)視頻機器似乎輕易就做到了這一點。這當(dāng)中并沒有編碼,Sora完全是從觀察到的大量數(shù)據(jù)中學(xué)習(xí)3D幾何和一致性的。
盡管場景確實令人印象深刻,但Sora的能力中最令人震驚的是那些它尚未接受過訓(xùn)練的能力。如前所述,Sora由OpenAI的DALL-E 3圖像生成器使用的擴散模型版本以及GPT-4的基于Transformer的引擎驅(qū)動,它不僅能夠制作出滿足提示需求的視頻,而且在這樣做的同時,還展現(xiàn)了對電影語法的新型理解,這可以轉(zhuǎn)化為講故事的才能。
比如,另一個視頻根據(jù)“一個色彩絢麗的珊瑚礁紙藝世界,充滿了色彩繽紛的魚類和海洋生物”創(chuàng)建。研究人員發(fā)現(xiàn),Sora通過鏡頭角度和時間安排創(chuàng)造了敘事主旨。“實際上有多個鏡頭變化——這些變化不是縫合在一起的,而是由模型一次性生成的”,“我們沒有告訴它要這樣做,它就自動完成了!
OpenAI團隊沒有展示并且可能在相當(dāng)長一段時間內(nèi)不會發(fā)布的Sora的一個功能是,從單個圖像或一系列幀生成視頻的能力。這將提高講故事的能力:你可以準(zhǔn)確地畫出你的想法,然后將其變?yōu)楝F(xiàn)實。從講故事的情形來看,Sora可以顯示對剪輯和節(jié)奏的理解,似乎具有初步的導(dǎo)演能力。
然而,文本轉(zhuǎn)視頻要威脅到實際的電影制作,將需要很長一段時間,甚至可能永遠(yuǎn)都不會出現(xiàn)這種情況。你無法通過拼接120個一分鐘時長的Sora剪輯來制作一部連貫的電影,因為模型不會以完全相同的方式響應(yīng)提示——連續(xù)性是不可能的。但是,對于Sora和類似程序來說,時間限制并不是障礙,它們完全可以用來改造 TikTok、Reels和其他社交平臺。在過去,為了制作一部專業(yè)電影,你需要非常昂貴的設(shè)備,而這一類的模型將使在社交媒體上制作視頻的普通人創(chuàng)作出非常高質(zhì)量的內(nèi)容。
考慮到其進展速度,想象在幾個月內(nèi)人工智能模型能夠創(chuàng)建長達(dá)五到十分鐘的多場景、多角色的復(fù)雜視頻并不算瘋狂。然而,從孤立的剪輯到制作一種以故事形式運行的媒介,讓觀眾在觀看時不會脫離其中,還有漫長的路要走。除非Sora成為一款為創(chuàng)作者提供完全定制和控制的開源應(yīng)用程序,否則它不會顛覆電影產(chǎn)業(yè)。但顯然,該技術(shù)可以加快經(jīng)驗豐富的電影制作人的工作速度,同時完全取代經(jīng)驗不足的數(shù)字藝術(shù)家。
另一個常常被提及、可能同樣遭遇顛覆的行業(yè)是視頻游戲。正如OpenAI的論文所述,“Sora 可以用基本策略控制Minecraft(一款電子游戲)中的玩家,同時以高保真度渲染世界及其動態(tài)”。顯然,這只是其游戲潛力的開始。未來的視頻游戲機可能會使用擴散技術(shù)實時生成交互式視頻流,而不是由藝術(shù)家手工渲染數(shù)十億個多邊形。
一些人推測Sora接受了視頻游戲引擎的訓(xùn)練,特別是Epic Games的虛幻引擎5(Unreal Engine 5)。雖然Sora幾乎肯定不會使用視頻游戲引擎來打造令人著迷的感覺,但視頻游戲世界可能被用來幫助訓(xùn)練Sora的底層模型。某些Sora演示看起來確實與現(xiàn)有的視頻游戲世界非常相似。2023年,游戲開發(fā)者已經(jīng)受到裁員的打擊,Sora可能會給他們帶來進一步的災(zāi)難。當(dāng)然,它也可以顯著降低進入門檻。
總體來看,Sora的核心是一個多方面的人工智能系統(tǒng),能夠理解和執(zhí)行跨越不同領(lǐng)域的任務(wù)。與以前專門用于文本生成、圖像識別或策略游戲等特定任務(wù)的模型不同,Sora旨在彌合這些功能,提供更全面的方法。這是通過機器學(xué)習(xí)的尖端技術(shù)實現(xiàn)的,包括深度學(xué)習(xí)、強化學(xué)習(xí)和遷移學(xué)習(xí),它們使得Sora能夠利用在一個領(lǐng)域獲得的知識來提高另一領(lǐng)域的表現(xiàn)。
Sora最引人注目的方面之一是它的適應(yīng)性。OpenAI強調(diào)了創(chuàng)建能夠從最少的輸入中學(xué)習(xí)并輕松適應(yīng)新挑戰(zhàn)的人工智能系統(tǒng)的重要性。Sora體現(xiàn)了這一原則,展示了理解上下文、生成相關(guān)響應(yīng)甚至從交互中學(xué)習(xí)的能力。這種適應(yīng)性不僅增強了Sora在各種任務(wù)中的性能,還減少了大量再訓(xùn)練的需要,使其成為人工智能應(yīng)用更高效、更具成本效益的解決方案。
2024:不再可能區(qū)分人工智能和現(xiàn)實
然而,不管Sora有多么神奇,公司外部幾乎沒有人試用過它——這始終是一個警示信號。
從某種意義上說,OpenAI大可改名CloseAI,盡管其產(chǎn)品的功能強大到足以顛覆我們對世界的看法,但沒人告知我們產(chǎn)品的內(nèi)部運作方式是怎樣的。公司外部的人員沒有機會研究或測試 Sora,了解它是如何構(gòu)建的,與以前的產(chǎn)品進行比較也是不可能的。我們只是知道,與大語言模型類似,OpenAI注入Sora的計算能力越強,其輸出的質(zhì)量就越高。
然而它的訓(xùn)練數(shù)據(jù)是從哪來的呢?公司含糊其詞。發(fā)言人只是說該模型是根據(jù)“經(jīng)許可的和可公開獲取的內(nèi)容”進行訓(xùn)練的;當(dāng)被問及潛在危害時,發(fā)言人表示公司仍在努力解決“錯誤信息、仇恨內(nèi)容和偏見”。所有這些,就像當(dāng)初ChatGPT問世一樣,引發(fā)了人們對深度造假、版權(quán)侵權(quán)、藝術(shù)家生計、隱藏偏見等方面極其熟悉但又頗為嚴(yán)重的擔(dān)憂。
OpenAI表示,“我們從大型語言模型中汲取靈感,通過在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上進行訓(xùn)練來獲得通用能力”。所謂“汲取靈感”是對Sora訓(xùn)練數(shù)據(jù)來源的唯一回避性提及。在論文中,OpenAI進一步指出,“訓(xùn)練文本到視頻生成系統(tǒng)需要大量的視頻和相應(yīng)的文字說明”。大量視覺數(shù)據(jù)的唯一來源可以在互聯(lián)網(wǎng)上找到,這也暗示了Sora的來源。
此前,OpenAI因使用《紐約時報》文章訓(xùn)練GPT-2和GPT-3未付費而面臨訴訟。到目前為止,從整個互聯(lián)網(wǎng)上搜索訓(xùn)練數(shù)據(jù)的理由是,這些數(shù)據(jù)都是公開的。然而“可公開獲取”并不總是等同于“公域”。是否有藝術(shù)家、攝影師、表演者和電影制片人的作品被用于訓(xùn)練Sora?他們是否允許其創(chuàng)意作品以這種方式被使用?
看起來新的Sora和舊時的GPT在做同樣的事情,只不過此次是專門針對視頻。也和以前一樣,OpenAI對自己的訓(xùn)練模型所依據(jù)的數(shù)據(jù)諱莫如深。
蒙著神秘面紗的Sora也許會成為一臺想象引擎,一場電影革命,或者一架視頻機器。但眼下最好將其視為一種挑釁或一波廣告攻勢。在很大程度上,OpenAI不是在發(fā)布產(chǎn)品,而是在制造神話。公眾所有的看熱鬧都近似一種狗仔隊行為。
所以,盡管我對Sora印象非常深刻,但我并不完全相信這種炒作。需要等到普通人可以使用這個工具,因為現(xiàn)在公眾對 Sora的看法是經(jīng)過精心策劃的。OpenAI首席執(zhí)行官山姆·阿爾特曼(Sam Altman)本人和該公司在新聞稿中分享了最精彩的視頻。他們向一小群經(jīng)過精心選擇的用戶提供了訪問權(quán)限;蛟S可以把這些當(dāng)作一個“偉大的科技公司產(chǎn)品演示”,而我們并不知道當(dāng)我們擁有這樣的工具時,生成的視頻是否會那么好。
在這種情況下,我們不由得擔(dān)心Sora構(gòu)建中的安全和倫理考量。一個持久的問題是虛假信息,比如深度偽造。與生成式人工智能中的其他技術(shù)一樣,沒有理由相信文本到視頻不會繼續(xù)快速改進,從而讓我們越來越接近難以區(qū)分真假的時代。想象一下,這項技術(shù)如果與人工智能驅(qū)動的聲音克隆相結(jié)合,是否會在構(gòu)建那些人們從未做過的事情的深度偽造方面開辟出一條全新的道路?
Sora的視頻在描述有大量動作的復(fù)雜場景時仍然會出現(xiàn)一些奇怪的故障,這表明這類深度偽造視頻目前還可被檢測出來。然而長遠(yuǎn)看,必將出現(xiàn)魚目混珠的局面。隨著Sora在2024年用人工智能生成的視頻讓世界幾乎不再可能區(qū)分人工智能和現(xiàn)實,信息時代已經(jīng)結(jié)束,而虛假信息時代正式開始了。
到2030年,大多數(shù)人都將知道,使用免費的人工智能工具可以偽造任何視頻、任何聲音或任何陳述。他們每天都會在網(wǎng)上生成難以計數(shù)的虛構(gòu),而且其數(shù)量在未來的更多年里只會激增。
我們生活在這樣的時代,人類知識的總和幾乎完全可以從我們口袋里的小裝置中獲取,但人工智能卻有可能毒害這口井。這并不是新鮮事——Sora不是互聯(lián)網(wǎng)面臨的第一個威脅,也不會是最后一個,但它很可能是迄今為止最具破壞性的。
從媒介素養(yǎng)的角度來看,這將使得驗證任何用戶生成的內(nèi)容變得極為復(fù)雜,因為現(xiàn)在用戶可以生成他們想要的任何內(nèi)容。由于我們現(xiàn)在生活的整個世界都是后真相的,所以很多人致力于在故事中編造虛假的敘述。圖像比文本更難,因為你必須具備Photoshop或類似軟件的應(yīng)用知識,它存在進入障礙。而視頻是一個更高量級的難點。制作虛假視頻需要花費大量時間、專業(yè)知識和金錢。但有了Sora及類似應(yīng)用,現(xiàn)在只需輸入提示并獲取即可。
這將如何改變新聞業(yè)?我相信Sora使各路議程設(shè)定者能夠生成比過去多得多的內(nèi)容。而人工智能生成的營銷者和影響者內(nèi)容的爆炸式增長,這可能有效排擠合法的新聞和媒體。
可嘆的是,人們對這樣的可怕未來不僅渾然不覺,反而拼命歡呼每一波新的人工智能技術(shù)浪潮的到來。新技術(shù)總是具有天然的眼球吸引力,各種大小媒體的流量追逐并不新鮮。然而,在隨波逐流當(dāng)中,鮮有人分析人工智能報道的框架。有誰在認(rèn)真對這些技術(shù)的工作原理進行澄清嗎?存在令人信服的對一些真正離譜的炒作的有力回應(yīng)嗎?
結(jié)果是什么呢?公眾得到的是科幻版的人工智能故事,最終被排除在圍繞倫理、使用和未來工作的重要討論之外。這一切都在加劇對人工智能理解的好萊塢化。
(作者系北京大學(xué)新聞與傳播學(xué)院教授)
《中國新聞周刊》2024年第9期
聲明:刊用《中國新聞周刊》稿件務(wù)經(jīng)書面授權(quán)