編輯|杜偉
谷歌世界模型,再一次驚艷了所有人!
今天一早,谷歌 DeepMind 開放了世界模型 Genie 3 的實(shí)驗(yàn)性研究原型「Project Genie」,允許用戶創(chuàng)建、編輯并探索虛擬世界。
在世界模型 Genie 3 之外,Project Genie 同樣由圖像生成與編輯模型 Nano Banana Pro 和語言模型 Gemini 提供技術(shù)支撐。
去年 8 月,谷歌預(yù)發(fā)布了通用世界模型?Genie 3,它能夠生成多樣化的交互式環(huán)境。在這一早期階段,受邀測試者們已經(jīng)創(chuàng)造出了令人印象深刻且極具吸引力的虛擬世界與沉浸式體驗(yàn),并挖掘出了全新的使用方式。
接下來的目標(biāo)是構(gòu)建一個專注于「沉浸式世界創(chuàng)建」的交互式原型,進(jìn)一步擴(kuò)大受眾范圍。
因此自即日起,谷歌面向美國 18 歲及以上的 Google AI Ultra 用戶開放了 Project Genie 的訪問權(quán)限。
Project Genie 的多樣性玩法
世界模型能夠模擬環(huán)境的動態(tài)變化,并預(yù)測環(huán)境的演變方式以及動作對環(huán)境的影響。
與靜態(tài) 3D 快照中的可探索體驗(yàn)不同,谷歌通用世界模型 Genie 3 會在用戶移動并與世界交互時(shí),實(shí)時(shí)生成前方的路徑。
它能夠?yàn)閯討B(tài)世界模擬出物理效果和交互,并且其突破性的一致性使得模擬任何現(xiàn)實(shí)場景成為可能,從機(jī)器人技術(shù)、動畫建模和小說創(chuàng)作,到地點(diǎn)探索和歷史場景還原。
如今,在 Genie 3、Nano Banana Pro 和 Gemini 等三大模型的支持下,Project Genie 具備了以下三大核心能力:
首先是,世界草繪(World sketching)。
通過文本提示詞以及生成或上傳的圖片,用戶即可創(chuàng)建一個生動且不斷擴(kuò)張的環(huán)境。用戶可以創(chuàng)建自己的角色和世界,并定義自己想要的探索方式,比如行走、騎行、飛行或者駕駛,等等。
為了實(shí)現(xiàn)更精準(zhǔn)的控制,谷歌將「世界草繪」與 Nano Banana Pro 進(jìn)行了整合。這樣一來,用戶在正式進(jìn)入世界之前,可以預(yù)覽世界的樣貌并修改圖像以進(jìn)行微調(diào)。
用戶還可以定義角色的視角(第一人稱或第三人稱),在進(jìn)入場景前掌控自己的視覺體驗(yàn)。
其次是,世界探索(World exploration)。
用戶創(chuàng)建的世界是一個等待探索的可導(dǎo)航環(huán)境。在移動時(shí),Project Genie 會根據(jù)用戶采取的行動實(shí)時(shí)生成前方路徑。在穿行過程中,用戶還可以調(diào)整相機(jī)視角。
最后是,世界重混(World remixing)。
通過在原有提示詞的基礎(chǔ)上進(jìn)行創(chuàng)作,將現(xiàn)有世界重混成新的演繹版本。用戶也可以在畫廊或「隨機(jī)生成」圖標(biāo)中探索精選世界以獲取靈感,并在此基礎(chǔ)上繼續(xù)構(gòu)建。
完成后,用戶可以下載關(guān)于自己的世界和探索過程的視頻。
不過目前,谷歌也承認(rèn),Genie 3 仍處于早期研究階段, 以下幾個方面需要進(jìn)一步改進(jìn):
生成的世界可能看起來并不完全逼真,或者并不總是能嚴(yán)格遵循提示詞、圖像或現(xiàn)實(shí)世界的物理規(guī)律;
角色有時(shí)可能不太受控,或者在控制上存在較高的延遲;
生成內(nèi)容的時(shí)長限制在 60 秒以內(nèi);
此前宣布的部分 Genie 3 功能(例如在探索時(shí)改變世界的提示事件「promptable events」)尚未包含在此原型中。
第一手體驗(yàn)出爐
谷歌開放 Project Genie,終于讓更多用戶親身體驗(yàn)到了世界模型 Genie 3 的「AI 生萬物」。
已經(jīng)上手的 Ultra 用戶紛紛曬出了自己的作品,給予了不錯的評價(jià)。
「剛剛用 Genie 3 做出了我的第一款 AI 游戲。提示詞:一位法國女子必須攀越一個違背邏輯的世界,到處都是飛行物體。這會是游戲行業(yè)的終結(jié)嗎?」
「Genie 3 能運(yùn)行《毀滅戰(zhàn)士》(Doom)嗎?看它生成的《毀滅戰(zhàn)士》,墻壁全是由同樣在運(yùn)行《毀滅戰(zhàn)士》的屏幕組成;主角是《毀滅戰(zhàn)士》里的陸戰(zhàn)隊(duì)員,但他的頭也是一個正在運(yùn)行《毀滅戰(zhàn)士》的屏幕?!?/p>
「Genie 3 在建模和物理模擬方面是一個巨大的飛躍,但仍存在一些待解決的問題,比如一只頭頂著鴨子的水獺飛行員正走在一家羅斯科(Rothko)風(fēng)格的機(jī)場里;以及一只穿著翼裝的水獺正飛越一座充滿哥特式塔樓的城市?!?/p>
「看 Genie 3 生成的人物是怎么打開車門的,這簡直太令人震撼了?!?/p>
「畫面提示詞為:一個男人正沿著好萊塢大道漫步。不僅能控制這個男人的動作,還能實(shí)時(shí)操控相機(jī)的視角?!?/p>