NVIDIA Research 正在開發(fā)一款新學(xué)習(xí)引擎,可以使用基本的 2D 影像來建立 3D 物件模型,並且能夠在 NVIDIA Omniverse 中將影集《霹靂遊俠》裡那輛人工智慧(AI)霹靂車 KITT 這類極為經(jīng)典的車輛化為現(xiàn)實。
由位在多倫多的 NVIDIA AI Research Lab 開發(fā)的 GANverse3D 應(yīng)用程式,能將平面影像打造成逼真的 3D 模型,並且可以在虛擬環(huán)境中進行視覺化的呈現(xiàn)和控制。這項功能可以幫助建築師、創(chuàng)作者、遊戲開發(fā)者和設(shè)計師輕鬆地在他們的模型中加入新的物件,無需 3D 建模方面的專業(yè)知識,也不用花費大筆預(yù)算進行渲染。
舉例來說,將一張汽車的照片變成一個 3D 模型,這個模型可以在虛擬場景中行駛,車上還配有逼真的頭燈、尾燈和方向燈。
為了產(chǎn)生訓(xùn)練用的資料集,研究人員利用生成對抗網(wǎng)路(GAN)來合成從多個視角描繪同一物件的影像,就像攝影師圍繞一輛停放的車子走動,並從不同的角度進行拍攝。這些多視角影像被插入一個用於製作反影像的渲染框架中,這便是從 2D 影像推論出 3D 網(wǎng)格模型的過程。
使用多視角影像進行訓(xùn)練後,GANverse3D 只需要一張 2D 影像便能預(yù)測出一個 3D 網(wǎng)格模型。此模型可以搭配 3D 神經(jīng)網(wǎng)路渲染器,讓開發(fā)人員可以控制自訂物件和背景交換。
如果將 GANverse3D 當作 NVIDIA Omniverse 平臺的擴充項目進行匯入,並且在 NVIDIA RTX GPU 上運行,便能透過 GANverse3D 把任何 2D 影像重新打造成 3D 物件,例如將 1980 年代熱門電影影集《霹靂遊俠》中,那輛深受觀眾喜愛、協(xié)助主角打擊犯罪的經(jīng)典汽車 KITT。
過去用於製作反影像的模型將 3D 形狀作為訓(xùn)練資料。
NVIDIA 研究科學(xué)家、同時也是這項研究的主要發(fā)起人 Wenzheng Chen 表示:「現(xiàn)在無需使用 3D 資產(chǎn),我們便能將一個 GAN 模型變成一個超高效率的資料生成器,如此一來就能使用網(wǎng)路上的任何 2D 影像來建立 3D 物件。」
NVIDIA 研究人員且同為這項研究的發(fā)起人 Jun Gao 表示:「由於我們訓(xùn)練使用的是真實影像,而非依賴合成資料的一般訓(xùn)練管道,因此,所打造出來的人工智慧模型更適用於實際的應(yīng)用程式。」
NVIDIA 將在接下來的兩場會議上發(fā)表 GANverse3D 背後的研究成果,分別為五月的國際學(xué)習(xí)表徵會議(International Conference on Learning Representations; ICLR)與六月的國際電腦視覺與模式識別會議(Conference on Computer Vision and Pattern Recognition; CVPR)。
從平面影像到立體的 KITT
遊戲、建築與設(shè)計領(lǐng)域的創(chuàng)作者,使用像 NVIDIA Omniverse 模擬與協(xié)作平臺這樣的虛擬環(huán)境來測試新的想法,並且在打造最終產(chǎn)品前,以視覺化的方式呈現(xiàn)原型。開發(fā)人員透過 Omniverse Connectors,便能在 Omniverse 中使用他們喜愛的 3D 應(yīng)用程式,以即時光線追蹤技術(shù)來模擬複雜的虛擬世界。
不是每個創(chuàng)作者都有足夠的時間和資源為他們繪製的每個物體建立 3D 模型。渲染一臺展示間裡的汽車或街道上的建築物,所需捕捉的多視角影像成本可能會令人望之卻步。
這正是經(jīng)過訓(xùn)練的 GANverse3D 應(yīng)用程式可以派上用場的地方,將一輛汽車、一棟建築物,甚至一匹馬的標準影像,變成可以在 Omniverse 中進行自訂及製作動畫的 3D 物件。
研究人員為了重建霹靂車 KITT,將汽車影像丟進訓(xùn)練好的模型,讓 GANverse3D 預(yù)測出相應(yīng)的 3D 紋理網(wǎng)格,還有車輪和頭燈等各種車輛零件。他們接著使用 NVIDIA Omniverse Kit 和 NVIDIA PhysX 工具,將預(yù)測出的紋理變成高品質(zhì)的材料,讓霹靂車 KITT 的外觀和感受更加真實,並將其置於動態(tài)的駕駛序列中。
NVIDIA 深度學(xué)習(xí)工程師 Jean-Francois Lafleche 表示:「Omniverse 讓研究人員可以將令人興奮的先進研究成果,直接帶給創(chuàng)作者和終端用戶。在 Omniverse 中提供 GANverse3D 擴充項目,藝術(shù)家們將能為遊戲開發(fā)、城市規(guī)劃,甚至是訓(xùn)練新的機器學(xué)習(xí)模型,創(chuàng)造更豐富的虛擬世界。」
GAN 推動維度轉(zhuǎn)變
從不同角度捕捉同一物體的實體資料集實屬罕見,通常是使用 ShapeNet 等合成 3D 資料集來訓(xùn)練大多數(shù)將影像從 2D 轉(zhuǎn)成 3D 的 AI 工具。
為了從網(wǎng)路上的公開汽車影像等實體資料獲得多視角影像,NVIDIA 的研究人員改為使用 GAN 模型,在神經(jīng)網(wǎng)路層進行操作,將其變成一個資料生成器。
研究團隊發(fā)現(xiàn)打開神經(jīng)網(wǎng)路的前四層與凍結(jié)剩下的十二層,會使得 GAN 從不同視角渲染同一物體的影像。
凍結(jié)前四層和變動其它的十二層,神經(jīng)網(wǎng)路會從同一個視角產(chǎn)生不同影像。研究人員手動分配標準視角,在特定高度和相機距離下拍攝車輛,便能從單個 2D 影像中快速產(chǎn)生出多視角資料集。
最終使用 GAN 所產(chǎn)生出的 55,000 張汽車影像而訓(xùn)練出的模型,表現(xiàn)優(yōu)於使用熱門 Pascal3D 資料集所訓(xùn)練出的反影像網(wǎng)路。