NVIDIA 宣布,他們推出一波前瞻人工智慧研究,希望使開發人員和藝術家能夠將他們的想法變為真實。官方釋出相關研究論文重點內容,並預告這些與美國、歐洲和以色列十幾所大學合作的 20 篇推動生成式 AI 和神經圖形的 NVIDIA Research 研究論文,將於 8 月 6 日至 10 日在美國洛杉磯舉行的電腦繪圖專業盛會 SIGGRAPH 2023 上發表。
NVIDIA 今天推出一波前瞻的人工智慧研究,使開發人員和藝術家能夠將他們的想法變為真實 — 無論是靜止的還是移動的、2D 或 3D 的、超現實主義的還是奇幻的。
透過與美國、歐洲和以色列十幾所大學合作的 20 篇推動
生成式 AI 和神經圖形的 NVIDIA Research 研究論文將於 8 月 6 日至 10 日在美國洛杉磯舉行的電腦繪圖專業盛會
SIGGRAPH 2023 上發表。
這些論文包括將文字轉換為個性化圖像的生成式人工智慧模型、將靜止圖像轉換為 3D 物件的逆向渲染工具、使用 AI 以驚人的真實感模擬複雜 3D 元素的神經物理模型、 和可解鎖生成實時、AI 驅動的視覺細節的神經渲染模型。
今年在 SIGGRAPH 上展示的研究進展將幫助開發人員和企業快速生成
合成資料 ,以填充用於機器人和自動駕駛車輛培訓的虛擬世界。它們還可以讓藝術、建築、平面設計、遊戲開發和電影創作人更快地製作出用於分鏡、預視和甚至影片製作的高品質視覺效果。
具有個人風格的 AI:定製的文字到圖像模型
將文字轉換為圖像的生成式 AI 模型是創造概念藝術和對於電影、遊戲和 3D 虛擬世界製作分鏡表的強大工具。文字到圖像的 AI 工具可以將像是「兒童玩具」之類的提示變成幾乎無限的視覺效果,創作者可以從中獲得靈感 — 產生絨毛動物玩具、積木或拼圖的圖像。
然而,藝術家可能有一個特定的主題。 例如,某玩具品牌創意總監可能正在圍繞一隻新款泰迪熊策劃一項廣告活動,並希望在不同情況下形象化該玩具,例如泰迪熊茶會。為了在生成式 AI 模型的輸出中實現這種級別的特異性,特拉維夫大學和 NVIDIA 的研究人員撰寫了兩篇 SIGGRAPH 論文,讓使用者能夠提供讓模型可以快速學習的圖像範例。
第二篇論文介紹了一種名為 Perfusion 的高度緊湊模型,它採用少量概念圖像,允許用戶將多個
個性化元素 (例如特定的泰迪熊和茶壺)組合成一個人工智慧生成的視覺效果:
提供 3D 世界內的服務:逆向渲染和角色創建的進展
一旦創作者構思出虛擬世界的概念藝術,下一步就是渲染環境並使用 3D 物體和角色進行填充。NVIDIA Research 正在發明人工智慧技術,透過自動將 2D 圖像和影像轉換為 3D 來加速這個耗時的過程,讓創作者可以將其導入繪圖應用程式進一步編輯。
與加州大學聖地亞哥分校的研究人員共同創作的第三篇論文,討論了可以基於單張 2D 肖像進而生成和渲染出逼真的 3D 頭肩模型的技術,這是一個重大突破,可以讓使用 AI 進行 3D 頭像創建和 3D 視訊會議變得更加容易。 該方法在消費者電腦桌面上實時運行,並且可以僅使用傳統的網路攝影機或智慧手機攝影功能就生成逼真的或風格化的 3D 遙現(Telepresence)遠端臨場)。
第四個專案是與史丹佛大學合作,為 3D 角色帶來逼真的動作。研究人員建立了一個 AI 系統,該系統能夠從真正的網球比賽的 2D 影片記錄中學習一系列網球技巧,並將動作應用於 3D 角色。模擬的網球選手可以精確地將球打到虛擬球場上的目標位置,甚至可以與其他角色進行長時間的回合比賽。
除了網球的測試案例外,這篇 SIGGRAPH 文章還探討了如何在不使用昂貴的運動捕捉資料的情況下,創造出具有多種技能、並能進行真實運動的 3D 角色。
不失一根頭髮:神經物理學實現逼真的模擬
當 3D 角色生成後,藝術家可以增加像是頭髮這樣逼真的細節,這對動畫師來說是一個複雜且需要大量運算的挑戰。
人類平均有 100,000 根頭髮,每一根都會隨著個人動作和周圍環境而動態變化。傳統上,創作者使用物理公式來計算頭髮的運動,根據可用資源來簡化或近似頭髮的運動。這就是為什麼大製作電影中的虛擬角色擁有比即時遊戲中的角色更仔細的頭髮細節。
第五篇論文展示了一種使用神經物理學的方法,可以高解析度模擬數萬根頭髮。神經物理學是一種人工智慧技術,它教導神經網路預測物體在現實世界中的運動方式。
該團隊為實現完整規模頭髮的準確模擬提出了一種新穎的方法,專門針對現代 GPU 進行最佳化。與最先進基於 CPU 的解算器相比,它提供了顯著的效能提升,將模擬時間從多天減少到僅需幾小時,同時提高了即時的頭髮模擬品質。這種技術終於實現了物理精確與互動的頭髮造型。
神經渲染為實時繪圖帶來電影品質的細節
當一個虛擬環境被填充了動畫 3D 物體和角色後,實時渲染會模擬光線通過虛擬場景反射的物理過程。NVIDIA 最近的研究顯示,紋理、材料和體積的 AI 模型可以在實時渲染中提供電影等級的逼真視覺效果,可用於遊戲和數位孿生。
NVIDIA 二十年前就發明了可程式化的著色技術,使開發人員可以自定義繪圖管道。在這些最新的神經渲染發明中,研究人員透過運行在 NVIDIA 實時繪圖管道內的 AI 模型來擴展可程式化著色代碼。
在第六篇 SIGGRAPH 論文中,NVIDIA 將呈現神經紋理壓縮,在不佔用額外 GPU 記憶體的情況下,提供高達 16 倍的紋理細節。神經紋理壓縮可以大幅提升 3D 場景的真實感,如下圖所示,這說明神經壓縮紋理(右)如何捕捉比先前格式更清晰的細節,在先前格式中文本保持模糊(居中)。
神經壓縮紋理(右)在不佔用額外 GPU 記憶體的情況下,提供高達 16 倍的紋理細節
第七篇論文介紹的是
NeuralVDB ,這是一種 AI 驅動的資料壓縮技術,可使表示煙、火、雲和水等體積資料所需的記憶體減少 100 倍。
NVIDIA 今天還發佈了關於更多神經材料細節的研究,這些細節在最新的
NVIDIA GTC 主題演講 中已展示。該研究描述了一個 AI 系統,它學習光如何從真實的多層材料反射,將這些資產的複雜性降低到實時運行的小型神經網路,使陰影處理速度提高 10 倍。
從這個神經網路渲染的茶壺中可以看出其逼真度,它準確地呈現了陶瓷、不完美的清釉、指紋、污跡甚至灰塵。
此神經網路模型學習光如何從真實的多層材料反射
更多生成式 AI 與繪圖研究
以上只是其中的重要亮點,請閱讀更多關於 SIGGRAPH 上所有 20 份 NVIDIA 論文的內容。NVIDIA 還將在大會中提供 6 門課程、4 場講座和 2 場
新興技術 演示,主題包括路徑追蹤、遙現和生成式 AI 的擴散模型。