




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
3D行業專題研究報告:AI的下一個涌現一、文生2D復盤:“千萬級數據和億級數據”是關鍵2D模型數據量變大,涌現能力出現涌現能力的定義:在小模型中沒有表現出來,但是在大模型中變現出來的能力。涌現能力大概可以分為兩種:通過提示就可以激發的涌現能力和使用經過特殊設計的prompt激發出的新的能力。無論哪種涌現能力,當模型規模超過一個臨界值時,效果會馬上提升。以LeNet和AE為例,涌現能力在CV計算機視覺任務中也有所體現。LeNet是由YannLecun(2018年圖靈獎得主創造,其在手寫體字符識別領域創造性引入卷積神經網絡,是CNN的發展起點,通過觀察LeNet在MNIST21上訓練的結果,隨著模型參數的增加,測試精度顯示出不可預測的大幅增長;而在CIFAR100圖像數據集上訓練的自編碼器(AE)隨著模型參數的增加顯示陡峭的均方重建誤差變化。擴散模型領先于GAN、自回歸模型擴散模型(diffusionmodels)成為2D生成模型中主流模型,逐漸領先于GAN、自回歸模型,顯著提高了圖像生成的穩定性、準確性和多樣性。并且擴散模型在諸多應用領域都有出色的表現,如計算機視覺,NLP、波形信號處理、多模態建模、分子圖建模、時間序列建模、對抗性凈化等。ImageNet:首個千萬級別2D數據集,借助眾包平臺完成ImageNet數據集09年發布,目前包含約1500萬張標注圖像。ImageNet數據集由斯坦福大學教授李飛飛牽頭從2007年開始收集建立。2009年發布時包含有320萬張圖像,是當時最大的2D圖像數據集。經過發展,ImageNet數據集已擁有22000類約1500萬張標注圖像。ImageNet來源于網絡圖像,借助眾包平臺(MechanicalTurk)完成。數據集的大量圖像數據來自于日益增長的網絡平臺,考慮到手動標注工作的大量人力需求,研究團隊借助于MechanicalTurk(亞馬遜開發的眾包平臺)完成這項工作。多個重量級算法誕生于ImageNet數據集基于ImageNet的比賽ILSVRC每年舉辦一次,從2010年開始舉行,2017年后的比賽由Kaggle社區主持。比賽逐漸成為全球大型賽事,2016年有172個作品參賽。短短7年內,分類領域的錯誤率就從0.28降到了0.03。以擴散模型為基準,ILSVRC冠軍算法中AlexNet(12年)、GoogleNet(14年)、ResNet(15年)、SENet(17年)等算法均超過擴散模型的影響力(以年均被引用量表示算法影響力)。比賽的歷年優勝者中,誕生了基于ImageNet訓練的AlexNet、VGG(2014年定位比賽冠軍)、GoogleNet等經典的深度學習網絡模型。冠軍算法歷年的測試錯誤率在6年間從15%下降到2%,極大地推動了計算機視覺領域的發展。LAION:破億數據集出現,模型落地離不開億級數據LAION(擁有全球成員的非營利組織)在2021年公布的LAION-400M是當時最大的公開圖文數據集,22年10月發布的LAION-5B是上一版本的14倍。網絡爬蟲帶來數億級別公有數據集。LAION的收集使用加州非營利組織CommonCrawl收集到的代碼來定位網絡上的圖片,并將它們與描述性文本關聯起來,對人工的依賴性很小。上億數據集成為圖像訓練模型成熟應用的必要條件。LAION的數據集已經被用于文生圖的生成器,包括谷歌Imagen和StableDiffusion。同時,其他已落地圖像生成應用的國內外公司均是在上億級別的2D圖像數據集進行模型訓練取得滿意效果。二、3D研究框架:已破千萬級數據集,OpenUSD加速數據集擴張3D發展研究框架OpenUSD統一數據表現形式和文件格式,提供3D發展加速度。3D數據集數據記錄形式多樣,包含點云、體素等,以往模型往往針對不同形式有不同的算法;同時,3D數據文件格式多樣,跨文件轉化不易,也提高了數據集收集門檻,限制了3D數據集的發展。而OpenUSD的推進有望解決以上問題,進一步解決數據集規模問題。更大數據集和更好模型相互促進發展。基于更大3D數據集進行的訓練能夠得到更好的3D生成質量。生成結果經過簡單處理可以大大減少人工建模時間和步驟,從而進一步擴大3D數據集,至此3D生成領域良性循環發展。3D模型表示方式多樣,隱式表示越來越受重視主要數據表示方式:隱式表示,其中INRs(隱式神經表示)被用于3D主流模型NeRF中,受到學界重視。3D數據的世界沒有一致性,目前已有的3D數據集表示方法包括點云、網絡、體素、多視角圖片等,不同的表示采用的訓練路徑也大不相同。隱式表示解決了顯式表示造成重疊、消耗內存等缺點,適用于大分辨率場景,INRs甚至可以生成照片級的虛擬視角。NeRF模型首次利用隱式表示實現了照片級的視角合成效果,也將隱式表示推向新的高度。通用格式解決模型互導問題,USD簡化3D文件訪問3D文件格式多樣,適用領域不同,模型互導問題通過通用文件格式解決。3D創建需要各種工具和平臺的搭配利用,其他應用程序無法編輯甚至讀取,帶來了模型互導的問題,導致3D文件格式眾多,種類有數十種。多軟件之間對同一模型進行編輯操作時先將模型文件另存為通用格式,再導入到其它軟件。USD作為一種通用軟件,支持移動端等途徑的便攜訪問和讀寫。許多傳統3D模型為本地客戶端設計,需要極高的硬件配置才能正常瀏覽,存儲占用較大且文件打開速度慢。而對于.usd/.usdz文件格式,用戶可像瀏覽普通照片或者文本一樣在桌面端、Web端、移動端、AR/VR等終端正常瀏覽。USD統一3D表示標準,OpenUSD聯盟降低USD使用門檻USD承擔互聯網3D時代的HTML角色。23年8月8日SIGGRAPH大會上,NVIDIA創始人黃仁勛表示:“正如HTML點燃了2D互聯網的重大計算革命,OpenUSD也將開啟協作式3D和工業數字化的時代。”AOUSD不斷降低USD文件學習和使用門檻,推動USD成為3D標準。USD是由皮克斯公司(Pixar)開發的開源格式,可以在不同的工具間進行內容創作和交換,但學習曲線陡。針對這一問題,致力于推動USD文件格式發展的OpenUSD聯盟(AOUSD,由皮克斯、Adobe、蘋果、Autodesk和英偉達與Linux基金會下屬組成)開展了一系列有效舉措,如NVIDIAOmniverse?平臺,來降低用戶的使用阻力。首個千萬級數據集出現,3D發展來到2D的“2020-2021年”2023年7月11日發布的Objaverse-XL數據集包含1020萬3D資產,對比于Objaverse1.0版本增加一個量級。bjaverse-XL通過對互聯網上3D對象的類源進行爬蟲獲取,實例涵蓋生活、虛擬多樣化場景,最終獲得了1020萬已渲染的高質量3D文件數據。類比于2D生成發展路徑,3D生成出現了具有統治地位的NeRF模型和千萬級數據集Objaverse-XL,3D發展來到2D的“2020-2021年”。可以預見當未來數據集成長到億級,3D生成也將迎來爆發。數據集越大,新視角圖片更優,3D生成效果更好對已有算法PixelNeRF(NeRF的一種改進方法)和Zero123(一種文生圖模型)進行訓練,發現通過基于更多數據進行訓練,3D質量有顯著的改進。PixelNeRF隨著數據集量級變大,圖像質量評估指標PSNR(PeakSignal-to-NoiseRatio,峰值信噪比,數值越大表明失真越少)變大,表明新生成的視角圖像質量越好,有利于提高后續三維重建質量;對使用Objaverse-XL(1000萬量級數據)、Objaverse(800萬量級數據)訓練得到的Zero123-XL和Zero123比較,發現生成的3D資產側面、背面的完成度有顯著的提升。3D資產建模流程長,免費實例不足原有3D建模流程長,具有資產屬性。3D資產在游戲、動畫公司等均屬于資產,目前大多數實例由Blender和Maya3D等建模軟件手工設計,人工建模涉及環節多,主要流程有:尋找實例-粗略布局-細節說明-紋理-渲染檢查,且建模過程需要大量時間和專業知識。3D資產昂貴,免費實例不足。公開的免費實例較少,成為阻礙3D數據集擴展的主要原因。在號稱世界上最大的3D內容庫平臺Sketchfab上,3D模型每個價格從$3-$500不等。3D生成質量變好,模型產物補充3D數據集內容3D模型訓練效果依賴于3D數據集,但目前的數據集量級無法激發出模型的涌現能力,對生成的AI+3D資
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園疫情后課程調整與實施計劃
- 在職證明書員工在職單位專用(5篇)
- 腹瀉護理要點與規范
- 傳統節日的作文400字13篇
- 中國書法史課件
- 物流行業智能倉儲系統升級方案
- 人教版歷史教師培訓與發展計劃
- 建筑設計創意與理論知識測試
- 醫院三級感染管理制度及其職責
- 月亮下的思念抒情作文7篇
- 2025屆吉林省長春市高三質量監測(三)政治試題及答案
- GB/T 24894-2025動植物油脂甘三酯分子2-位脂肪酸組分的測定
- 2024年江蘇常州中考滿分作文《那么舊那樣新》8
- 4P營銷理論課件
- 幕墻工程施工方案及述標文件
- 《生鮮農產品供應鏈中雙渠道模式合作演化博弈實證研究》17000字
- 湖北省武漢市華師一附中2025屆中考生物押題試卷含解析
- 竣工結算審計服務投標方案(2024修訂版)(技術方案)
- 某藥業公司管理制度匯編
- 《佛與保險》課件
- 第7課《全球航路的開辟和歐洲早期殖民擴張》中職高一下學期高教版(2023)世界歷史全一冊
評論
0/150
提交評論