深度學習框架:算法集成和產業基礎_第1頁
深度學習框架:算法集成和產業基礎_第2頁
深度學習框架:算法集成和產業基礎_第3頁
深度學習框架:算法集成和產業基礎_第4頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

深度學習框架:算法集成和產業基礎國務院發展研究中心馬駿馬淑萍;百度在線網絡技術(北京)有限公司胡曉光張軍發布時間:2023-11-02【內容提要】人工智能發展離不開算法、算力、數據三要素,深度學習框架是加速算法創新和應用的基礎軟件,是決定產業技術水平的關鍵。在深度學習框架方面,我國與美國存在較大差距。美國的領先地位源自先發優勢,也得益于科技巨頭的大力推動,更重要的是生態體系導致的強者恒強。在大國競爭的背景下,應高度重視深度學習框架在人工智能產業發展中的關鍵作用,遵循產業發展規律制定長期追趕策略。【關鍵詞】深度學習框架,人工智能,算法集成基于深度學習框架在自然語言處理、內容生成方面的能力,人工智能開始從解決單一任務向通用人工智能邁進,有望成為引領新一輪技術創新的關鍵技術。[1]大模型背后是新的產業結構體系,傳統信息產業的基本結構體系為“芯片—操作系統—應用”,人工智能產業的基本結構體系則演變為“芯片—框架—模型—應用”。個人電腦(PC)時代美國的“Windows+Intel”作為產業基礎主導了全球產業發展,人工智能(AI)時代美國的“深度學習框架+英偉達”可能重演歷史。一、深度學習框架是人工智能產業發展的關鍵基礎深度學習框架是圍繞深度學習算法創新和應用形成的基礎軟件,包含算法開發、模型訓練、推理部署等核心功能。基于深度學習框架,可進一步匯聚算法模型、套件工具等軟件,構建服務模型開發至部署平臺。國際上典型代表有TensorFlow、PyTorch,國內有PaddlePaddle、MindSpore。深度學習框架在產業生態中的關鍵基礎作一是共享模塊化工具,減少重復勞動。深度學習框架提供基礎網絡結構,如卷積、池化、全連接、多頭注意力等,實現神經網絡的反向傳播計算,供開發者使用,讓開發者在他人成果的基礎上專注于更高層級的創新。深度學習框架不僅提供編譯優化全局代碼的靜態開發模式,還提供調整局部代碼即可獲得執行結果的動態開發模式,二是提供開發部署工具,賦能產業鏈上下游。在開發方面,深度學習框架不僅適配各類硬件(不同類型的CPU、GPU),還可適用各類操作系統(Windows、Linux、MacOS、Android、iOS等),且支持多種編程接口(C+、Python、Java及大量API等)。在部署方面,深度學習框架還可以提供全流程、全場景推理部署工具,支持服務器、移動端、邊緣端、網頁端等不同硬件場景。三是將學術創新直接轉化為產品,成為科研創新商業化的橋梁。科研人員在視覺、自然語言處理等人工智能領域通過使用深度學習框架取得大量研究成果,部分成果會隨論文一起發布開源。這些算法模型在開源社區快速擴散和不斷演進,并轉化為相關智能產品,是深度學習技術不斷突破創新的重要動力。四是構建生態,實現正反饋循環。深度學習框架匯聚了科研人員、開發人員和應用部署人員,不同人群既從其中獲得技術工具支持,也貢獻出算法和數據。深度學習框架生態產業鏈上匯聚相關資源,互相支持、快速迭代,形成正反饋效應,加快產業生態創新的步伐。人工智能發展幾乎離不開深度學習框架的支撐(圖1),如OpenAI開發GPT系列大模型建立在PyTorch上。國內的PaddlePaddle深度學習框架創造67萬個深度學習模型,如百度的文心一言大模型為20多萬家企事業單位提供人工智能服二、中美深度學習框架差距較大美國是深度學習框架的起源地和領導者,形成了以TensorFlow、PyTorch為代表的多個主流框架。我國是跟隨者,主要代表框架是Paddlepaddle、Mindspore,總與其他開源項目一樣,生態是深度學習框架的決定性因素。性能是競爭的起點,但各個框架相互學習,在兼容性、便利性等方面逐漸趨同。生態決定了創新能力和速度,強大的生態參與者眾多,網絡效應強、協同效率高,帶來的是貢獻代碼多、修訂錯誤能力強、應用更加廣泛。深度學習框架一般在GitHub上托管,GitHub統計“提交次數”“分叉數”“收藏數”“貢獻者數”“項目使用數”等生態指標。美國在深度學習框架的生態指標方三、中美深度學習框架的差距來源分析美國在深度學習框架上的領先地位既反映其綜合實力,也體現數字經濟強者恒強的規律,我們要充分認識到創新追趕的艱巨性。西方學術界一直存在開源共享的文化,2007年蒙特利爾大學的YoshuaBengio和IanGoodfellow推出深度學習庫Theano,2013年加州伯克利大學的賈揚清建立深度學習框架Caffe,對學術研究發揮重要作用。之前深度學習領域缺少完全公開全部代碼、算法和各種細節的框架,導致很多研究人員多次重復實現相同的算法。早期框架的建立對于深度學習開源社區的貢獻非常大,不僅打下了產業基礎,也培養了大量人才。美國深度學習框架的領先都是建立在早期創新的基礎上,如Theano創始人轉向TensorFlow,成為主要技術骨干;PyTorch的前身是2002年發布初版的Torch,Caffe的創始人賈揚清于2016年加入Facebook,為PyTorch發展作出了貢獻。而我國的深度學習框架起步較晚,如PaddlePaddle和MindSpore分別于2016年8月和2020年3月才推出。(二)得益于科技巨頭的大力推動科技巨頭不僅貢獻大量源代碼,也是重要用戶,在產業生態方面具有極強號召力。美國頂級深度學習框架有四大陣營,包括Google領導的TensorFlow、Amazon參與的MXnet、Facebook傾力打造的PyTorch、Microsoft積極支持的CNTK。我國領先的深度學習框架PaddlePaddle和MindSpore,是由百度和華為兩大科技企業支持。美國的四大科技巨頭在實力和號召力上領先于我國同類企業,因此對深度學習框架的支持力度也更大。(三)依靠強大生態體系的正反饋效應不斷鞏固加強全球開發者大部分活躍在PyTorch和TensorFlow社區,社區積累的數據和算法越來越多,在使用中也越來越完善,而且用戶形成了使用習慣,在工作招聘中也會占有一定優勢。為進一步促進PyTorch生態的發展,2022年9月臉書公司將PyTorch移交給Linux基金會管理,為框架建立一個更加“中立”的家園,打造一個透明的社區治理機制,用戶、維護者和社區開始將其視為可以永久依賴和信任的公共資源。創新生態匯聚了全球力量,以科研論文為例,根據PaperswithCode網站對Github倉庫導入內容和檢查代碼的統計,絕大多數科研論文都是在Pytorch、Tensorflow等少數平臺實現,這些平臺由此積累的算法優勢會越來越明顯。科研生態的巨大優勢幫助PyTorch獲得了大量的用戶,吸引更多美國頂尖高科技企業如英偉達、微軟等持續為PyTorch生態做貢獻,比如英偉達開源Megatron-LM以幫助PyTorch解決大模型并行訓練的問題,微軟開源ONNXRuntime以幫助PyTorch解決推理部署的問題。相比之下,國內的PaddlePaddle和MindSpore主要依靠核心企業貢獻,生態體系的差距非四、我國需不斷筑牢人工智能產業的算法基礎(一)高度重視深度學習框架的關鍵基礎作用第一,深度學習框架對人工智能企業發揮關鍵支撐作用。例如,PaddlePaddle的前身是百度在2013年自主研發的深度學習平臺,在百度內部已經使用多年,支持百度內部各項業務。2016年8月百度開源了PaddlePaddle,在短時間內迅速成為全球開發熱度(GithubPullRequest數量)增速最高的開源深度學習平臺,這不僅為其他企業提供服務,也加快PaddlePaddle的發展,為百度人工智能業務提供更加強大的支撐。美國四大互聯網企業都選定一個深度學習框架,作為各自企業人工智能產品服務開發的基礎平臺,形成深度合作關系。這些企業將框架開放,吸引社會力量參與,實際上也是幫助企業提升算法平臺。第二,新形勢下必須高度重視產業安全。我國的人工智能產業目前還是以利用國外深度學習框架、依托國外開源社區為主,對國外依附性強,存在較大的開源項目鏈斷供風險。從理論上看,目前全球領先的深度學習框架,如TensorFlow、PyTorch等,均誕生于美國或由美國公司、基金會掌控,美國政府完全可以命令這些框架閉源斷供。從實踐上看,大國競爭的重點正是以人工智能為代表的高科技領域,美國政府已經開始利用關閉開源軟件這一重量級“武器”,例如美國政府將一些中國企業列入“實體名單”,限制使用開源的安卓系統。因此,我國只有高度重視并建立堅實的人工智能產業基礎,才能真正提升產業國際競爭力。(二)遵循產業發展規律制定長期追趕策略數字經濟的競爭是產業生態的競爭,產業生態顯著放大了先發優勢與后發劣勢。深度學習框架又是技術發展最快的領域,美國依靠科技和產業優勢進一步實現強者恒強、贏者通吃。構建人工智能底層平臺所需的技術要求高、周期長、投入大、收益慢,在美國已經形成先發優勢背景下,大多數開發者包括中國開發者傾向于選擇在美國平臺上進行二次開發應用,進而形成全球開發者生態,產生正反饋效應。我國要突破生態系統的劣勢并不容易,需要全面提高綜合實力,并經歷逐步積累,實現從量變到質變的過程。我們必須遵循產業發展規律從長計議。在策略上,首先要保持“緊密跟隨”態勢,不要掉隊太遠;其次爭取在部分領域形成獨特優勢,支持國內產業發展,例如在工業應用領域,形成強大的開源生態;最后,要堅持積累、縮短差距,在生態力量積累到一定程度時,力爭與美國并駕齊驅甚至實現超越。(三)建議政府部門和產業界共同商議對策思路從政策角度看,必須解決4個關鍵堵點:一是解決國內科研論文主要在海外深度學習框架上完成的問題。我國人工智能科研論文數量已經名列世界前茅,從科技交流角度和支持國內產業角度看,不應限制這些論文在海外平臺上實現,但要鼓勵這些科研論文在國內平臺上實現,將論文優勢轉化為產業創新優勢。二是解決網絡對外開放的問題。要在網站訪問、數據流動等方面提供便利,為全球資源匯聚創造條件。三是鼓勵各種技術創新組織的創立和發展。例如,放寬對開源基金會設立的限制,鼓勵社會資本參與,對于捐助的個人和企業予以減免稅鼓勵。四是鼓勵國內深度學習框架在教育中的應用。支持企業在高校開設實踐課程,鼓勵青年學者利用國產學習框

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論