計算機行業市場分析_第1頁
計算機行業市場分析_第2頁
計算機行業市場分析_第3頁
計算機行業市場分析_第4頁
計算機行業市場分析_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算機行業市場分析

一、多模態預訓練概述

多模態表示包含兩個或兩個以上事物表現形式

模態是事物的一種表現形式,多模態通常包含兩個或者兩個以上的模

態形式,是從多個視角出發對事物進行描述。生活中常見多模態表示,

例如傳感器的數據不僅僅包含文字、圖像,還可以包括與之匹配的溫

度、深度信息等。使用多模態數據能夠使得事物呈現更加立體、全面,

多模態研究成為當前研究重要方面,在情感分析、機器翻譯、自然語

言處理和生物醫藥前沿方向取得重大突破。

Transformer顛覆傳統模型,但限于單模態領域

2017年Transformer被提出,顛覆了傳統的深度學習模型,在機器

翻譯任務上實現了最好性能。Transformer在大規模語料庫上進行自

監督預訓練,然后在下游任務進行微調受到人們的關注,許多預訓練

大模型都是遵守這一范式提出,例如BERT、GPT等。雖然基于

Transformer的大模型都取得了很好的效果,但還是限于單一模態(文

本)上,無法將其self-attention中良好的泛化能力遷移到其他模態

(圖像、視頻等)中。Transformer不能遷移圖像領域的主要原因在

于輸入長度限制,以BERT為例,其輸入數據的長度只能支持512,

而對于像素為224*224的圖片來講,其輸入遠大于512o

ViT的出現打通了CV和NLP之間壁壘,推動多模態演進

ransformer(Self-attention)在文本領域優秀的表現吸引著計算機視

覺研究者,許多人開始將Transformer機制引入到計算機視覺。

Transformer限制在于其輸入數據大小,需要考慮輸入策略。谷歌借

鑒前人的思想,在強大的算力資源加持下,提出ViT模型。ViT模型

通過將圖片進行切割成一個個patch(原文將一張圖片切割成16個

patch),對patch進行處理,通過線性映射,變成Transformer可

接受的輸入,打通了CV和NLP之間的壁壘。

ViT中的Patchembedding在提取視覺特征方面效率優勢明顯

ViT不僅能夠讓Transformer能夠對圖像進行處理,而且ViT圖像特

征提取策略相較于之前的方式效率更高。

基于VisionTransformer,VideoTransformer模型出現

1、視頻領域基于ViT模型推出各類VideoTransformer。視頻是一個

典型的多模態形式,里面包含圖像、聲音、文字等。2、在ViT之前,

視頻方面的任務,如視頻理解等,基本是通過3D卷積網絡展開的。

借鑒ViT思想,許多VideoTransformer被提出來,其中包括

TimeSformer,TimeSformer將每一幀視頻抽象成圖像,并與其前一

幀和后一幀相結合進行運算。與3D卷積神經網絡(CNN)相比,

TimeSformer的訓練速度大約是其4倍,而推斷所需的計算量不足其

十分之一。TimeSformer的高效讓在高空間分辨率(例如高達

560x560像素的幀)和長視頻(包括高達96幀)上訓練模型成為可

能。

Transformer權重共享決定其適合多模態

Transformer存在權重共享,模型內部的某些模塊可以共享權重參數。

Transformer的權重共享主要是由于其自注意力模塊和前向傳播網絡

都和輸入序列長度無關。這種權重共享理念同樣適合用于多模態模型

中。例如,圖文多模態中,圖像訓練得到的權重參數可以用于訓練文

本,結果依然有效,甚至不用fine-tune。許多多模態模型都借鑒了

Transformer里面的權重共享理念,典型的案例包括VLMo模型,該

模型首先在BEiT中使用大規模純圖像數據預訓練視覺網絡和自注意

力模塊,然后凍結視覺網絡和自注意力模塊,通過對大量純文本數據

進行建模訓練語言網絡,最后使用視覺?語言預訓練整個模型。

BEiT模型的出現將生成式預訓練從NLP遷移到CV上

生成式預訓練是自監督學習重要方法和訓練目標,生成式預訓練核心

是在沒有標簽或者人工標注的情況下,學習如何產生數據。生成式預

訓練在自然語言處理中取得較大成功。BEiT模型的出現,將生成式

預訓練從NLP遷移到CV上,就是將BERT中的掩碼語言學習(MLM)

方法應用到圖像領域。之后的MAE模型也是基于BEiT的工作展開

的。如果說ViT將Transformer遷移至1」CV中,那么BEiT就是將BERT

遷移到CV中。

多模態模型大一統成趨勢

2022年8月,微軟推出B日T-3模型,引領圖像、文本、多模態邁向

大一統。BEiT-3提出了掩碼圖像建模,將maskeddatamodeling引

入到圖像預訓練任務,將圖像和文本同等看待,以統一的方式對圖像、

文本、圖像-文本對進行建模和學習。實際上,微軟在2021年11月

就推出了統一模型VLMO,使用混合模態專家(MOME)的方式來

進行不同模態中進行預訓練,訓練出不同的編碼器,用于不同的下游

任務。BEiT-3在其基礎上簡化模型并增大預訓練數據量,最終在多

項下游任務上表現亮眼。2023年3月15日,微軟旗下OpenAI推出

多模態大模型GPT-4。

多模態廣泛存在于機器人、數字人、智能家居等領域

多模態在交互、感知、內容分發等眾多領域都有較為重要的地位c多

模態交互在家庭與辦公場景下應用廣泛,多模態交互可以進一步提升

用戶與智能家居設備的交互體驗,提升了用戶完成相同意圖的效率與

成功率。多模態感知包括車場景和語音助手下的用戶意圖感知,例如,

在駕車場景中,隨著多屏主控等智能座艙技術進步,各種智能終端可

以通過多模態交互實現意圖識別準確率更高的用戶體驗。多模態內容

分發場景下,虛擬人結合動作、表情、情感、文本等信息,輸出給用

戶。

二、多模態預訓練關鍵要素

圖文需要Tokenization和Embedding

Token是模型輸入的基本單元,Embedding是Token映射后的向量,

用于計算。文字方面早期一般使用Word2Vec進行Tokenization,包

括CBOW和skip-gram,雖然Word2Vec計算效率高,但是存在著

詞匯量不足的問題,因此子詞分詞法(subwordtokenization)被提出,

使用字節對編碼(BPE)將詞分割成更小的單元,該方法已被應用于

BERT等眾多Transformer模型中。圖像的Tokenization要比文本更

加復雜,可以分為基于region,基于grid和基于patch三類方式。基

于grid的方式直接使用CNN進行圖像網格信息提取,基于region

的方式由預訓練的目標檢測器進行特征提取,基于patch的方式將圖

像切割成小塊,提取小塊上的線性投影。

多模態模型中要重視視覺特征

相較于文本特征而言,多模態模型中視覺特征更為重要。當前多模態

預訓練大模型中,不論CLIP、UNITER還是ViLT,在模型構造方面,

視覺特征的embedding層數或者復雜度要超過文本特征,體現出視

覺特征更重要,多模態需要從視覺特征中學習到更多知識。根據

METER模型中的數據顯示,在視覺特征端進行優化對結果產生的影

響要遠大于對文本端進行的優化。

如何設計學習目標是多模態訓練的重要一步

學習目標是多模態預訓練非常重要的一步,目前的多模態的預訓練學

習任務主要包括圖文對比(ITC)、掩碼語言學習(MLM)、掩碼視

覺學習(MVM)、圖文匹配(ITM)等。ITC是通常構造正負樣本對,

通過對比學習方式,對齊圖像和文本;ITM可以看作是一個二分類任

務,目標是預測一對圖像和文本是否匹配;MLM是讓模型學習語言

和視覺內容之間的隱式關系,目標是從已知的語言和視覺內容中重建

掩碼語言標記;此外還包括掩碼物體分類(MOC)、掩碼物體回歸

(MOR)、行為預測(AP)、圖文生成(ITG)等。

不同的多模態預訓練學習目標可能帶來不一樣的結果

同時使用不同的預訓練學習目標可能會增強多模態模型的效果,例如

UNITER模型中,使用更多的學習目標效果一般要更好,UNITER使

用MLM+ITM+MRC-kl+MRFR+WRA等多個學習目標在在多個細分

場景下表現要更好。使用過多的學習目標可能效果并不好。例如,

METER模型中,在MLM和ITM上再加入MIM學習模型,效果比使

用單個學習目標要好,但不如僅僅使用兩個學習目標,這一方面可能

是學習目標之間的沖突導致的,另外一方面可能是圖像中存在噪聲,

MIM重建圖像噪聲的監督學習沒有任何意義導致的。

三、主要模型與下游場景

CLIP:使用對比學習實現圖文對齊

CLIP:2021年由OpenAI提出,利用文本信息監督視覺任務自訓練,

訓練數據集為40億個“文本?圖像'對,采用Transformer模型對圖像

的patch序列進行建模,將不同模態的原始數據映射到統一或相似的

語義空間,實現不同模態信號間的相互理解,擁有尋找不同模態數據

間關系的能力。

CLIP在zero-shot上表現較好。與CV中常用的先預訓練然后微調不

同,CLIP可以直接使用prompt進行零樣本學習圖像分類,即不需要

任何訓練數據,就能在某個具體下游任務上實現分類。

DALLE2:基于CLIP實現更強大的圖文跨模態生成

DALL-E2:基于CLIP實現文本與圖像的聯系,基于D訐fusion從視

覺語義生成圖像。2022年4月由OpenAI提出,在DALL?E1的基礎

上進行了改進和升級,分辨率從從256x256提升到了1024x1024,

準確性也得到了較大提升。除此之外,其還可以實現以下功能:1)

根據文本生成圖片;2)將圖像擴展到畫布之外;3)根據文本對圖像

進行編輯,實現添加或刪除元素;4)給定一張圖片生成保持原風格

的變體。DALL-E2模型可以分為兩部分。首先是利用CLIP文本編碼

器將圖像描述映射到表示空間,其次利用前向擴散從CLIP文本編碼

映射到相應的CLIP圖像編碼,最后通過反向擴散從表示空間映射到

圖像空間,生成眾多可能圖像中的一個。總體來說,DALL?E2實現

了功能更齊全的圖文跨模態生成,圖片的真實性和準確度也較以往的

產品有了不錯的提升。但是在生成一些復雜圖片的細節方面,

DALLE2仍面臨著一些挑戰。

KOSMOS-1:全能型大語言模型

K0SM0S-1:將多模態特征嵌入到Transformer模型中,基于統一

的模型架構實現不同模態的對齊。2023年3月由微軟提出,其可以

實現文本學習、文本生成等任務,還能夠將文本以外的模態(如視覺

圖像、語音)嵌入到模型中。研究證明,在多個下游任務中,該模型

具有非常優異的性能,例如在語言理解、視覺問答、多模態對話等。

KOSMOS-1模型的參數總量為16億。我們認為,隨著技術的不斷發

展和迭代,跨模態模型處理更多模態問題的能力將不斷增強,多模態

感知的大融合是邁向通用人工智能的關鍵一步。

GPT-4:支持圖像輸入的ChatGPT升級版

2023年3月14日,OpenAI發布GPT-4。GPT-4沿襲了過去GPT

路線,在GPT中引入RLHF機制,并且輸入窗口更大,更適合處理

長文本,GPT-4的上下文長度為8192個token,遠高于GPT-3的

2048個token。GPT-4文字輸入限制提升到了2.5萬字,回答準確

率姚顯著高于前模型。GPT-4在各類職業/學術考試上表現優秀,與

人類相當,比如模擬律師考試,GPT-4取得了前10%的好成績,而

GPT-3.5是倒數10%。GPT-4訓練過程更加穩定,且響應不被允許

請求的概率也大幅度降低。

四、未來方向及演進趨勢

多模態模型要更大,模態要更多

多模態大模型需要更深層次的網絡和更大的數據集進行預訓練。多模

態大模型多基于Transformer架構進行預訓練,而Transformer因其

架構特點,未看到過擬合趨勢,模型大小、數據集都未有飽和趨勢,

CLIP等模型也驗證了數據量的大小將使得模型性能提升。以語言模

型GPT為例,其從GPT1-3模型大小和預訓練數據量均是逐步提升,

和語言模型中類似,多模態大模型模型大小和數據量要逐步提升,例

如,谷歌前不久發布的多模態模型PaLM-E,具有5620億參數。現

有的多模態預訓練大模型通常在視覺和語言兩種模態上進行預訓練,

未來可以獲取更多模態進行大規模預訓練,包括圖像、文本、音頻、

時間、熱圖像等,基于多種模態數據的預訓練大模型具有更廣闊的應

用潛力。

多模態模型訓練要加速

雖然多模態大模型在多個領域取得了巨大成功,但是多模態模型對算

力的要求還是對模型的訓練造成了很大的難題,因此對模型訓練加速

提出了進一步要求。DeCLIP在CL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論