《深度學習 》課件 第5章-深度序列模型_第1頁
《深度學習 》課件 第5章-深度序列模型_第2頁
《深度學習 》課件 第5章-深度序列模型_第3頁
《深度學習 》課件 第5章-深度序列模型_第4頁
《深度學習 》課件 第5章-深度序列模型_第5頁
已閱讀5頁,還剩41頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

5深度序列模型目錄

|

CONTENTS深度序列模型概述1Seq2Seq模型基礎2融入注意力機制的Seq2Seq模型3Transformer模型基礎4Transformer變體56總結深度序列模型概述11.1深度序列模型定義深度序列模型定義處理輸入/輸出為序列的神經網絡(文本、語音、時間序列等)典型任務:情感分析(輸入序列→分類標簽)、機器翻譯(序列→序列)模型結構示意圖嵌入層轉詞為向量,特征層捕獲上下文特征,輸出層則根據任務需求進行映射。數學表示形式輸入序列X={x?,x?,...,x?}→輸出序列Y={y?,y?,...,y?}模型應用示例以翻譯任務為例,'我愛AI'經過嵌入層轉為向量,特征層捕獲前后文關系,輸出層逐詞生成英文序列'IloveAI'。"嵌入層作用將由自然語言序列轉化為計算機可以理解的詞向量序列獨熱編碼(One-Hot)獨熱編碼又稱作一位有效編碼,單詞的one-hot向量只有特征位的值為1,其余位數均由0填充。優點:是將自然語言序列轉化為詞向量序列最簡單的方式缺陷:維度災難(詞表1萬→1萬維向量)、語義無關聯(貓vs狗相似度為0)語義歧義問題:"bank"在金融/河岸場景下的獨熱編碼相同獨熱編碼矩陣示例包含獨熱編碼矩陣。1.2模型嵌入層——獨熱編碼(One-Hot)優點相比于One-Hot編碼,Word2Vec模型生成的詞向量通常具有較低的維度,能夠捕捉到詞語之間的語義關系,使得相似含義的詞語在向量空間中距離較近缺點仍然無法解決一詞多義問題,例如仍然無法區分"bank"在金融/河岸場景下的含義靜態詞向量(Word2Vec)簡介:word2vec是谷歌團隊于2013年提出的一種用于訓練詞向量的模型,該方法的出發點為兩個含義相似的單詞,應該具有相似的詞向量。例如“貓”作為一種受歡迎的寵物,其對應的詞向量應該和“狗”更相似,而不是和“蘋果”或者“葡萄”等水果更相似CBOWCBOW:CBOW通過某個詞周圍的詞語來預測當前詞語Skip-GramSkip-Gram:Skip-Gram通過語料庫中的某個詞語預測周圍的詞語兩種模型word2vec在訓練時采用的方式是以詞語來預測詞語,共包含兩種模型:跳字模型(Skip-Gram)和連續詞袋模型(CBOW)Word2Vec1.2模型嵌入層——靜態詞向量(Word2Vec)1.2模型嵌入層——動態詞向量(BERT、GPT)缺陷:計算資源消耗較高優點:動態地獲取單詞的詞嵌入表示,可以更好地整合句子序列的語義信息,解決靜態詞向量無法辨別的一詞多義問題0304動態詞嵌入方法的做法是將自然語言序列輸入到預訓練模型中,取預訓練模型對應的輸出作為詞語的詞嵌入表示簡介:隨著大規模預訓練模型的興起,使用BERT、GPT等預訓練模型對文本進行編碼的動態詞嵌入方法逐漸取代了word2vec等靜態方法。0102動態詞向量(BERT、GPT)1.3模型特征層模型特征層作用特征層將嵌入層得到的詞向量進行變換,獲取輸入序列的各種特征。例子以序列為例,當文本序列經過嵌入層處理后,會轉換成一個由詞嵌入向量組成的序列。接下來,特征層會對這個詞嵌入向量序列進行一系列的線性變換和非線性變換,旨在提取出對后續任務(如分類、生成等)有價值的特征。特征提取器在深度序列模型中為了更好地提取富含文本信息的語義特征,特征層一般采用RNN作為特征提取器。RNN能夠處理序列數據,通過捕捉序列中的時間依賴性來提取特征。基礎RNN的缺陷RNN處理長距離依賴時的能力不足。由于RNN在反向傳播時,梯度會隨著時間步長的增加而指數級衰減或增長,這導致模型在處理較長序列時難以捕捉到序列開始部分的信息(梯度消失問題)或導致模型訓練不穩定(梯度爆炸問題)。因此,當句子長度超過一定閾值(如20個單詞以上)時,基礎RNN的性能會顯著下降,甚至失效。RNN改進:在RNN的眾多變體中,長短期記憶網絡(LSTM)和門控循環單元(GRU)因其能夠有效緩解基礎RNN的梯度消失和梯度爆炸問題而備受青睞。1.3模型特征層LSTM和GRU引入了門控機制來控制信息的流動。這些門控機制能夠有選擇地保留或遺忘過去的信息,從而允許模型在處理長序列時能夠捕捉到更遠的上下文信息。LSTM:LSTM通過輸入門、遺忘門和輸出門來控制信息的流動輸入門決定了新信息是否應該被添加到細胞狀態中,遺忘門則決定了舊信息是否應該被保留,而輸出門則控制了細胞狀態中的信息是否應該被輸出。這種設計使得LSTM能夠長期保持信息,同時避免了傳統RNN中的梯度消失問題。GRU:而GRU則通過更新門和重置門來實現類似的功能,但結構更為簡單。更新門決定了前一時刻的狀態信息有多少需要保留到當前時刻,而重置門則決定了前一時刻的狀態信息有多少需要用于當前時刻的候選狀態計算。與LSTM相比,GRU的參數更少,結構更簡單,但在許多任務中卻能達到與之相當甚至更好的性能。LSTM\GRU缺陷:在自然語言序列中,單詞不僅與其左側的單詞有語義上的聯系,而且也與其右側的單詞有關聯。這種雙向的語義依賴關系在LSTM和GRU中并未得到充分的利用,因為它們是基于單向序列處理的。進一步改進:因此為了更好地提取序列中的語義信息,特征層往往會采用雙向循環神經網絡來處理詞嵌入序列,以此來得到富含上下文信息的語義特征1.4模型輸出層作用:在自然語言處理模型中,輸出層扮演著將特征層提取的語義特征轉化為具體任務輸出的關鍵角色。為了實現多任務處理,輸出層需要針對不同的NLP任務進行適配,以滿足不同場景下的需求。以下是對分類任務和生成任務中輸出層設計的詳細解析。分類任務(情感分析為例)特征向量:從特征層提取出的富含上下文信息的語義特征向量。全連接層:將特征向量映射到一個與任務類別數相匹配的維度空間。以情感分析為例,就是大小為情感極性個數的向量Softmax:對全連接層的輸出進行歸一化處理,得到每個類別的概率分布。標簽概率:根據Softmax層的輸出,選擇概率最高的類別作為最終輸出。以情感分析為例,最終輸出是積極、消極或中立等情感極性的標簽。生成任務(機器翻譯)輸出層則需要把隱藏狀態映射到大小為語料庫詞語總數的向量,采用不同的解碼策略從中選取某個詞作為某個時刻的生成詞。常見解碼策略對比:貪心搜索:在每一步解碼時,都選擇當前概率最高的詞作為輸出。這種方法速度最快,但由于沒有考慮后續步驟的影響,可能導致整體翻譯質量較低。BeamSearch:在每一步解碼時,都保留Top-k個候選詞(即Beam寬度為k),并根據這些候選詞組合出k個最優的翻譯路徑。在達到預設的結束條件后,從這些路徑中選擇得分最高的作為最終輸出。BeamSearch方法能夠在保證一定效率的同時,顯著提高翻譯質量。1.5情感分析任務流程示例以情感分析任務為例,進一步探討深度序列模型的流程輸入文本:“這家餐廳很好”分詞過程嵌入層:將分詞序列轉化為詞向量特征層:特征提取輸出層:得到“positive”的情感極性標簽對這一過程做進一步的抽象,可以將嵌入層和特征層兩部分合并稱作編碼器,輸出層稱作解碼器1.6編碼器-解碼器架構編碼器(Encoder)定義:編碼器是負責將輸入數據轉換為特征表示的神經網絡部分。功能:接收原始輸入數據(如文本序列、圖像等)。通過一系列變換(如卷積、循環神經網絡、注意力機制等)提取輸入數據的特征。輸出一個包含輸入數據特征的向量表示(通常稱為上下文向量或隱藏狀態)。解碼器(Decoder)定義:解碼器是負責將編碼器的特征表示轉換為輸出結果的神經網絡部分。功能:接收編碼器的特征表示作為輸入。根據特征表示生成輸出結果(如文本序列等)。可能使用與編碼器相似的變換機制,但通常針對特定任務進行設計。1.7序列生成模型解決的問題自然語言處理領域的眾多子任務中,一些任務的輸入形式各不相同,輸出卻均為一段自然語言序列,我們常使用序列生成模型來解決這一類任務。根據輸入的不同形式,可以將序列生成模型解決的問題分為以下幾種類型(1)文本到文本生成任務。這類任務的輸入同樣是一段自然語言序列,常見的文本到文本生成任務有機器翻譯、文本摘要生成、智能問答等;(2)數據到文本生成任務。這類任務的輸入為結構化的數據,常見的結構化數據有表格、知識圖譜等;(3)多媒體到文本生成任務。這類任務的輸入來自于文本之外的模態,例如視頻、音頻等;(4)無條件文本生成任務。這類任務的輸入為隨機噪聲,也可以把這類任務稱作樸素的語言模型。Seq2Seq模型基礎22.1Seq2Seq模型概述定義一種通用的框架,適用于處理輸入和輸出均為序列的任務,如機器翻譯、文本摘要及對話生成等。奠基性工作:o

Sutskeveretal.(2014)提出了基于LSTM的Seq2Seq模型,從理論上奠定了RNNs在序列任務中的應用基礎。o

Choetal.(2014)引入了門控循環神經網絡(GRU)作為替代,簡化了模型結構,提升了訓練速度。突破傳統限制:o

傳統模型通常要求輸入和輸出長度相同,而Seq2Seq模型能夠處理可變長度的輸入輸出序列。編碼器-解碼器架構:將輸入壓縮為語義向量,再逐詞生成輸出端到端學習:模型通過大規模數據訓練,通過最小化預測輸出和實際目標之間的誤差,自動學習序列之間的映射關系,無需手動特征工程。核心思想提出背景2.2Seq2Seq模型結構與核心組件整體架構圖示·

編碼器:o

輸入序列:[x?,x?,...,x?]

→嵌入層→RNN→隱藏狀態序列

[h?,h?,...,h?]

→最終隱藏狀態

解碼器:o

初始輸入:<SOS>,初始隱藏狀態:C→RNN→輸出詞概率分布→采樣詞→循環至<EOS>關鍵符號與術語·

<SOS>:StartofSequence(解碼啟動信號)·

<EOS>:EndofSequence(終止條件)·

語義向量C:編碼器最終隱藏狀態,承載輸入全局信息2.3編碼器詳解RNN的逐詞編碼過程步驟拆解:i.詞嵌入:x→

e(如Word2Vec/Glove)ii.RNN計算:h=RNN(e,h??)(隱藏狀態迭代更新)iii.最終狀態:C=h(輸入序列的語義濃縮)RNN的局限與變體選擇長序列問題:梯度消失/爆炸

LSTM/GRU

引入門控機制雙向RNN:捕捉前后文信息(可選擴展)2.4解碼器詳解自回歸生成過程推理階段:O輸入:前一時刻預測詞

y??(而非真實標簽)。O輸出:Softmax生成詞表概率分布

取Top-1詞或采樣。訓練階段:OTeacherForcing:使用真實標簽作為輸入,加速收斂。解碼終止策略硬終止:生成<EOS>符號。軟終止:設定最大生成長度(如50詞)。生成質量優化貪心搜索vs.BeamSearch:O貪心:每一步選概率最高的詞(易陷入局部最優)。OBeamSearch:保留Top-K候選路徑(平衡質量與計算開銷)。2.5數學表示與訓練方法概率分解公式鏈式法則:損失函數:負對數似然訓練技巧梯度裁剪:防止RNN梯度爆炸。計劃采樣(ScheduledSampling):逐步從TeacherForcing過渡到自回歸生成。案例:英語→法語翻譯o輸入:"Hello,howareyou?"o輸出:"Bonjour,comment?ava?"機器翻譯案例:新聞文章→摘要o輸入:長文本→輸出:關鍵句組合文本摘要案例:客服機器人o輸入:用戶提問→輸出:自動回復對話系統2.6經典應用場景2.7小結

·

推動了Encoder-Decoder范式在NLP中的廣泛應用。·

統一框架解決序列生成問題Seq2Seq的核心貢獻01·

多模態生成:圖文結合(如圖像描述生成)。·

低資源優化:少樣本/零樣本下的遷移學習。未來方向02融入注意力機制的Seq2Seq模型33.1傳統Seq2Seq的局限性信息瓶頸問題·

固定長度向量C:長序列信息壓縮導致細節丟失(如100詞→1向量)。·

解碼器單向量依賴:無法動態選擇輸入序列的關鍵部分。

案例對比:機器翻譯VS人工翻譯·

人工翻譯:動態關注源語言不同位置(如動詞→動詞,名詞→名詞)。·

傳統Seq2Seq:解碼時僅依賴固定向量C,缺乏局部信息聚焦。

實驗證據·

輸入序列長度↑→模型性能顯著下降(BLEU分數降低)。3.2注意力機制的靈感與動機認知啟發·

人類注意力機制:選擇性關注輸入的不同部分(如視覺聚焦)。·

類比翻譯:譯員逐詞翻譯時動態參考源語句的對應位置。

核心目標·

動態上下文:解碼時根據當前狀態選擇輸入序列的關鍵信息。·

解決信息瓶頸:將編碼器的全部隱藏狀態(而非僅最后狀態)傳遞給解碼器。3.3注意力機制核心原理架構改進(對比傳統Seq2Seq)·

編碼器輸出:保存所有時間步的隱藏狀態序列

[h?,h?,...,h?]。·

解碼器輸入:o

每一步使用當前解碼器隱藏狀態

s

與編碼器所有

h?

計算注意力權重。o

生成動態上下文向量

c(替代固定向量C)。

注意力權重計算流程1.

相似度計算:(通過神經網絡或點積計算)2.

權重歸一化:3.

上下文向量生成:(加權求和編碼器隱藏狀態)。

集成到解碼器解碼器輸入=前一步輸出詞+上下文向量

c。更新隱藏狀態:3.4注意力機制的優勢與效果核心優勢

緩解信息瓶頸:充分利用編碼器所有隱藏狀態。

可解釋性:通過熱力圖直觀顯示模型關注點。

長序列處理能力:在文本摘要、長文檔翻譯任務中性能顯著提升。實驗結果

BLEU分數對比:在英法翻譯任務中,注意力模型提升10+分。

訓練收斂速度:注意力機制加速模型收斂(減少30%訓練時間)。3.5注意力機制變體與發展經典變體

加性注意力(Bahdanau):通過神經網絡計算相似度。

乘性注意力(Luong):直接使用點積或矩陣乘法。

自注意力(Self-Attention):編碼器內部捕捉長程依賴

→Transformer的前身。擴展應用

多層注意力:不同層關注不同粒度信息(如詞級、句級)。

雙向注意力:結合前向與后向編碼器狀態(用于閱讀理解)。3.6小結注意力機制的意義

革命性貢獻:推動Seq2Seq模型在復雜任務中的實用性(如長文本生成)。

通用范式:注意力機制已成為現代NLP模型的核心組件。未來方向

稀疏注意力:降低計算復雜度(如Longformer、BigBird)。

多模態注意力:跨模態信息對齊(如圖像描述生成中的視覺-文本對齊)。Transformer模型基礎44.1Transformer的誕生與核心思想融入注意力機制的Seq2Seq的局限性RNN依賴性:仍需循環網絡生成隱藏狀態序列。計算復雜度:傳統注意力機制對長序列效率低下。提出背景·

論文:Google2017年《AttentionIsAllYouNeed》。·

目標:解決RNN的并行性與長程依賴問題。

核心創新·

去RNN化:完全依賴自注意力機制。·

并行編碼:全位置同時計算,GPU利用率最大化。·

堆疊模塊:多層相同結構提升模型容量。4.2整體架構架構圖示·

編碼器:6層相同模塊,每層含自注意力+前饋網絡。·

解碼器:6層模塊,增加掩碼自注意力與交叉注意力。·

輸入處理:詞嵌入+位置編碼→編碼器→上下文向量。

關鍵流程1.

輸入編碼:詞向量與位置編碼相加。2.

編碼器處理:多層自注意力提取全局特征。3.解碼生成:自回歸預測,逐步生成輸出序列4.3自注意力與多頭注意力機制自注意力計算

輸入:詞向量矩陣

線性變換生成Q,K,V。

公式:

縮放因子:防止點積數值過大導致梯度不穩定。多頭注意力動機:捕捉不同子空間的語義關系(如語法、語義)。實現:將Q/K/V拆分為h個頭(如8頭),獨立計算后拼接。

輸出維度:h×dv→

合并后通過線性層映射。4.3自注意力與多頭注意力機制自注意力計算

輸入:詞向量矩陣

線性變換生成Q,K,V。

公式:

縮放因子:防止點積數值過大導致梯度不穩定。多頭注意力動機:捕捉不同子空間的語義關系(如語法、語義)。實現:將Q/K/V拆分為h個頭(如8頭),獨立計算后拼接。

輸出維度:h×dv→

合并后通過線性層映射。4.4

詳細架構編碼器層(EncoderLayer)·

步驟:i.

多頭自注意力→殘差連接+層歸一化。ii.

前饋網絡(FFN)→殘差連接+層歸一化。

解碼器層(DecoderLayer)·

步驟:i.

掩碼自注意力:防止解碼時看到未來信息。ii.

交叉注意力:對齊編碼器輸出與當前解碼狀態。iii.

FFN→殘差連接+層歸一化。位置編碼(PositionalEncoding)·

核心作用:為無位置感知的自注意力注入序列順序信息。·

實現方式:o

正弦/余弦函數:固定模式,可泛化到長序列。o

可學習參數:訓練中獲得位置向量。

殘差連接與層歸一化·

殘差連接:保留原始信息,緩解梯度消失(公式:輸出=輸入+子層(輸入))。·

層歸一化:加速訓練收斂,穩定梯度流。Transformer變體55.1模塊變體(架構級創新)-自注意力機制改進稀疏注意力(降低復雜度)

技術原理o局部窗口注意力(LocalWindow):每個token僅關注鄰近區域(ViT中的分塊處理)o全局token橋接(GlobalTokens):加入可學習的全局token聚合遠程信息(BigBird)o隨機稀疏采樣(RandomSparse):隨機選擇部分位置計算(SparseTransformer)

典型模型oLongformer:滑動窗口(512→4096長度)+任務相關全局注意力oBigBird:結合局部+全局+隨機注意力,數學證明逼近全注意力效果oRoutingTransformer:動態聚類生成稀疏連接模式高效注意力(線性復雜度)

低秩投影oLinformer:將K/V投影到低維空間,復雜度從O(n2)降為O(n)oPerformer:通過核函數近似(正交隨機特征)實現線性計算

哈希分桶oReformer:局部敏感哈希(LSH)聚類相似token,僅計算桶內注意力

分塊計算oBlockwiseTransformer:將序列分塊,塊內全連接+塊間稀疏連接5.1模塊變體(架構級創新)-位置編碼創新絕對位置編碼·

Sinusoidal編碼:原始Transformer的正余弦函數·

可學習編碼:BERT/GPT中隨機初始化+端到端訓練·

缺點:難以泛化到訓練長度外的序列相對位置編碼·

Shaw式編碼:在自注意力計算中注入位置關系(如距離線性衰減)·

RPR(RelativePositionalRepresentations):將位置差映射為可學習向量(DeBERTa)·

XLNet式雙流機制:分離內容與位置信息流旋轉位置編碼(RoPE)·

數學原理:通過復數域旋轉矩陣融合絕對位置信息(Llama、PaLM采用)·

優勢:長度外推性強,支持線性插值擴展上下文窗口5.1模塊變體(架構級創新)-層歸一化改進位置爭議·

Post-LN(原始Transformer):殘差連接后做歸一化,訓練穩定但收斂慢·

Pre-LN(主流方案):歸一化移至殘差前,加速訓練但可能損失性能改進方案·

DeepNorm:對殘差路徑進行縮放(α=√(2N),N為層數),穩定千層模型訓練(GLM-130B)·

RMSNorm:去除均值中心化,僅用方差歸一化(節省15%計算量,Llama采用)·

SandwichNorm:前后雙歸一化(PaLM)5.1模塊變體(架構級創新)-前饋層優化激活函數改進·

GatedLinearUnits(GLU):σ(W1X)?W2X(PaLM驗證有效)·

GeGLU:GELU激活的GLU變體(T5v1.1)參數擴展·

專家混合(MoE):每個樣本激活部分專家(SwitchTransformer)o

示例:64專家選2個,保持計算量不變但參數量翻倍·

并行前饋層:并行堆疊多個FFN層(PaLM使用8層并行)5.2應用變體(領域擴展)-NLP領域編碼器架構·

BERT:掩碼語言模型+下一句預測·

RoBERTa:動態掩碼+更大批次訓練·

ALBERT:參數共享+因式分解嵌入解碼器架構·

GPT系列:單向注意力+自回歸生成o

GPT-3:稀疏MoE結構o

GPT-4:多模態擴展·

BLOOM:多語言大模型(176B參數)編解碼架構·

T5:統一文本到文本框架·

BART:去噪自編碼器(適合文本生成)5.2應用變體(領域擴展)-CV領域圖像分類·

ViT:將圖像分割為16x16塊序列o

數據不足問題:DeiT通過知識蒸餾解決·

MobileViT:輕量化設計(CNN+Transformer混合)目標檢測·

DETR:基于查詢的端到端檢測o

改進版:DeformableDETR(可變形注意力加速收斂)圖像生成·

ViT-VQGAN:Transformer替代CNN的VQGAN·

DiT:擴散模型+Transformer主干(StableDiffusion3采用)5.2應用變體(領域擴展)-多模態領域圖文對齊·

CLIP:對比學習對齊圖像-文本特征·

ALIGN:十億級噪聲數據訓練視頻理解·

ViViT:時空分離注意力(空間+時間軸)·

TimeSformer:劃分時空塊并行處理多模態生成·

Flamingo:凍結預訓練模型+適配器微調·

KOSMOS-1:通用多模態對話模型總結66.1序列到序

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論