




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
8注意力機制目錄
|
CONTENTS注意力機制簡介1注意力模型基本架構2注意力機制分類3注意力模型4注意力機制簡介18.1注意力機制簡介基本概念:注意力機制源于人類視覺系統,旨在提高模型在處理信息時的效率和效果。核心思想是幫助模型對輸入的每個部分賦予不同的權重,抽取出更加關鍵及重要的信息,使模型做出更加準確的判斷,同時不會對模型的計算和存儲帶來更大的開銷。注意力機制應用非常廣泛,尤其是在Seq2Seq模型中,如機器翻譯、語音識別、圖像釋義(ImageCaption)等領域。8.1注意力機制簡介(1)在深度學習領域,注意力機制的雛形最早應用于計算機視覺領域的視覺注意力系統SBVA,將多尺度的圖像特征組合成單一的顯著性圖。最后,利用一個動態神經網絡,并按照顯著性的順序來高效的選擇重點區域。
(2)谷歌DeepMind于2014年從機器模擬人的“視覺觀察”角度出發,開發了一個新的基于注意力的任務驅動的神經網絡視覺處理框架RAM,一個按照時間順序處理輸入的循環神經網絡模型。
發展歷程:8.1注意力機制簡介(3)YoshuaBengio等學者2015年在ICLR上發表的文章將注意力機制首次應用到NLP領域,實現同步對齊和翻譯,解決以往神經機器翻譯(NMT)領域使用Encoder-Decoder架構的一個潛在問題,即將信息都壓縮在固定長度的向量,無法對應長句子。(4)隨后,他和合作者2015年在ICML上發表的文章將注意力機制引入到圖像領域,提出了兩種基于注意力機制的圖像描述生成模型:使用基本反向傳播訓練的SoftAttetnion方法和使用強化學習訓練的HardAttention方法。(5)2017年JianlongFu提出了一種基于CNN的注意力機制循環注意力卷積神經網絡,可以遞歸地分析局部信息,并從所獲取的局部區域中提取細粒度信息。此外,還引入了一個注意力生成子網絡。(6)2017年,以編碼器-解碼器為基礎的Transformer架構被提出,可以有效的解決RNN無法并行處理以及CNN無法高效的捕捉長距離依賴的問題,一系列以Transformer為基礎模型的改進工作大量出現。
發展歷程:注意力模型基本架構28.2注意力模型基本架構核心思想:根據輸入的相關性來加權不同部分的信息基本公式:一個典型的注意力模型的主要組成部分:(1)輸入嵌入層:將離散的輸入數據(如單詞或圖像像素)轉換為連續的向量表示。常用的嵌入方法包括Word2Vec、GloVe和預訓練模型如BERT等(2)注意力計算層:是模型的核心部分,通過計算查詢和鍵之間的相似度來決定值向量的加權方式。縮放點積注意力(ScaledDot-ProductAttention)是常見的計算方法。(3)前饋神經網絡:在多頭注意力層之后,通常會接一個前饋神經網絡(FFN)。FFN由兩個線性變換層和一個非線性激活函數(如ReLU)組成。(4)殘差連接與層歸一化:緩解深層網絡訓練中的梯度消失問題,幫助模型更有效地訓練,并提高收斂速度和穩定性。注意力機制分類38.3注意力機制分類一般形式的注意力分布計算公式為:注意力分布ai可以解釋為在給定任務相關的查詢q時,第i個信息受關注的程度。常見的注意力打分函數s(xi,q)包括:依據注意力機制的一般作用機理,將其劃分為一般模式注意力、鍵值對模式注意力、多頭注意力。一般模式注意力8.3注意力機制分類軟性注意力采用一種“軟性”的信息選擇機制對輸入信息進行匯總,其選擇的信息是所有輸入信息在注意力分布下的期望,有選擇的對所有輸入施加注意力,并進行后續的信息整合,能夠有效避免信息遺漏,但有可能關注冗余的信息。
硬性注意力只關注到某一個位置的信息,而忽略其他輸入,能夠有效過濾噪聲信息,但是也可能會造成關鍵信息的遺漏。特別是當需要關注的內容較多時,該類硬性注意力并不適用。在實際應用中,軟性注意力更為常見。8.3注意力機制分類鍵值對模式注意力用鍵值對(key-valuepair)格式來表示輸入信息,其中“鍵”用來計算注意力分布ai,“值”用來計算聚合信息,其中:(K,V)
=
[(k1,v1),…,(kN,vN)]:N個輸入信息;q:給定相關任務的查詢向量;s(ki,q):打分函數鍵值對模式注意力計算公式如下:
需要注意的是,當
K
=V
時,鍵值對模式就等價于一般的注意力機制。多頭注意力多頭注意力模式是指利用多個查詢
Q
=
[q1,…,qM]
,來平行地計算從輸入信息中選取多個信息。每個注意力關注輸入信息的不同部分:注意力模型48.4.1通道&空間注意力通道注意力旨在顯示的建模出不同通道之間的相關性,通過網絡學習的方式來自動獲取到每個特征通道的重要程度,最后再為每個通道賦予不同的權重系數,從而來強化重要的特征抑制非重要的特征。空間注意力旨在提升關鍵區域的特征表達,本質上是將原始圖片中的空間信息通過空間轉換模塊,變換到另一個空間中并保留關鍵信息,為每個位置生成權重掩膜(mask)并加權輸出,從而增強感興趣的特定目標區域同時弱化不相關的背景區域。8.4.1.1SE-Net發表于2018年的CVPR,是計算機視覺領域將注意力機制應用到通道維度的代表作,結構簡單且效果顯著,可以通過特征重標定的方式來自適應地調整通道之間的特征響應。(1)Squeeze
利用全局平均池化(GlobalAveragePooling,GAP)
操作來提取全局感受野,將所有特征通道都抽象為一個點;(2)Excitation
利用兩層的多層感知機(Multi-LayerPerceptron,MLP)網絡來進行非線性的特征變換,顯示地構建特征圖之間的相關性;(3)Transform
利用Sigmoid激活函數實現特征重標定,強化重要特征圖,弱化非重要特征圖。8.4.1.2GE-Net發表于2018年的NIPS,從上下文建模的角度出發,提出了一種比SE-Net更一般的形式。充分利用空間注意力來更好的挖掘特征之間的上下文信息。其包含兩個主要的操作:(1)Gather
用于從局部的空間位置上提取特征;(2)Excite
用于將特征縮放至原始尺寸。8.4.1.3RA-Net發表于2017年CVPR,利用下采樣和上采樣操作提出了一種基于空間注意力機制的殘差注意力網絡。嘗試在常規的分類網絡中引入側邊分支,該分支同樣是由一系列卷積和池化操作來逐漸地提取高級語義特征并增大網絡的感受野,最后再將該分支直接上采樣為原始分辨率尺寸作為特征激活圖疊加回原始輸入。8.4.1.4SK-Net發表于2019年的CVPR,研究的是卷積核之間的相關性,并進一步地提出了一種選擇性卷積核模塊。從多尺度特征表征的角度出發,引入多個帶有不同感受野的并行卷積核分支來學習不同尺度下的特征圖權重,使網絡能夠挑選出更加合適的多尺度特征表示,不僅解決了SE-Net中單一尺度的問題,而且也結合了多分枝結構的思想從豐富的語義信息中篩選出重要的特征。其突出特征在于:(1)Split
采用不同感受野大小的卷積核捕獲多尺度的語義信息;(2)Fuse
融合多尺度語義信息,增強特征多樣性;(3)Select
在不同向量空間(代表不同尺度的特征信息)中進行Softmax操作,為合適的尺度通道賦予更高的權重。8.4.1.5SPA-Net發表于2020年的ICME,并獲得了最佳學生論文。利用多個自適應平均池化(AdaptiveAveratgePooling,APP)組成的空間金字塔結構來建模局部和全局的上下文語義信息,使得空間語義信息被更加充分的利用到。8.4.2混合注意力空間注意力由于將每個通道中的特征都做同等處理,忽略了通道間的信息交互;通道注意力則是將一個通道內的信息直接進行全局處理,容易忽略空間內的信息交互;混合注意力主要是共同結合了通道域、空間域等注意力的形式來形成一種更加綜合的特征注意力方法。8.4.2.1CBAMCBAM發表于2018的CVPR,在原有通道注意力的基礎上,銜接了一個空間注意力模塊(SpatialAttentionModul,SAM)。SAM是基于通道進行全局平均池化以及全局最大池化操作,產生兩個代表不同信息的特征圖,合并后再通過一個感受野較大的7×7卷積進行特征融合,最后再通過Sigmoid操作來生成權重圖疊加回原始的輸入特征圖,從而使得目標區域得以增強。總的來說,對于空間注意力來說,由于將每個通道中的特征都做同等處理,忽略了通道間的信息交互;而通道注意力則是將一個通道內的信息直接進行全局處理,容易忽略空間內的信息交互。8.4.2.2BAMBAM發表于2018年的BMC,提出了一個簡單有效的注意力模型來獲取空間和通道的注意力圖。BAM形成了一種分層的注意力機制,可以有效地抑制背景特征,使模型更加聚焦于前景特征,從而加強高級語義,實現更高的性能。不同于CBAM并聯的方式,BAM以串聯的方式來相繼提取不同域的注意力圖。8.4.2.3scSEscSE發表于2018年的MICCAI,是一種更輕量化的SE-Net變體,在SE的基礎上提出cSE、sSE、scSE這三個變種。cSE和sSE分別是根據通道和空間的重要性來校準采樣。scSE則是同時進行兩種不同采樣校準,得到一個更優異的結果。8.4.2.4A2-NetsA2-Nets發表于2018年的NIPS,提出了一種雙重注意力網絡。該網絡首先使用二階的注意力池化(Second-orderAttentionPooling,SAP)用于將整幅圖的所有關鍵特征歸納到一個集合當中,然后再利用另一種注意力機制將這些特征分別應用到圖像中的每個區域。8.4.3自注意力自注意力是注意力機制的一種變體,其目的是為了減少對外部信息的依賴,盡可能地利用特征內部固有的信息進行注意力的交互。它通過評估各個元素的相互關系,增強了模型對局部信息的敏感性,從而提升了對全局上下文的理解。自注意力的靈活性和并行計算能力,使其成為現代深度學習架構的重要組成部分。8.4.3.1Non-LocalNon-Local發表于2018年的CVPR,是第一篇將自注意力機制引入圖像領域的文章。文中提出了經典的Non-Local模塊,通過Self-Attention機制對全局上下午進行建模,有效地捕獲長距離的特征依賴。后續許多基于自注意力的方法都是根據Non-Local來改進的。自注意力流程一般是通過將原始特征圖映射為三個向量分支,即Query、Key和Value:(1)計算Q和K的相關性權重矩陣系數;(2)通過軟操作對權重矩陣進行歸一化;(3)再將權重系數疊加到V上,以實現全局上下文信息的建模。8.4.3.2DA-NetDA-Net發表于2019年的CVPR,該論文將Non-local的思想同時引入到了通道域和空間域,分別將空間像素點以及通道特征作為查詢語句進行上下文建模,自適應地整合局部特征和全局依賴。8.4.3.3ANLNetANLNet發表于2019年的ICCV,是基于Non-Local的思路往輕量化方向做改進。Non-Local模塊是一種效果顯著的技術,但同時也受限于過大計算量而難以很好地嵌入網絡中應用。為了解決以上問題,ANLNet基于Non-Local結構并融入了金字塔采樣模塊,在充分考慮了長距離依賴的前提下,融入了不同層次的特征,從而在保持性能的同時極大地減少計算量。8.4.3.4GC-NetGC-Net發表于2019年的ICCV,受SE-Net和Non-local思想的啟發提出了一種更簡化的空間自注意力模塊。Non-local采用Self-attention機制來建模全局的像素對關系,建模長距離依賴,但這種基于全局像素點(pixel-to-pixel)對的建模方式其計算量無疑是巨大的。SE-Net則利用GAP和MLP完成通道之間的特征重標定,雖然輕量,但未能充分利用到全局上下文信息。因此,作者提出了GC-Net可以高效的建模全局的上下文信息。8.4.4類別注意力——OCR-NetOCR-Net發表于2020年的ECCV,是一種基于自注意力對類別信息進行建模的方法。與先前的自注意力對全局上下文建模的角度(通道和空間)不同,OCR-Net是從類別的角度進行建模,其利用粗分割的結果作為建模的對象,最后加權到每一個查詢點,這是一種輕量并有效的方法。其特點在于:(1)SoftObjectRegions
對Backbone倒數第二層所輸出的粗分割結果進行監督;(2)ObjectRegionRepresentations
融合粗分割和Backbone網絡最后一層所輸出的高級語義特征圖生成對象區域語義,每一條向量代表不同的類別信息;(3)Pixel-RegionRelations
結合最后一層的高級語義特征圖以及對象區域語義信息,建模像素與對象區域之間的相關性;(4)ObjectContextualRepresentations
將像素-對象區域相關性加權到對象區域信息中,完成加權目標類別信息到每一個像素上;不難發現,這種類別信息的建模方式是完全遵循自注意力機制(Q,K,V)。8.4.5時間注意力——IAU-NetIAU-Net發表于IEEETrans.onNeuralNetworksandLearningSystems,將自注意力機制的方法擴展到時間維度并應用于行人充識別任務,有效的解決了大多數基于卷積神經網絡的方法無法充分對空間-時間上下文進行建模的弊端。(1)交互聚合模塊(Interaction-Aggregation-Update,IAU)同時包含全局空間,時間和頻道上下文信息,可用于高性能的reID;(2)空間-時間IAU(Spatial-TemporalIAU,STIAU)可有效地融合兩種類型的上下文依賴;(3)通道IAU(ChannelIAU,CIAU)模塊旨在模擬信道特征之間的語義上下文交互,以增強特征表示,尤其是對于小型視覺線索和身體部位。8.4.6頻率注意力——Fca-Net作者從頻域角度切入,證明了GA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CMES 15001-2023自行式自上料攪拌機通用技術要求
- T/CHES 96-2023河口監測浮標技術條件
- T/CHES 91-2023連續磁性陰離子交換水處理技術規范
- T/CEMIA 005-2018光伏單晶硅生長用石英坩堝生產規范
- T/CECS 10336-2023地面防滑性能分級及試驗方法
- T/CECS 10173-2022皮芯結構熱壓交聯高分子胎基濕鋪防水卷材
- T/CECS 10065-2019綠色建材評價采光系統
- T/CECA-G 0282-2024鋼結構工業建筑碳排放計算標準
- T/CCSAS 036-2023非均相分離單元操作機械化、自動化設計方案指南
- T/CCOA 48-2023高直鏈淀粉玉米
- 國家開放大學《Web開發基礎》形考任務實驗1-5參考答案
- 第6章職業腫瘤和職業性傳染病課件
- 國家開放大學《數學思想與方法》形考任務(1-10)案例設計與分析等試題答案解析
- 水生生物學課件 第1章 原生動物
- 陜西省漢中市各縣區鄉鎮行政村村莊村名居民村民委員會明細
- FIDIC銀皮書(中英文對照)
- 癲癇護理查房.ppt課件
- 軍事地形學地形圖基本知識
- 固體火箭發動機制造工藝
- 試卷密封線模板
- 廣告牌鋼結構設計計算書(共39頁).doc
評論
0/150
提交評論