《人工神經網絡設計 》 課件 第5、6章 Hopfield神經網絡;長短期記憶網絡_第1頁
《人工神經網絡設計 》 課件 第5、6章 Hopfield神經網絡;長短期記憶網絡_第2頁
《人工神經網絡設計 》 課件 第5、6章 Hopfield神經網絡;長短期記憶網絡_第3頁
《人工神經網絡設計 》 課件 第5、6章 Hopfield神經網絡;長短期記憶網絡_第4頁
《人工神經網絡設計 》 課件 第5、6章 Hopfield神經網絡;長短期記憶網絡_第5頁
已閱讀5頁,還剩77頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工神經網絡設計05Hopfield神經網絡目錄離散型Hopfield神經網絡010203連續型Hopfield神經網絡應用實例01離散型Hopfield神經網絡

離散型Hopfield神經網絡由于Hopfield早期提出的網絡是二值型,所以該網絡也稱為離散Hopfield神經網絡(discreteHopfieldneuralnetwork,簡稱DHNN)。DHNN具有豐富的動力學行為,適用于復雜的非線性系統,已經廣泛地應用在不同的領域,如模式識別、圖像處理和信號檢測等方面。DHNN是一種單層的全反饋網絡。各個神經元之間形成互連的結構,每個神經元的輸出都成為其他神經元的輸入,每個神經元的輸入又來自其他神經元的輸出,信息經過其他神經元后又反饋回自身,其網狀結構如圖5-1所示。圖5-1Hopfield神經網絡結構圖301離散型Hopfield神經網絡

離散型Hopfield神經網絡結構與工作原理DHNN中的每個神經元將當前的輸出通過連接權值反饋給所有的神經元,得到的結果作為下一時刻網絡的輸入。DHNN的模型如圖5-2所示。圖5-2離散Hopfield神經網絡模型DHNN是二值網絡,每個神經元具有1和-1(或1和0)兩種狀態,分別表示激活和抑制。如果神經元的輸出大于閾值,則最終輸出為1,否則,最終輸出為-1。從輸入到輸出會產生一定的延時z-1401離散型Hopfield神經網絡對于有n個神經元的DHNN,第i個神經元在k時刻的狀態可以表示為,并且,其中。第i個神經元經過網絡運行后,該神經元節點的輸出為,則可以表示為:式中,

為外部輸入,;表示第i個神經元與第j個神經元之間的連接權值。神經元節點的輸出經過激活函數后作為k+1時刻網絡的輸出,即k+1時刻網絡的狀態,則第i個神經元在k+1時刻的狀態為可以表示為:式中,

為激活函數,DHNN在此選用符號函數,保證最終的輸出為二值型。501離散型Hopfield神經網絡DHNN的網絡狀態是所有神經元狀態的集合,因此,網絡狀態可以采用矩陣形式表示。設整個網絡在k時刻的狀態為

,則

可以表示為:整個網絡在k+1時刻的輸出狀態可以用表示為:式中,

為權值矩陣。網絡的工作方式有兩種,包括異步工作方式和同步工作方式(1)同步工作方式網絡的同步工作方式是一種并行方式,所有神經元同時調整狀態,即601離散型Hopfield神經網絡(2)異步工作方式網絡的異步工作方式是一種串行方式。網絡運行時每次只有一個神經元進行狀態的調整計算,其它神經元的狀態均保持不變,即神經元狀態的調整次序可以按某種規定的次序進行,也可以隨機選定。每次神經元在調整狀態時,根據其當前凈輸人值的正負決定下一時刻的狀態,因此其狀態可能會發生變化也可能保持原狀。下次調整其它神經元狀態時,本次的調整結果即在下一個神經元的凈輸入中發揮作用。701離散型Hopfield神經網絡反饋網絡是一種能存儲若干個預先設置的穩定點(狀態)的網絡。運行時,當向該網絡作用一個起原始推動作用的初始輸人模式后,網絡便將其輸出反饋回來作為下次的輸入。經若干次循環(迭代)之后,在網絡結構滿足一定條件的前提下,網絡最終將會穩定在某一預先設定的穩定點。網絡達到穩定時的狀態X,稱為網絡的吸引子,下面給出吸引子的定義。定義5-1若網絡的狀態X滿足X=f(WX-B),則稱X為網絡的吸引子。一個動力學系統的最終行為是由它的吸引子決定的,吸引子的存在為信息的分布存儲記憶和神經優化計算提供了基礎。如果把吸引子視為問題的解,那么從初態朝吸引子演變的過程便是求解計算的過程。

吸引子801離散型Hopfield神經網絡

離散型Hopfield神經網絡穩定性當任一初始狀態輸入DHNN中,經過有限次迭代,在某一有限時刻,網絡的狀態不再變化,則認為網絡是穩定的。假設k時刻的網絡狀態為X(k),如果在k+1時刻的網絡狀態X(k+1),滿足則DHNN是穩定的。1983年,Coben和Grossberg給出了Hopfield神經網絡穩定的充分條件:當Hopfield神經網絡的權值矩陣為對稱矩陣,且對角線為0,則該網絡是穩定的。式中,表示第i個神經元和第j個神經元之間的連接權值。901離散型Hopfield神經網絡在動力學系統中,穩定狀態是系統的某種形式的能量函數在系統運動過程中,其能量值不斷減小,最后達到最小值。穩定的DHNN就是網絡的能量函數達到最小。DHNN的工作過程是狀態演化的過程,當給定初始狀態,網絡就按照能量減少的方式進行演化,直至到達最小即穩定狀態。在此引入Lyapunov函數作為能量函數,k時刻的能量函數E可表示為:因此,可以得到所以,DHNN的能量函數E是有界的。1001離散型Hopfield神經網絡DHNN的穩定性需要能量函數逐漸減少并達到最小值。下面給出DHNN穩定性引理。定理5-1對于DHNN,如果按照異步方式進行演化,并且連接權值矩陣W對稱且對角線元素非負,即,,則對于任意初始狀態,網絡最終都將收斂到一個吸引子。證明如下:可表示為:1101離散型Hopfield神經網絡進一步地,可得:根據定理5-1中的條件:連接權值矩陣W為對稱矩陣,即又有神經元的輸入為:下面對進行討論,因為,所以:(1)若,則,即;1201離散型Hopfield神經網絡(2)若,,則,,即;(3)若,,則,,即;因此,可證

,由于E有界,則網絡總是向能量函數減少的方向演化,最終一定能達到某一穩定點。定理5-2對于DHNN,如果按照同步方式進行演化,并且連接權值矩陣W為非負定對稱陣,則對于任意初始狀態,網絡最終都將收斂到一個吸引子。證明:k時刻的網絡狀態為X(k),則式(9)可轉化為1301離散型Hopfield神經網絡因此,為:定理5-1中已經證明了

,由此可以得到。1401離散型Hopfield神經網絡根據定理5-2的條件:連接權值矩陣W為非負定對稱陣,由線性代數矩陣原理可知:。因此可以證明,同時E有界,即系統一定可以收斂到某一穩定點。因此,DHNN在滿足一定的條件時,經過不斷地迭代演化最終可以達到穩定狀態。如圖5-3所示,當前的網絡狀態沿著能量遞減的方向,經過不斷地演化,最終將達到某個穩定點。圖5-3穩定狀態示意圖1501離散型Hopfield神經網絡

聯想存儲DHNN的自反饋機制使得網絡能夠將輸入映射到預先設定的狀態,從而實現聯想功能。若把需記憶的樣本信息存儲于網絡不同的吸引子中,當輸入含有部分記憶信息的樣本時,網絡的演變過程便是從部分信息尋找全部信息,即聯想回憶的過程。聯想階段是Hopfield神經網絡最具特色的地方,當網絡接收到一個不完全相同的輸入時,它會嘗試將其映射到最接近的記憶模式,從而實現聯想功能。能使網絡穩定在同一吸引子的所有初態的集合,稱為該吸引子的吸引域。給出關于吸引域的兩個定義。定義5-2若是吸引子,若存在一個調整次序,使網絡可以從狀態演變到,則稱弱吸引到;若對于任意調整次序,網絡都可以從狀態演變到,則稱X

強吸引到。1601離散型Hopfield神經網絡定義5-3

若對某些,有弱吸引到吸引子,則稱這些的集合為的弱吸引域;若對于某些,有強吸引到吸引子,則稱這些的集合為的強吸引域。欲使反饋網絡具有聯想存儲的能力,每個吸引子都應該具有一定的吸引域。只有這樣,對于帶有一定噪聲或缺損的初始樣本,網絡才能經過動態演變穩定到某一吸引子狀態,從而實現正確聯想。反饋網絡設計的目的就是使網絡能落到期望的穩定點(問題的解)上,并且還要具有盡可能大的吸引域,以增強聯想功能。當網絡規模一定時,所能記憶的模式是有限的。對于所容許的聯想出錯率,網絡所能存儲的最大模式數

稱為網絡容量。網絡容量與網絡的規模、算法以及記憶模式向量的分布都有關系。1701離散型Hopfield神經網絡DHNN存儲容量的有關定理為:定理5-3若DHNN的規模為n,且權矩陣主對角線元素為0,則該網絡的信息容量上界為n。定理5-4若P個記憶模式

(),兩兩正交,,且權值矩陣W按式(16)得到,則所有P個記憶模式都是DHNN的吸引子。定理5-4若P個記憶模式

(),兩兩正交,,且權值矩陣W按式(15)得到,則所有P個記憶模式都是DHNN的吸引子。由以上定理可知,當用外積和設計DHNN時,如果記憶模式都滿足兩兩正交的條件,則規模為n維的網絡最多可記憶n個模式。一般情況下,模式樣本不可能都滿足兩兩正交的條件,對于非正交模式,網絡的信息存儲容量會大大降低。1801離散型Hopfield神經網絡

外積和法在DHNN中,外積和法是一種常用于設計網絡連接權值的學習算法。其為Hebb學習規則的一種特殊情況。設給定P個模式樣本(),,并設樣本兩兩正交,且,則網絡連接權值可表示為樣本的外積和若取,上式應寫為式中,I為單位矩陣。上式可寫成分量元素形式,有1901離散型Hopfield神經網絡按以上外積和規則設計的權值矩陣必然滿足對稱性要求。下面檢驗所給樣本是否為吸引子。因為P個樣本(),,是兩兩正交的,有所以2001離散型Hopfield神經網絡因為,所以有可見給定樣本()為吸引子。需要指出的是,有些非給定樣本也是網絡的吸引子,他們并不是網絡設計所要求的解,這種吸引子稱為偽吸引子。例題設有一個DHNN,神經元個數n=4,閾值,向量、和權值矩陣W分別為計算神經網絡的穩態結果,并考察其是否具有聯想記憶能力。2101離散型Hopfield神經網絡解:將向量、和權值矩陣W帶入式(5-4),可得因此,和為網絡的吸引子,即為網絡達到穩態時的狀態。設有樣本、、,分別令其為網絡輸入初態,考察網絡收斂的穩態。2201離散型Hopfield神經網絡令初態,則令初態,則令初態,則由上述驗證可知,網絡從任意狀態出發,經過幾次狀態更新后,都將達到穩態,網絡具有聯想記憶的能力。23目錄離散型Hopfield神經網絡010203連續型Hopfield神經網絡應用實例2402連續型Hopfield神經網絡

連續型Hopfield神經網絡與DHNN不同,連續Hopfield神經網絡(ContinuousHopfieldneuralnetwork,CHNN)在時間上是連續的,是以模擬量作為輸入輸出的。CHNN是由非線性元件構成的反饋系統,具有全連接的網絡結構,是一種典型的遞歸神經網絡。在拓撲結構上,CHNN和DHNN的結構類似。CHNN主要有以下特點:神經元之間按照漸進方式工作,并產生動作電位;神經元之間的連接有興奮和抑制,主要通過反饋來實現;準確地保留了生物神經網絡的動態特性和非線性特性;網絡的工作方式為并行方式,可以同步處理數據。2502連續型Hopfield神經網絡

連續型Hopfield神經網絡結構與工作原理CHNN由模擬電子線路連接實現,每個神經元由一個運算放大器、電阻、電容等元件構成。輸入一方面來自輸出的反饋,另一方面來自以電流形式從外界接入的輸入。CHNN的神經元模型如圖5-4所示。圖5-4連續Hopfield神經網絡的神經元模型圖中,為運算放大器對應的電阻,是運算放大器對應的電容。是運算放大器,模擬神經元的非線性飽和特性。,,…,是輸入側的電阻,模擬神經元之間的突觸特性。,,…,是神經元的輸入,是神經元的輸出,是外部電流。2602連續型Hopfield神經網絡圖5-5連續Hopfield神經網絡結構CHNN具有單層的神經元,是全連接的反饋型神經網絡,每個神經元的輸出都反饋到其輸入,輸出層的傳遞函數為連續函數。采用模擬電路實現的CHNN的結構如圖5-5所示。假設CHNN中的運算放大器為理想放大器,根據基爾霍夫定律,可以得到第i個神經元的輸入方程為:式中,n為神經元的個數,uj為運算放大器的輸入電壓,Rj0為運算放大器的等效電阻.2702連續型Hopfield神經網絡神經元之間的連接權值,具體表示為:令,那么式(21)可以簡化為:對于CHNN的第i個神經元,經過運算放大器的輸出vi可表示如下:式中,為激活函數。2802連續型Hopfield神經網絡由于CHNN的輸出為連續時間變化,CHNN中常用的激活函數一般有兩種形式,包括Sigmoid函數和雙曲正切函數。從CHNN的模型中可以看出,該網絡由一些元件組成的模擬電子線路連接而成,網絡的輸入和輸出都是連續時間變化的,從輸入到輸出由具有非線性飽和特性的運算放大器來實現。當網絡有輸入時,通過網絡的運行進行輸出,并將輸出值作為網絡的輸入繼續運行,直至網絡最終的輸出達到穩定,停止運行。2902連續型Hopfield神經網絡

連續型Hopfield神經網絡穩定性CHNN是非線性動力學系統,具有反饋型的網絡結構。對于反饋型神經網絡來講,網絡的穩定性至關重要。網絡從初始狀態開始運行,經過有限次迭代,當網絡的狀態不再改變,則認為網絡是穩定的。穩定的網絡從初始狀態開始演化,沿著能量減小的方向演化,最終收斂到某一穩定點。在式(5-21)中采用非線性微分方程描述了CHNN,網絡的穩定性需要在此基礎上通過構造能量函數E來證明。定義CHNN的能量函數為3002連續型Hopfield神經網絡寫成相應的向量式為式中,為神經元激活函數的反函數。CHNN的能量函數用來表征網絡的狀態變化趨勢,其物理意義是:在漸進穩定點的吸引域內,離吸引點較遠的狀態具有較大的能量,由于能量函數是單調下降,使狀態的運動逐漸趨近于吸引點,直至達到穩定點。定理5-6若神經元的激活函數存在反函數,且是單調連續遞增的,同時網絡權值對稱,即,則由任意初態開始,CHNN的能量函數總是單調遞減的,即,當且僅當時,有,因此網絡最終能夠達到穩態。3102連續型Hopfield神經網絡證明:將能量函數對時間求導,可得由式(25)和及網絡的對稱性,對神經元j有將式(28)代入式(27),并考慮式(23),可整理為3202連續型Hopfield神經網絡可以看出,式(29)中單調遞增函數

故有只有對于所有j均滿足時,才有。在運算放大器接近理想運放時,積分項可忽略不計,則能量函數為由定理5-6可知,隨著狀態的演變,網絡的能量總是降低的。只有當網絡中所有節點的狀態不再改變時,能量才不再變化,此時到達能量的某一局部極小點或全局最小點,該能量點對應著網絡的某一個穩定狀態。為保證網絡的穩定性,要求網絡的結構必須對稱,否則運行中可能出現極限環或混沌狀態。33目錄離散型Hopfield神經網絡010203連續型Hopfield神經網絡應用實例3403應用實例

Hopfield神經網絡求解旅行商問題旅行商(TravelingSalesmanProblem,TSP)問題是一種典型的組合優化問題。假設有n個城市A,B,C,…,城市之間的相互距離可以表示為。解決TSP問題就是尋找遍歷n個城市的最短路徑。該路徑經過每個城市,并返回起始城市,形成一個閉合的路徑。采用CHNN解決TSP問題可以并行處理數據,可以避免“組合爆炸”問題。為了將TSP問題映射到網絡的動態過程中,將城市的狀態通過換位矩陣表示。假設要訪問5個城市A、B、C、D和E,每次只能訪問一個城市,即矩陣的每行和每列只能有一個城市被訪問。3503應用實例如訪問的路徑為A→E→B→D→C,則具體的表示如表1所示。城市ABCDE110000200001301000400010500100表1換位矩陣對于n個城市的TSP問題,全部n行的所有元素按順序兩兩相乘之和為0,即3603應用實例此外,全部n列的所有元素按順序兩兩相乘之和為0,即定義能量函為數E1為式中,A和B為正常數。換行矩陣的每行和每列都只能有一個1,其余為0,矩陣中1的和為n,因此需要滿足以下約束條件3703應用實例定義能量函為數E2為式中,C為正常數。TSP問題的目標是遍歷所有的城市后得到一個最短路徑,可以表示為式中,D為正常數;dxy為城市x與城市y之間的距離。綜上,可得TSP問題的能量函數為3803應用實例具體為:將式(38)與式(25)給出的能量函數形式對應,應使神經元xi和yi之間的權值和外部輸入的偏置按下式給出式中,,。3903應用實例網絡構成后,給定一個隨機的初始輸入,便有一個穩定狀態對應于一個旅行路線,不同的初始輸入所得到的旅行路線不同,這些路線都是較佳和最佳的。將式(39)代入CHNN運行方程式,可得式中,u0為初始輸入。4003應用實例本實驗選擇10個城市進行測試。城市的狀態對應于Hopfield神經網絡中神經元的狀態,當能量函數為最小值時,即可得到最優路徑。首先確定城市的位置和彼此之間的距離。隨機選取兩個城市作為起點和終點,起點是城市8,終點是城市10。圖5-6初始路徑通過隨機運行產生初始路徑,如圖5-6所示。圖中,圓點代表了十個城市。從圖5-6可以看出,從起點城市8到終點城市10,期間經歷的路徑是8→9→2→4→6→7→1→5→10→3→8。該隨機路徑產生的最終距離為5.5852。該距離是隨機路徑規劃產生的,不一定是最優路徑。4103應用實例圖5-7最優路徑采用CHNN對這10個城市進行路徑規劃,使其產生最優路徑,即得到路徑的最優解。仍然選定城市8為起始城市,城市10為終點城市。規劃后的結果如圖7所示。當經過所有的城市后,期望總距離達到最低。通過CHNN得到的最優路徑如圖5-7所示。從起點到終點,最后的路徑是8→7→1→2→3→5→6→4→9→10→8,最后的距離為2.9137。由此可見,通過CHNN的運行,最終得到10個城市的路徑。4203應用實例圖5-8能量函數的變化圖5-8對10個城市的路徑規劃過程中的能量函數的變化進行統計。可以看出,隨著迭代次數的逐漸增大,能量函數逐漸減少。在最初的20次迭代中,能量函數迅速減少。隨著迭代次數的逐漸增加,能量函數變化緩慢。能量函數從151.3逐漸收斂到1.564,可以認為1.564近似接近于零,從而網絡得到最優解。在網絡的運行過程中,通過不斷地調整使能量函數逐漸減少,逐漸趨于最小,從而得到最優路徑。隨著迭代次數的增加,能量函數減小。43人工神經網絡設計06長短期記憶網絡目錄遞歸神經網絡的挑戰0102長短期記憶神經網絡結構及工作原理03超參數對長短期記憶神經網絡性能影響04長短期記憶神經網絡超參數優化方法05應用實例:電力負荷預測01遞歸神經網絡的挑戰前饋神經網絡(FeedforwardNeuralNetwork,FNN)是一種由多個神經元層次組成的網絡結構,其中信息從輸入層逐層傳遞到各隱含層,最終到達輸出層。該網絡的處理過程具有明確的方向性,在這種結構中,除輸出層外,每一層的輸出都會作為下一層的輸入。

前饋神經網絡圖6-1單層前饋神經網絡圖6-2多層前饋神經網絡301遞歸神經網絡的挑戰遞歸神經網絡(RecurrentNeuralNetworks,RNN),也稱反饋神經網絡或循環神經網絡。與前饋神經網絡不同,遞歸神經網絡中至少存在一個反饋環路。遞歸神經網絡既包含前饋連接,又具有反饋連接。這種結構使得網絡能夠對之前輸入的信息進行記憶,并將其應用于當前輸出的計算中,從而保持數據中的依賴關系。

遞歸神經網絡圖6-3遞歸神經網絡工作原理401遞歸神經網絡的挑戰RNN的關鍵點之一就是他們可以用來連接先前的信息到當前的任務上,當預測下一時刻的輸出時,有時需要依賴于若干個時間步之前的輸入信息,即“長期依賴現象”。

長期依賴現象圖6-4遞歸神經網絡長期依賴現象501遞歸神經網絡的挑戰反饋結構的引入使得遞歸神經網絡在處理長時間序列時,需要反復進行相同的計算,并且由于參數共享,這種結構容易導致梯度消失或者梯度爆炸,使得學習長期依賴關系變得極具挑戰,即“長期依賴問題”。

長期依賴問題產生原因圖6-5遞歸神經網絡長期依賴問題601遞歸神經網絡的挑戰為了解決上述問題,多種遞歸神經網絡架構被提出。下面的幾種網絡結構主要是對遞歸神經網絡中的參數傳遞機制進行優化,減少冗余信息記憶帶來的問題。

長期依賴問題解決方案設定循環的隱藏層單元:回聲狀態網絡(EchoStateNetwork,ESN),液態狀態機(LiquidStateMachine,LSM)多個時間尺度的模型:在時間展開方向增加跳躍連接、滲漏單元使用不同時間常數去處理信息門控RNN(gatedRNN):長短期記憶網絡(Longshort-termmemory,LSTM),門控循環單元(Gatedrecurrentunit)701遞歸神經網絡的挑戰Bengio等人提出標準RNN存在梯度消失和梯度爆炸的困擾。這兩個問題都是由于RNN的迭代性引起的,導致其在早期并沒有得到廣泛的應用。隨時間反向傳播(Backpropagationthroughtime,BPTT)算法,假設對于序列通過將上一時刻的狀態映射到下一時刻的狀態。T時刻損失函數關于參數的梯度為:根據鏈式法則。Jacobian矩陣分解如下:

梯度消失和梯度爆炸(6-1)(6-2)801遞歸神經網絡的挑戰循環網絡若要可靠地存儲信息,<1,也意味著當模型能夠保持長距離依賴時,其本身也處于梯度消失的情況下。隨著時間跨度增加,梯度也會以指數級收斂于0。當>1時,將發生梯度爆炸的現象,網絡也陷入局部不穩定。

梯度消失和梯度爆炸圖6-6梯度爆炸示例圖6-7梯度消失示例902長短期記憶神經網絡結構及工作原理RNN的結構按時間步長展開,如下圖所示。RNN通過延遲遞歸使每個狀態都能傳輸并連接到下一個隱藏狀態,并根據當前輸入和前一狀態計算輸出。隱藏狀態和輸出可定義為:式中,是時刻的輸入向量;和是偏置項;是非線性激活函數;,和分別是輸入向量、隱藏狀態向量和輸出向量的連接權重。

標準RNN網絡結構(6-3)(6-4)圖6-8RNN的結構按時間步展開1002長短期記憶神經網絡結構及工作原理LSTM神經網絡是標準RNN的一個變體。不同的是,LSTM神經網絡將RNN中的基本單元替換為LSTM單元,可以更好地處理長期依賴的梯度消失和梯度爆炸問題。基本LSTM單元的結構如下圖所示。基本的LSTM單元通常包含三個輸入,分別是前一時刻的單元狀態、前一時刻的隱藏狀態和當前時刻的輸入向量。

LSTM網絡結構圖6-9LSTM網絡結構圖1102長短期記憶神經網絡結構及工作原理

LSTM網絡門控機制①遺忘門②輸入門③細胞狀態更新④輸出門(6-6)(6-5)(6-7)(6-8)(6-10)(6-9)(6-11)1202長短期記憶神經網絡結構及工作原理

例6-1假設當前時刻的輸入向量:=[0.1,0.2](對應特征1的兩個維度),=[0.3,0.4](對應特征2的兩個維度),前一時刻的隱藏狀態:=[0.5],前一時刻的單元狀態:=[0.6]。權重矩陣和偏置項為:=[0.1,0.2,0.3,0.4],=[0.6,0.7,0.8,0.9],=[0.4,0.5,0.6,0.7],=[1.0,1.1,1.2,1.3],=[1.0],=[0.5],=[0.6],

=[0.4],=[1.0],=[0.1],=[0.2],=[0.1]和=[0.3],試計算LSTM網絡輸出。圖6-10單個LSTM模塊1302長短期記憶神經網絡結構及工作原理

例6-1輸入門輸出:遺忘門輸出:輸出門輸出:1402長短期記憶神經網絡結構及工作原理

例6-1候選單元狀態輸出:更新單元狀態:更新隱藏狀態:網絡輸出:1503超參數對長短期記憶神經網絡性能影響

長短期記憶神經網絡的超參數及其作用長短期記憶神經網絡的超參數是指在該網絡設計中和訓練過程前需要預先設置的參數,這些參數對網絡結構、訓練過程和參數優化有著重要影響。超參數的選擇對模型的性能和泛化能力有顯著影響,因此正確的超參數設置對于達到最優模型性能至關重要。學習率(Learningrate)用于調整梯度下降算法中權重的更新速率,學習率設置不當可能導致模型訓練不穩定或無法收斂。正則化參數(Regularizationparameter)用于防止過擬合,通過在損失函數中加入正則化項,可以迫使模型選擇更簡單的結構。1603超參數對長短期記憶神經網絡性能影響

長短期記憶神經網絡的超參數及其作用神經網絡的層數(Numberofhiddenlayers)和神經元數量(Numberofneurons)則影響網絡的深度和寬度,增加層數和神經元數量可以提高模型的學習能力,但也可能增加過擬合的風險。激活函數(Activationfunction)決定了神經元的輸出信號如何處理,不同的激活函數對網絡性能和收斂速度有顯著影響。批處理大小(BatchSize)是指在更新模型權重時使用的訓練樣本數,較小的批量大小可以提高模型的泛化能力,但可能導致訓練過程不穩定,較大的批量大小加快訓練速度,但增加內存需求。此外,還有學習率衰減、動量和權重衰減等其它用于優化訓練過程的超參數。1703超參數對長短期記憶神經網絡性能影響

學習率、隱藏單元個數和層數的選擇對性能的影響學習率決定了模型在訓練過程中權重更新的步長,表征了模型權重在每次更新時響應估計誤差的程度。學習率的選擇直接影響了神經網絡的訓練速度和收斂性。如果學習率設置得太小,會導致訓練過程過長,模型收斂速度過慢。如果學習率設置得太大,則可能導致模型在訓練過程中產生震蕩,甚至無法收斂到最優解。圖6-11不同學習率下損失函數隨迭代次數變化1803超參數對長短期記憶神經網絡性能影響

學習率、隱藏單元個數和層數的選擇對性能的影響隱藏單元個數是神經網絡結構中的另一個關鍵超參數,需要根據具體任務和數據集的復雜程度進行合理調整,以平衡模型的表達能力和泛化能力。如果隱藏單元數量過少,可能導致模型無法充分學習數據的特征,從而限制了模型的性能。而隱藏單元數量過多,則可能導致模型過擬合,降低了模型的泛化能力。圖6-12單個隱含層神經元擬合曲線(欠擬合)圖6-1350個隱含層神經元擬合曲線(過擬合)1903超參數對長短期記憶神經網絡性能影響

學習率、隱藏單元個數和層數的選擇對性能的影響層數也是影響神經網絡性能的一個重要因素,增加神經網絡的層數可以提高模型的復雜度和表達能力,使其能夠學習更復雜的特征和模式。然而,隨著層數的增加,神經網絡的訓練難度也會增大,需要更多的計算資源和時間來完成訓練。同時,過深的神經網絡還可能導致梯度消失或爆炸等問題,從而影響模型的性能。20圖6-14單層LSTM擬合曲線(擬合較好)圖6-1510層LSTM網絡擬合曲線(過擬合)04長短期記憶神經網絡超參數優化方法

超參數優化的目標與挑戰通過調整這些超參數,可以平衡模型的訓練速度和性能,以防止過擬合或欠擬合。超參數優化的目標主要是尋找最優的超參數組合,使得模型在測試集上的誤差最小,從而提高模型的性能。然而,超參數優化面臨著兩項主要挑戰。一方面,超參數優化是一個組合優化問題,其搜索空間隨著超參數數量的增加而迅速擴大,如何高效地搜索這個空間并找到最優的超參數組合是首要挑戰。另一方面,評估一組超參數配置的性能通常需要訓練模型并在驗證集上測試,這通常需要大量的計算資源和時間,如何快速且準確地評估超參數的性能是另一項挑戰。2104長短期記憶神經網絡超參數優化方法

超參數優化的目標與挑戰研究者們提出了一些超參數優化的方法,包括網格搜索、隨機搜索、貝葉斯優化、基于梯度的優化、群優化算法和其它自動化超參數優化工具,如Hyperopt、Scikit-Optimize和RayTune等。這些方法各有優缺點,適用于不同的場景和需求。網格搜索和隨機搜索:可以系統地探索超參數空間,但可能需要大量的計算資源。貝葉斯優化:可以利用已有的觀察結果來調整搜索策略,提高搜索效率。群優化算法:模擬生物進化過程來尋找最優的超參數組合,具有全局搜索能力。2204長短期記憶神經網絡超參數優化方法

自適應學習率算法自適應學習率算法是一種在模型訓練過程中根據學習步長隨誤差曲面的變化來調整學習率的算法,其主要目的是達到縮短學習時間的效果。這種算法能夠根據模型的訓練情況和數據的特點動態地調整學習率,從而更高效地優化模型參數,有效地提高模型的訓練速度和性能。常見的自適應學習率算法包括自適應梯度算法(AdaptiveGradientAlgorithm,

AdaGrad),均方根傳播算法(Rootmeansquarepropagation,RMSprop),自適應矩估計算法(AdaptiveMomentEstimationAlgorithm,Adam)。2304長短期記憶神經網絡超參數優化方法

AdaGrad算法AdaGrad算法是一種基于梯度的優化算法,借鑒L2正則化的思想,每次迭代時自適應地調整每個參數的學習率,在第t次迭代時,先計算每個參數梯度平方的累積值。式中,⊙為按元素乘積,是第τ次迭代時的梯度。參數更新為式中,α是初始的學習率,ε是為了保持數值穩定性而設置的非常小的常數,一般取值e-7到e-10。此外,這里的開平方、除、加運算都是按元素進行的操作。通過累積梯度平方的方式來自適應地調整學習率,對低頻出現的參數進行大的更新,對高頻出現的參數進行小的更新。從而更加關注罕見特征的梯度。(6-12)(6-13)2404長短期記憶神經網絡超參數優化方法

RMSprop算法RMSprop算法是另一種自適應學習率方法,它對AdaGrad算法進行了改進,通過引入衰減系數來減小歷史梯度對學習率的影響,可以在某些情況下克服AdaGrad算法中學習率不斷單調下降以至于過早衰減的缺點。該算法首先計算每次選代梯度平方的加權移動平均式中,β為衰減率,一般取值為0.9。參數更新為式中,α是初始的學習率,比如0.001。RMSprop算法和AdaGrad算法的區別在于RMSprop算法中的計算由累積方式變成了加權移動平均。(6-14)(6-15)2504長短期記憶神經網絡超參數優化方法

Adam算法Adam算法可以看作動量法和RMSprop算法的結合,不但使用動量作為參數更新方向,而且可以自適應調整學習率。Adam算法一方面計算梯度平方的加權移動平均(和RMSprop算法類似),另一方面計算梯度的加權移動平均(和動量法類似)。式中,和分別為兩個移動平均的衰減率,通常取值為=0.9,=0.99。我們可以把和分別看作梯度的均值(一階矩)和未減去均值的方差(二階矩)。(6-16)(6-17)2604長短期記憶神經網絡超參數優化方法

Adam算法假設=0,=0,那么在迭代初期

的值會比真實的均值和方差要小。特別是當和都接近于1時,偏差會很大,因此需要一階矩與二階矩修正如下:Adam算法的參數更新為Adam算法結合了動量優化和RMSprop的特點計算每個參數的自適應學習率,它不僅具有動量優化方法的快速收斂性,還能適應非平穩數據和大規模數據集。Adam算法在許多深度學習任務中表現優秀。(6-18)(6-19)(6-20)2704長短期記憶神經網絡超參數優化方法

增長-修剪型結構設計算法神經網絡的泛化能力被認為是評價神經網絡性能優劣的重要指標,而神經網絡泛化性能的優劣與網絡的結構設計密不可分。確定合適的網絡結構是LSTM神經網絡模型構建的關鍵步驟之一,結構過小或過大都會導致神經網絡的欠擬合或過擬合問題。為了增強網絡的適應性能和提高網絡的泛化能力,眾多學者致力于自組織神經網絡(Self-organizingneuralnetwork,SONN)的研究,并取得了豐碩的成果。皮層網絡通過一系列影響其突觸和神經元特性的可塑性機制表現出驚人的學習和適應能力。這些機制允許大腦皮層的遞歸網絡學習復雜時空刺激的表征。2804長短期記憶神經網絡超參數優化方法

增長-修剪型結構設計算法受這種可塑性原理的啟發,本節提出一種基于神經元影響值(Neuronimpactvalue,NIV)和顯著性指標(Significanceindex,SI)的自組織長短期記憶神經網絡(Self-organizinglongshort-termmemoryneuralnetwork,SOLSTM),實現隱含層神經元的動態優化,構造出結構緊湊且泛化性能好的網絡。圖6-16神經網絡結構自組織示意圖2904長短期記憶神經網絡超參數優化方法

結構剪枝算法初始化網絡模型結構,將輸入變量按照比例α

依次增加和減少,得到兩個新的輸入變量和。將新得到的輸入變量和分別通過網絡模型,得到兩組新的神經元輸出和,二者差的絕對值即為神經元對輸入變量按α比例增減后產生的響應變化,記為。(6-21)(6-22)(6-23)3004長短期記憶神經網絡超參數優化方法

結構剪枝算法由于神經元影響值是神經元活躍度的具體體現,因此需要保留具有較大值的神經元。這里,設定前m個神經元的累積活躍度為,定義為式中,M是初始隱含層神經元個數。通過設置累積活躍度閾值ξ,保留最活躍的前?比例且累積活躍γ高于ξ的神經元。(6-24)3104長短期記憶神經網絡超參數優化方法

結構剪枝算法抑制剩余對輸入變量變化不敏感的神經元,即將它們的神經元連接權值掩碼MASK置0。為保證SOLSTM神經網絡的收斂性,將最大的第q個神經元的輸出權值參數調整為式中,和是刪除d個神經元前后第q個神經元的輸出權值,和是刪除d個神經元前第s

個神經元和第q個神經元的輸出值。神經元剪枝后,將d個神經元的參數設為零,而第q個神經元除輸出權值外其余參數不變。(6-25)3204長短期記憶神經網絡超參數優化方法

結構增長算法與大多數神經網絡一樣,LSTM神經網絡的輸出層起到求和的作用。如果輸出權值的絕對值很大,則說明該權值所連接的隱含層神經元對網絡總輸出的貢獻也較大。為了改善神經元過度修剪的情況,可以重新激活這些隱含層神經元。因此,提出基于輸出權重的顯著性指標SI來評價每個隱含層神經元的貢獻。若SI值越大,則說明對應的隱含層神經元對輸出的貢獻越顯著。因此,根據每個LSTM神經元的貢獻顯著性,找出并激活最顯著的前β比例神經元,即將它們的連接權值掩碼MASK置1。此外,為保證SOLSTM神經網絡的收斂性,將激活神經元的輸出權值初始化為(6-26)(6-27)3304長短期記憶神經網絡超參數優化方法

網絡結構自組織算法實現網絡結構的增長和修剪,具體步驟如下:(1)選擇合適的參數,包括LSTM神經網絡參數如學習率η、網絡權值等,自組織過程參數如影響值比例α

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論