神經網絡完整_第1頁
神經網絡完整_第2頁
神經網絡完整_第3頁
神經網絡完整_第4頁
神經網絡完整_第5頁
已閱讀5頁,還剩58頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

上海**通信技術有限公司seniordba@(2013-12)神經網絡

(智能計算方法與應用)

培訓大綱一、神經網絡基礎二、感知機三、BP網絡1.人類的大腦二十世紀初,科學家通過新的細胞染色方法得知人的大腦是一個由數以十億計的細胞構成的無比復雜的網絡。人腦平均包含超過1015條內部連接,即一立方厘米中就超過109條連接。人腦內部結構十分復雜,總體上可以看做是一個分區的并行處理器,能夠完成記憶、理解、學習、推理、判斷以及控制等復雜的工作神經網絡基礎人腦的剖面圖大腦小腦腦干大腦:最上方,分左右大腦半球小腦:大腦后下方,腦干背側腦干:大腦下,小腦前,下連脊髓腦干腦干的功能主要是維持個體生命,包括心跳、呼吸、消化、體溫、睡眠等重要生理功能。延髓腦橋中腦小腦垂體胼胝體下丘腦脊髓腦干自下而上由延髓、腦橋、中腦三部分組成

2.生物神經元神經元從外部形態結構上看是由細胞體(soma),以及樹突(dendrite)和軸突(axon)這兩類突起組成的。通常樹突接受刺激信息,并向胞體傳送,經細胞體整合后由軸突傳出,如圖所示:神經網絡基礎3.突觸突觸(synapse)是神經元之間進行信息傳遞的特異性功能接觸部位。借助于突觸,神經元相互聯系構成了神經系統。突觸的形態如圖所示。突觸根據其功能可以分為興奮型(Excitatory)突觸和抑制型(Inhibitory)突觸。神經網絡基礎4.神經元的電活動所謂神經元的電活動就是在信息傳遞過程中神經元的膜電位變化的過程。其最主要的行為表現為動作電位的發放,也就是我們常說的神經元的電脈沖。神經網絡基礎4.神經元的電活動特性信息以預知的確定方向傳遞

一個神經元的樹突、細胞體-軸突-突觸-另一個神經元樹突時空整合功能對不同時間通過同一突觸傳入的信息具有時間整合功能對同一時間通過不同突觸傳入的信息具有空間整合功能工作狀態興奮狀態,對輸入信息整合后使細胞膜電位升高,當高于動作電位的閾值時,產生神經沖動,并由軸突輸出。抑制狀態,對輸入信息整合后使細胞膜電位降低,當低于動作電位的閾值時,無神經沖動產生。5.生物神經網絡生物神經網絡就是由突觸連接的神經元形成的網絡,網絡內部的信息傳遞以神經元的電活動為基礎。人腦能夠實現的種種神奇而復雜的功能實際上就是生物神經網絡的功能。6.人工神經網絡模擬生物神經網絡由簡單的處理單元(神經元)組成的大規模并行分布式處理器T.Koholen(芬蘭赫爾辛基技術大學)定義:人工神經網絡是由具有適應性的簡單單元組成的廣泛并行互連的網絡,它的組織能夠模擬生物神經系統對真實世界物體作出的交互反應。7.人工神經元及其互連結構人工神經網絡的基本處理單元-人工神經元模擬主要考慮兩個特性:時空加權,閾值作用。其中對于時空加權,模型分為兩類,即考慮時間特性,不考慮時間特性。1.第一階段——發展期1943年,麥卡洛克&皮茨(McCulloch&Pitts)提出了一個簡單的神經元模型,即M-P數學模型。1958年,Rosenblatt(羅森布拉特)等研制出了感知機。神經網絡發展史

θY輸出eeii興奮型輸入抑制型輸入閾值M-P模型輸入輸出關系表輸入條件輸出 M-P模型對抑制型輸入賦予了“否決權”,只有當,且時,才有y=1,其它時候y=0。1949年,Hebb(赫布)提出了Hebb規則1969年,Minsky(明斯基)和Papert(帕爾特)發表”Perceptrons”第二階段——興盛期1982年,美國物理學家Hopfield提出Hopfield模型。它是一個互聯的非線性動力學網絡。它解決問題的方法是一種反復運算的動態過程,這是符號邏輯處理所不具備的性質。1982年,SOM網絡(Kohonen);1986年,BP網絡(Rumelhart,Hinton&Williams);1988年,RBF網絡(Broomhead&Lowe)神經網絡發展史人工神經元模型

通用模型求和操作響應函數人工神經元模型

響應函數的基本作用控制輸入對輸出的激活作用對輸入、輸出進行函數轉換將可能無限域的輸入變換成指定的有限范圍內的輸出(a)閾值單元(b)線性單元(c)(d)非線性單元:Sigmoid函數

常見神經元響應函數一些典型的特性函數

閾值型 線性

s型神經網絡基本模型神經元的數學模型

其中x=(x1,…xm)T

輸入向量,y為輸出,wi是權系數;輸入與輸出具有如下關系:θ為閾值,f(X)是激發函數;它可以是線性函數,也可以是非線性函數.例如,若記

取激發函數為符號函數

S型激發函數:

注:若將閾值看作是一個權系數,-1是一個固定的輸入,另有m-1個正常的輸入,則(1)式也可表示為:

(1)

參數識別:假設函數形式已知,則可以從已有的輸入輸出數據確定出權系數及閾值。

神經網絡性能穩定性:對于反饋神經網絡而言,系統的輸出是動態的,如果把整個神經網絡看成是一個控制系統,則該系統的輸出最終是否會收斂至一個穩定狀態就反應了該網絡的穩定性魯棒性:當網絡的某些神經元或某些連接權被破壞時,系統仍然能夠繼續工作的能力適應性:當外界環境(輸入信號的統計特性)發生變化時,系統能夠自適應地調整內部參數的能力。即網絡的學習能力利用神經元連接和連接強度來存儲知識,而非存儲器。學習能力強,魯棒性、容錯性好。分布式存儲與分布式信息處理。并行非線性動力學系統非編程,聯想記憶,連接主義。應用范圍極廣,幾乎可以囊括所有的計算技術人工神經網絡的工作特點模式分類與識別圖像、視頻、語音分類,故障診斷……最優化連續函數尋優,動態規劃……函數逼近與概率密度估計數據挖掘數據庫技術,模式聚類……智能控制工業模型,機器人導航……人工神經網絡在信息處理領域的應用人工神經網絡的特征能較好的模擬人的形象思維具有大規模并行協同處理能力具有較強的容錯能力具有較強的學習能力大規模、自組織、自適應的非線性動力系統人工神經網絡的分類根據拓撲結構無反饋網絡有反饋網絡根據學習方法有教師的學習網絡無教師的學習網絡根據網絡的狀態靜態網絡動態網絡根據處理的信息連續型網絡 離散型網絡網絡模型的泛化能力訓練神經網絡的首要和根本任務是確保訓練好的網絡模型對非訓練樣本具有好的泛化能力(推廣性),即有效逼近樣本蘊含的內在規律,而不是看網絡模型對訓練樣本的擬合能力。從存在性結論可知,即使每個訓練樣本的誤差都很?。梢詾榱悖⒉灰馕吨⒌哪P鸵驯平柧殬颖舅N含的規律。因此,僅給出訓練樣本誤差(通常是指均方根誤差RSME或均方誤差)的大小而不給出非訓練樣本誤差的大小是沒有任何意義的。

要分析建立的網絡模型對樣本所蘊含的規律的逼近情況(能力),即泛化能力,應該也必須用非訓練樣本(本文稱為檢驗樣本和測試樣本)誤差的大小來表示和評價,這也是之所以必須將總樣本分成訓練樣本和非訓練樣本而絕不能將全部樣本用于網絡訓練的主要原因之一。判斷建立的模型是否已有效逼近樣本所蘊含的規律,最直接和客觀的指標是從總樣本中隨機抽取的非訓練樣本(檢驗樣本和測試樣本)誤差是否和訓練樣本的誤差一樣小或稍大。非訓練樣本誤差很接近訓練樣本誤差或比其小,一般可認為建立的網絡模型已有效逼近訓練樣本所蘊含的規律,否則,若相差很多(如幾倍、幾十倍甚至上千倍)就說明建立的網絡模型并沒有有效逼近訓練樣本所蘊含的規律,而只是在這些訓練樣本點上逼近而已,而建立的網絡模型是對訓練樣本所蘊含規律的錯誤反映。培訓大綱一、神經網絡基礎二、感知器三、BP網絡感知器概述感知器最早是由羅森勃拉特(Rosenblatt)于1957年提出的一個具有單層計算單元的神經網絡(單層感知器),在識別印刷字符方面表現出良好的性能。感知器是由線性閾值單元組成的網絡,有學習能力,能夠對輸入樣本進行分類。

羅森布拉特(Rosenblatt)于1957年提出,把神經網絡的研究從純理論探討引向了工程實踐。 感知器是只有單層計算單元的前向神經網絡,由線性閾值單元組成。單層感知器只有輸入層和輸出層組成,輸入層的每個處理單元均與輸出層互連,層內各神經元無連接,網絡無反饋。1y=0學習算法:假設只有一個輸出y(t)1.給wi(0)(i=1,2……n)及θ賦一個較小的非0隨機數作為初值2.輸入一個樣例X=[x1,x2……xn]和期望的輸出d3.計算網絡的實際輸出4.調整權值0<η≤1:增益因子,控制調整速度5.轉第二步,直到wi對一切樣例穩定為止單層感知器算法分析:單層感知器的每一個神經元相當于n維空間中的一個超平面,將n維空間分為兩個部分;當樣本落在超平面一側,則感知器輸出1;落在另一側則輸出-1;算法局限性:單層感知器無法解決XOR問題,人工智能之父Minskey在其經典著作《Perceptron》中曾經斷言感知器沒有處理復雜分類問題的能力(XOR邏輯問題),因此感知器曾一度遭到冷遇。多層感知器的提出使得感知器模型又再度受到重視。多層感知器網絡(MLP)含有多個隱層的感知器網絡稱為MLP,如下圖,輸入層有n個神經元,第一隱層有n1個神經元,第二隱層有n2個神經元,輸出層有一個神經元。MLP的神經元響應函數和學習算法與單層感知器完全相同在理論上可以證明,假定隱層的神經元可以根據需要自由設置,則用三層的閾值網絡可以實現任意的二值邏輯,即實現任意復雜形狀的區域分割。

培訓大綱一、神經網絡基礎二、感知器三、BP網絡多層前饋型神經網絡模型——相關概念響應函數:神經元響應函數(Sigmoidal函數或線性函數)學習過程:根據某個目標和規律,調整網絡權值的過程。誤差函數:用于測量學習樣本的實際輸出與監督信號之間的差異。學習過程就是調整權值使得網絡對于當前學習樣本集的誤差函數值最小。常用的誤差函數是二乘誤差函數誤差曲面:定義在權值空間上的誤差函數形成的超曲面,學習的目的就是要找到誤差曲面的全局最小值。移動步長:也稱為學習率,能夠動態調整學習的速度。學習規則:支配學習規則的具體算法。B-P算法學習的目的:對網絡的連接權值進行調整,使得對任一輸入都能得到所期望的輸出。學習的方法:用一組訓練樣本對網絡進行訓練,其中每一個樣本都包括輸入及期望的輸出兩部分。應用:對待識別的樣本進行模式識別。節點的特性要求是可微的,通常選S型函數。Sigmoid函數的特點:連續可微單調取值在[0,1]BP算法步驟構建網絡:學習樣本集Xtrain,網絡層數L,各層神經元數量nl。初始化:隨機賦予網絡權值。設置學習步長、動量系數和終止條件(循環次數、容錯量)。正向傳播:輸入信號,獲取各層神經元輸出反向傳播:計算輸出層神經元的δ值,更新連接到輸出層的權值;反向傳播輸出層δ值,計算前一層的δ值并更新對應的權值,依此類推直到更新完全部的權值。循環輸入學習樣本,執行步驟3)-4),直到達到終止條件基本BP網絡的拓撲結構b1bia1c1cqcjahbpan………………Wp1WiqWpjW1qW1jWijV11W11WpqWi1Vh1VhiV1iVn1VniV1pVhpVnp輸出層LC隱含層LB輸入層LAWV具體算法:1)初始化:給各連接權{}、{}及閥值{}、{}賦予(-1,1)間的隨機值2)隨機在樣本集中選取一模式對,即提供給網絡3)計算式中,xj表第k個模式第j個輸入節點值4)計算

具體算法:5)計算

式中:yt(k)表示第k個模式第t個期望輸出節點值6)計算7)計算8)計算9)計算全局誤差為具體算法:10)隨機在樣本集中選取下一模式對提供給網絡,返回到(3),直至M個樣本訓練完畢.11)判斷網絡全局誤差函數E是否小于預先設定的值,如果是,結束學習;如果不是,繼續迭代,返回到(3);如果隨著迭代次數的增加,網絡全局誤差函數E不減少或減少速度很慢,意味E難以收斂,此時應適當采用過濾樣本(刪除單項誤差較大的樣本)或調節網絡參數的方法,促使E收斂.學習率η

學習率影響系統學習過程的穩定性。大的學習率可能使網絡權值每一次的修正量過大,甚至會導致權值在修正過程中超出某個誤差的極小值呈不規則跳躍而不收斂;但過小的學習率導致學習時間過長,不過能保證收斂于某個極小值。真正的梯度下降是沿著梯度確定的方向以無窮小步長進行的。很明顯,這是不切實際的,因此定義學習速率η,確定了沿梯度方向的一個有限步長。這里η是常數,它相當于確定步長的增益。其中心思想就是選擇足夠大的η

,使得網絡迅速收斂,而不會因調整過渡而振蕩。為了保證算法的收斂性,學習率η必須小于某一上限,一般取0<η<1而且越接近極小值,由于梯度變化值逐漸趨于零,算法的收斂就越來越慢。所以,一般傾向選取較小的學習率以保證學習過程的收斂性(穩定性),通常在0.01~0.8之間。1、引入動量法附加動量法使網絡在修正權值時不僅考慮誤差在梯度上的作用,而且考慮在誤差曲面上變化趨勢的影響。標準BP算法實質上是一種簡單的最速下降靜態尋優算法,在修正權值w(k)時,只是按k時刻的負梯度方向進行修正,沒有考慮積累的經驗,即以前的梯度方向,從而使學習過程振蕩,收斂緩慢。改進BP算法的措施D(k)為k時刻的負梯度,D(k-1)為k-1時刻的負梯度。

為學習率,>0

為動量項因子,0

<1所加入的動量項實質上相當于阻尼項,它減小了學習過程的振蕩趨勢,改善了收斂性,是一種應用比較廣泛的改進算法。

2、自適應學習率調整法在BP算法中,網絡權值的調整取決于學習速率和梯度。自適應學習率調整準則是:檢查權值的修正是否真正降低了誤差函數,如果確實如此,則說明所選的學習率小了,可對其增加一個量;若還是則說明產生了過調,那么就應減小學習速率的值。當連續兩次迭代其梯度方向相同時,表明下降太慢,這時可使步長加倍;當連續兩次迭代其梯度方向相反時,表明下降過頭,這時可使步長減半。初始權值的選擇在前饋多層神經網絡的BP算法中,初始權、閾值一般是在一個固定范圍內按均勻分布隨機產生的。一般認為初始權值范圍為-1~+1之間,初始權值的選擇對于局部極小點的防止和網絡收斂速度的提高均有一定程度的影響,如果初始權值范圍選擇不當,學習過程一開始就可能進入“假飽和”現象,甚至進入局部極小點,網絡根本不收斂。初始權、閾值的選擇因具體的網絡結構模式和訓練樣本不同而有所差別,一般應視實際情況而定。建議神經網絡模型的初始權和閾值的隨機賦值范圍為-0.5~+0.5。收斂誤差界值Emin

在網絡訓練過程中應根據實際情況預先確定誤差界值。誤差界值的選擇完全根據網絡模型的收斂速度大小和具體樣本的學習精度來確定。當Emin值選擇較小時,學習效果好,但收斂速度慢,訓練次數增加。如果Emin值取得較大時則相反。建議神經網絡的誤差界值Emin為0.0001,即在迭代計算時誤差值E<Emin=0.0001時,則認為學習完成,停止計算,輸出結果。輸入數據的預處理

在BP算法中,神經元具有飽和非線性特征(如果神經元的總輸入與閾值相距甚遠,神經元的實際輸出要么為最大值、要么為最小值)。前饋型靜態網絡的神經元作用函數的總輸入是與其相連的其它神經元輸出的加權,在使用BP算法時,要防止神經元進入飽和狀態,必須限制與其相連的其它神經元的輸出幅值。由于輸入層只起數據傳送作用,層中的神經元是扇區單元,通常使用線性作用函數(輸出等于輸入),不存在飽和狀態。第一隱層中的神經元通常采用飽和非線性作用函數,學習過程中會出現飽和現象,因此要防止此層神經元進入飽和,必須限制網絡輸入的幅值。所以,為減少平臺現象出現的可能,加快學習,應對網絡的輸入樣本進行歸一化(或稱正則化)處理,這也是BP算法必須對輸入數據進行預處理的真正原因。式中,P為輸入量,T為輸出量,P/和T/為經過歸一化處理后的實驗數據。

隱層的數目:

理論上雖然證明了這類網絡的逼近能力,對于網絡結構的要求,并沒有給出明確的說明。因而在應用中神經網絡模型的結構確定常常有人為的主觀性和藝術性,缺乏一個指導原則。而網絡訓練與結構緊密相關,太大的網絡結構在訓練時效率不高,而且還會由于過擬合(overfitting)造成網絡的性能脆弱,泛化能力(generalizationability)下降;太小的網絡可能就根本不收斂。當選取隱層數為1時,BP網絡不收斂,而當選取隱層數為2時,BP網絡訓練較好。當然隱層數不是越大越好.2375Epochs隱層數為1節點數6不同隱層數訓練誤差曲線隱層數為2節點數12×6隱層節點數在BP網絡中,隱層節點數的選擇非常重要,它不僅對建立的神經網絡模型的性能影響很大,而且是訓練時出現“過擬合”的直接原因,但是目前理論上還沒有一種科學的和普遍的確定方法。

為盡可能避免訓練時出現“過擬合”現象,保證足夠高的網絡性能和泛化能力,確定隱層節點數的最基本原則是:在滿足精度要求的前提下取盡可能緊湊的結構,即取盡可能少的隱層節點數。研究表明,隱層節點數不僅與輸入/輸出層的節點數有關,更與需解決的問題的復雜程度和轉換函數的型式以及樣本數據的特性等因素有關。訓練樣本數必須多于網絡模型的連接權數,一般為2~10倍,否則,樣本必須分成幾部分并采用“輪流訓練”的方法才可能得到可靠的神經網絡模型設給定P組輸入輸出樣本:

利用該樣本集首先對BP網絡進行訓練,也即對網絡的連接權系數進行學習和調整,以使該網絡實現給定的輸入輸出映射關系。經過訓練的BP網絡,對于不是樣本集中的輸入也能給出合適的輸出。該性質稱為泛化(generalization)功能。從函數擬和的角度,它說明BP網絡具有插值功能。BP神經網絡的訓練1、產生數據樣本集包括原始數據的收集、數據分析、變量選擇以及數據的預處理

首先要在大量的原始測量數據中確定出最主要的輸入模式。

在確定了最重要的輸入量后,需進行尺度變換和預處理。尺度變換常常將它們變換到[-1,1]或[0,1]的范圍。在進行尺度變換前必須先檢查是否存在異常點(或稱野點),這些點必須刪除。通過對數據的預處理分析還可以檢驗其是否存在周期性、固定變換趨勢或其它關系。對數據的預處理就是要使得經變換后的數據對于神經網絡更容易學習和訓練。對于一個問題應該選擇多少數據,這也是一個很關鍵的問題。系統的輸入輸出關系就包含在數據樣本中。一般來說,取的數據越多,學習和訓練的結果便越能正確反映輸入輸出關系。但選太多的數據將增加收集、分析數據以及網絡訓練付出的代價選太少的數據則可能得不到正確的結果。事實上數據的多少取決于許多因素,如網絡的大小、網絡測試的需要以及輸入輸出的分布等。其中網絡的大小最關鍵。通常較大的網絡需要較多的訓練數據。一個經驗規則是:訓練模式應是連接權總數的5至10倍。最簡單的方法是:將收集到的可用數據隨機地分成兩部分,比如其中三分之二用于網絡的訓練。另外三分之一用于將來的測試。隨機選取的目的是為了盡量減小這兩部分數據的相關性。影響數據大小的另一個因素是輸入模式和輸出結果的分布,對數據預先加以分類可以減小所需的數據量。相反,數據稀薄不勻甚至覆蓋則勢必要增加數據量。在神經網絡訓練完成后,需要有另外的測試數據來對網絡加以檢驗,測試數據應是獨立的數據集合。2024/1/1562、確定網絡的類型和結構神經網絡的類型很多,需根據問題的性質和任務的要求來合適地選擇網絡類型。一般從已有的網絡類型中選用一種比較簡單而又能滿足要求的網絡,新設計一個網絡類型來滿足問題的要求往往比較困難。若主要用于模式分類,尤其是線性可分的情況,則可采用較為簡單的感知器網絡。若主要用于函數估計,則可應用BP網絡在網絡的類型確定后,要是選擇網絡的結構和參數。以BP網絡為例,需選擇網絡的層數、每層的節點數、初始權值、閾值、學習算法、學習率等參數。2024/1/157有些項的選擇有一些指導原則,但更多的是靠經驗和試湊。對于網絡層數的選?。豪碚撋显缫炎C明:具有偏差和至少一個S型隱含層加上一個線性輸出層的網絡,能夠逼近任何有理函數。增加層數主要可以更進一步降低誤差,提高精度,但同時也使網絡復雜化,從而增加了網絡權值的訓練時間。而誤差精度的提高實際上也可以通過增加隱含層中的神經元數目來獲得,其訓練效果也比增加層數更容易觀察和調整,所以,一般情況下,應優先考慮增加隱含層中的神經元數。3、訓練和測試對所有樣本數據正向運行一次并反向修改連接權一次稱為一次訓練(或一次學習)。通常訓練一個網絡需要成百上千次。并非訓練的次數越多,越能得到正確的輸入輸出的映射關系。由于所收集的數據都是包含噪聲的,訓練的次數過多,網絡將包含噪聲的數據都記錄了下來,在極端情況下,訓練后的網絡可以實現相當于查表的功能。但是對于新的輸入數據卻不能給出合適的輸出,即并不具備很好的泛化能力。訓練網絡的目的在于找出蘊含在樣本數據中的輸入和輸出之間的本質聯系,從而對于未經訓練的輸入也能給出合適的輸出,即局部泛化能力。網絡的性能主要是用它的泛化能力來衡量,它不是用對訓練數據的擬和程度來衡量,而是用一組獨立的數據來加以測試和檢驗。訓練次數均方誤差訓練數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論