




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第6章機器學習與知識發現(二)
6.1統計學習
6.2神經網絡學習
6.3深度學習
6.4數據挖掘與知識發現
延伸學習導引
6.1統計學習6.1.1概述讓計算機(機器)執行以統計、概率和其他數學理論為基礎的算法,處理相關樣本數據以發現其中的模式或規律的“機器學習”方法——統計機器學習(statisticalmachinelearning),即統計學習(statisticallearning)。統計學習的主要工作和過程是:首先準備樣本數據,然后針對樣本數據的特點,選擇或設計某種數值模型或概率模型、準則函數(criterionfunction)(如誤差、損失、代價、風險函數等)、學習策略和算法,最后編程實現以歸納或估算一個最優模型。
統計學習的主要任務是發現或估計隱藏于樣本數據中的類別關系、函數關系或模式(類)以解決相關的分類(classification)、回歸(regression)或聚類(clustering)等問題。這樣,統計學習又可分為面向分類的學習、面向回歸的學習和面向聚類的學習等。
其中,面向分類的學習又大體有兩條技術路線:一條是數值路線,另一條是概率路線。一般來講,數值路線的學習結果是問題的近似解,而概率路線的學習結果是可能解。面向回歸的學習與面向分類的學習的數據形式是相似的,只是其數據對中的響應值(也稱輸出值)一般是實數,而不是分類學習中的類別標記。所以,回歸學習的模型、約束、策略、算法等與數值路線的分類學習既相似又有區別。聚類學習面向無響應值的數據,其目標是發現數據所表征的類別模式。聚類學習也有許多經典算法,如k-均值算法、期望最大化算法、譜聚類算法和層次聚類算法等等。統計學習是一種基于樣本數據的學習,而樣本數據一般是n維向量(稱為特征向量)或者n維向量與符號或數值組成的序對,所以統計學習的方法主要是監督學習和無監督學習。決策樹學習是一種獨特的監督學習方法,它不僅可用于符號學習,也可用于統計學習。在統計學習中,它既可用于分類學習也可用于回歸學習;它既可走數值路線,也可走概率路線。6.1.2回歸問題的線性函數模型學習,梯度下降法設有樣本數據如下表所示:它們所構成的數據點在x-y空間中的分布如圖7-1所示。
設作為評價學習效果的準則函數,稱為誤差函數。再設定一個
>0,作為誤差函數值E(a,b)的上限。那么,
E(a,b)<
(6-2)就是我們的評價準則。用誤差函數E(a,b)在點(a,b)的負梯度來引導搜索,即確定當前點(a,b)的下一個點(a’,b’)的所在方向和位置。
用梯度引導函數極小值點的搜索,就是著名的梯度下降法(gradientdescent,亦稱最速下降法)。
由矢量代數知識和梯度下降法原理,在搜索過程中點(a,b)的變換公式亦即系數a,b取值的修正公式為(a,b)=(a,b)
E(a,b)(6-4)
其中0<
1,稱為學習因子或學習率,用以控制搜索時的移動步長亦即參數值修正量的大小。(7-4)式是用向量表示的修正公式,寫成分量形式則為一個學習相應線性函數的算法:
(1)設定一個
值和一個誤差上限
;(2)給系數變量a,b各賦一個初值;(3)將樣本中變量xi的取值依次代入函數式ax+b求相應的y值,并計算總誤差
E(a,b)=
(4)如果E(a,b)<
,則當前的a、b取值即為所求,于是,算法結束;否則,計算梯度E(a,b),修正a、b的取值,即令
(a,b)=(a,b)
E(a,b);然后轉(3)
假設經機器學習,系數a,b分別取1.95和
0.96。于是,得線性函數y=1.95x
0.96相應的函數圖像如圖6-2所示。說明:梯度下降法的缺點是容易陷入局部極小點。另外,對于大規模數據,這種步進式的搜索其效率也是個問題。為此,人們又開發出了隨機梯度下降法。上面關于一元線性函數的學習算法也可推廣到多元線性函數的學習中去。6.1.3分類問題的線性判別函數模型學習
設有下列樣本數據:其中,y=f(x1,x2)是一個指示函數,y為(x1,x2)所屬類別的標記,取值為0和1。考慮在類1和類0(分別記為C0和C1)之間構造一條直線:w0+w1x1+w2x2=0(6-7)這里,x1、x2為變量,w1、w2系數,w0為常數。令g(x)=g(x1,x2)=w0+w1x1+w2x2,則對于點x
U
V
R2當g(x)<0時,則x
c0;當g(x)>0時,則x
c1
這樣,參數w0、w1、w2取值未定的函數g(x)=w0+w1x1+w2x2就是這個分類問題的假設判別函數模型。g(x)是一個線性函數,稱為線性判別函數。
為了敘述方便,將函數式w0+w1x1+w2x2寫成系數向量與變元向量的內積的形式,即
這里參數w1、w2稱為權值,表示在函數中的重要程度,w0稱為閾值權或偏置(bias,亦稱偏差或偏倚)。如果引入x0=1,則上面的函數式可進一步寫成
原直線方程也就變為
wTxi=0(6-8)
一個簡單的學習算法:——————————————————————————---———————————
(1)初始化權向量w,并設置一個合適的學習率
(0,1];
(2)對訓練樣例(xi,yi)(i=1,2,…,n):
計算wTxi;
如果wTxi>0,令hi=1,否則hi=0;
更新權值:w=
w+
(hi
yi)
xi。
(3)直到對所有訓練樣例都有hi
yi=0,則當前權向量w即為所求,學習結束;
否則轉(2)。—————————————------————————————————————————
經過機器學習,權向量w的值被確定后,判別函數g(x)=wTx也就確定了。于是,進一步就有分類判決規則:
對于任一x
U
V,
如果g(x)>0,則x
C1;
如果g(x)<0,則x
C0;
如果g(x)=0,則根據實際問題進行分類或不予分類。上述判別函數和判決規則就構成了一個“分類器”,或線性分類器。現在,就可用這個分類器對相關的對象進行分類了。
說明:
這里的判別函數g(x)完全可以推廣為n元線性函數。從而這個分類器也就被推廣為n維線性分類器。
上面的學習算法是針對線性可分的樣本的,相應的分類器也是針對線性可分問題的。
上面的算法中沒有使用準則函數。但實際上,對于線性判別函數的學習,人們已開發了許多準則函數。
線性判別函數不僅可用于二分類問題,也可用于多分類問題。
6.2神經網絡學習
6.2.1
從生物神經元到人工神經元1.生物神經元
生物神經元的基本結構2.人工神經元
人工神經元結構模型人工神經元的輸入輸出關系可描述為:常見的幾種神經元激活函數1.階躍函數2.Sigmoid函數3.分段線性函數
6.2.2神經網絡及其學習
1.神經網絡的拓撲結構與功能(1)分層前向(饋)網絡(2)反饋前向網絡(3)互連前向網絡(4)廣泛互連網絡
神經網絡結構模型神經網絡至少可以實現如下功能:
數學上的映射逼近
數據聚類、壓縮
聯想記憶
優化計算和組合優化問題求解
模式分類
概率密度函數的估計2.神經網絡學習機理與方法
1)學習規則
?Hebb規則:
?最基本的誤差修正規則,即δ學習規則:
(1)選擇一組初始權值Wij(0)。
(2)計算某一輸入模式對應的實際輸出與期望輸出的誤差(dj-yj)。
(3)用下式更新權值(閾值可視為輸入恒為-1的一個權值)
Wij(t+1)=Wij(t)+η[dj-yj(t)]xi(t)
(4)返回(2),直到對所有訓練模式網絡輸出均能滿足要求。
2)學習方法
根據樣例數據的特點神經網絡學習有監督學習和無監督學習之分。
從神經網絡內部狀態變化的角度來分,神經網絡學習可分為權值修正、拓撲變化、權值與拓撲修正三種。
神經網絡學習還可分為確定性學習與隨機性學習。
此外,神經網絡學習還有競爭學習、BP學習、玻爾茲曼學習、遷移學習、深度學習等提法。6.2.3神經網絡模型及其分類1.按網絡結構分類前向(饋)網絡反饋網絡2.按學習方式分類有監督(導師)學習網絡無監督(導師)學習網絡3.按網絡的狀態分類連續型網絡離散型網絡4.按網絡的活動方式分類確定性網絡隨機性網絡表6-1早期的一些著名的神經網絡模型
6.2.4BP網絡及其學習舉例
BP(Back-Propagation)網絡的特點:
(1)BP網絡的拓撲結構為分層前向(饋)網絡。
(2)神經元的特性函數為Sigmoid型(S型)函數,一般取為
(3)輸入為連續信號量(實數)。
(4)學習方式為有監督學習。
(5)學習算法為推廣的δ學習規則,稱為誤差反向傳播算法,簡稱BP學習算法。BP學習算法:
例
6-1
設計一個BP網絡,對下表所示的樣本數據進行學習,使學成的網絡能解決類似的模式分類問題。
輸入輸出x1
x2
x3y1
y2
y30.30.80.10.70.10.30.60.60.6100010001BP網絡舉例
6.3深度學習6.3.1什么是深度學習深度學習(Deep
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六一創意聚會活動方案
- 六一尋寶活動策劃方案
- 六一戲曲活動方案
- 六一機關活動方案
- 六一活動拉花活動方案
- 六一活動活動策劃方案
- 六一相親活動方案
- 六一積分活動方案
- 六一美食節活動方案
- 六一食堂活動方案
- 2023-2024學年海南省海口市四年級(下)期末數學試卷
- T/GDWJ 011-20225G+院前急救服務應用平臺技術規范
- 公務員會計崗位考試題及答案
- 安徽教編美術試題及答案
- 2024-2025湘科版小學科學四年級下冊期末考試卷附參考答案
- 2024北京朝陽區四年級(下)期末語文試題及答案
- 勞務報酬扣稅計算器(excel自帶公式版)
- 護理不良事件警示教育
- 托育服務政策法規與職業倫理 課件全套 黃鑫 第1-8章 緒論、托育服務政策法規概述-托育職業倫理教育、修養與評價
- 中學歷史教學中存在的問題與對策建議
- 安徽省歷年中考作文題與審題指導(2001-2024)
評論
0/150
提交評論