投影尋蹤方法及其應用_第1頁
投影尋蹤方法及其應用_第2頁
投影尋蹤方法及其應用_第3頁
投影尋蹤方法及其應用_第4頁
投影尋蹤方法及其應用_第5頁
已閱讀5頁,還剩24頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

投影尋蹤方法及其應用第一頁,共二十九頁,2022年,8月28日報告內容1投影尋蹤方法的基本原理與建模步驟4總結與討論3基于加速遺傳算法的投影尋蹤等級評價模型2基于加速遺傳算法的投影尋蹤聚類模型第二頁,共二十九頁,2022年,8月28日1投影尋蹤方法的基本原理與建模型步驟

1.1投影尋蹤方法的基本原理投影尋蹤(projectionpursuit,PP)方法屬于直接由樣本數據驅動的探索性數據分析方法。它把高維數據{x(i,j)}通過某種組合投影到低維子空間上{z(i)},對于投影到的構形,采用投影指標函數Q(z(i))來描述投影暴露原系統某種分類排序結構的可能性大小,尋找出使投影指標函數達到最優(即能反映高維數據結構或特征)的投影值z(i),然后根據該投影值來分析高維數據的分類結構特征(如投影尋蹤聚類評價模型),或根據該投影值與研究系統的實際輸出值之間的散點圖構造適當的數學模型以模擬系統輸出(如投影尋蹤等級評價模型)。第三頁,共二十九頁,2022年,8月28日1投影尋蹤方法的基本原理與建模步驟

1.2投影尋蹤方法的建模步驟步驟1:高維樣本數據的預處理,確定系統輸入。步驟2:構造投影指標函數。步驟3:優化投影指標函數。步驟4:建立系統模型。第四頁,共二十九頁,2022年,8月28日2基于加速遺傳算法的投影尋蹤聚類模型AGA-PPCE

2.1基于加速遺傳算法的投影尋蹤聚類模型的建立步驟1:評價指標值的歸一化處理。設樣本集為{x*(i,j)|i=1~n,j=1~p}。其中x*(i,j)為第i個樣本第j個指標值。為消除各指標值的量綱和統一各指標值的變化范圍,可采用下式進行極值歸一化處理:

式中,xmin(j)、xmax(j)分別為樣本集中第j個指標值的最小值和最大值。

第五頁,共二十九頁,2022年,8月28日2基于加速遺傳算法的投影尋蹤聚類模型AGA-PPCE

2.1基于加速遺傳算法的投影尋蹤聚類模型的建立步驟2:構造投影指標函數。PP方法就是把p維數據{x(i,j)|j=1~p}綜合成以a=(a(1),a(2),

…,a(p))為投影方向的一維投影值z(i)

然后根據{z(i)|i=1~n}的一維散布圖進行分類。式(2.2)中a為單位長度向量。在綜合投影值時,要求投影值z(i)的散布特征應為:局部投影點盡可能密集,最好凝聚成若干個點團;而在整體上投影點團之間盡可能散開。據此投影指標函數可構造為

Q(a)=SzDz(2.3)式中,Sz為投影值z(i)的標準差,Dz為投影值z(i)的局部密度,即

第六頁,共二十九頁,2022年,8月28日2基于加速遺傳算法的投影尋蹤聚類模型AGA-PPCE

2.1基于加速遺傳算法的投影尋蹤聚類模型的建立

步驟3:優化投影指標函數。當各指標值的樣本集給定時,投影指標函數Q(a)只隨投影方向a的變化而變化。可通過求解投影指標函數最大化問題來估計最大可能暴露高維數據某類特征結構的最佳投影方向:maxQ(a)=SzDz(2.4)

這是一個以{a(j)|j=1~p}為優化變量的復雜非線性優化問題,用模擬生物優勝劣汰規則與群體內部染色體信息交換機制的加速遺傳算法(AGA)來求解上述問題較為簡便和有效。

第七頁,共二十九頁,2022年,8月28日加速遺傳算法(AGA)

步驟1:模型參數的編碼。設碼長為e,第j個參數的變化區間為[aj,bj],j=1~p。把這些區間等分成2e-1個子區間:

cj=aj+Ijdj(2)式中子區間長度dj=(bj-aj)/(2e-1)是常數;搜索步數Ij為小于2e的十進制整數,是變數;j=1~p(下同)。把Ij轉化成e位二進制數{ia(j,k)|,k=1~e}(下同),即式(3):第八頁,共二十九頁,2022年,8月28日

步驟2:初始父代群體的隨機生成。生成n組各p個均勻隨機數(簡稱隨機數){u(j,i)|,i=1~n},經下式轉換成十進制整數。

Ij(i)=INT[u(j,i)2e](4)式中INT為取整函數。由式(3)得對應二進制數ia(j,k,i),它們與n組模型參數cj(i)對應,并把它們作為初始父代個體群。

編碼與解碼的邏輯過程:cj(i)~Ij(i)~ia(j,k,i)第九頁,共二十九頁,2022年,8月28日

步驟3:父代個體適應能力評價。把第i組參數代入式(1)得目標函數值fi,fi越小表示模型與觀測值擬合得越好,適應能力越強,設第i個個體的適應能力與fi成反比。構造選擇概率序列{pi},把[0,1]區間分成n個子區間:(0,p1),(p1,p2),…,[pn-1,pn],它們與n個個體一一對應,fi越小的個體對應的子區間長度越大。第十頁,共二十九頁,2022年,8月28日步驟4:父代個體的概率選擇。生成n個隨機數{ui|i=1~n},若

ui∈[pi-1,pi],則選取第i個父代個體,其二進制數記為ia1(j,k,i)。同理可得另外的n個父代個體ia2(j,k,i)。選擇是遺傳算法的關鍵,它體現了優勝劣汰的思想。第十一頁,共二十九頁,2022年,8月28日

步驟5:父代個體的雜交。由步4得到的父代個體配對成n對雙親。生成兩隨機數u1和u2,再轉成十進制整數:IU1=INT(1+u1·e),IU2=INT(1+u2·e),設IU1≤IU2(否則互換其值)。雜交是指第i對雙親ia1(j,k,i)和ia2(j,k,i)隨機變換一段二進制數,從而生成第i對子代個體:01101——00101(5)10100——11100(6)(雜交前)(雜交后)第十二頁,共二十九頁,2022年,8月28日步驟6:子代個體的變異。生成隨機數u1,u2,u3和u4。當u1≤0.5時子代個體取式(5),否則取式(6),記其二進制數為ia(j,k,i)。把u2、u3轉換為十進制整數:

IU1=INT(1+e·u2),IU2=INT(1+e·u3)設子代變異的概率(稱為變異率)為pm。變異是當u4≤pm時對子代個體的IU1位和IU2位的值進行翻轉操作:01101——00111(變異前)(變異后)第十三頁,共二十九頁,2022年,8月28日

步驟7:進化迭代。第i個子代個體經式(3)、式(2)轉化成第i組模型參數。這n個子代個體作為新的父代,算法轉入步3,進入下一輪進化過程,重新評價、選擇、雜交、變異,如此反復進化,使個體的適應能力不斷提高,直到最優個體的優化準則值小于某一指定值或最優個體的優化準則值不再改善,則終止進化迭代,算法結束。第十四頁,共二十九頁,2022年,8月28日

(a)初始分布(b)第20次進化迭代后的分布

(c)第60次進化迭代后的分布

第十五頁,共二十九頁,2022年,8月28日步驟8:加速循環。用第一次、第二次進化迭代所產生的優秀個體的變量變化區間作為變量新的初始變化區間,算法進入步驟1,重新運行SGA算法,如此加速循環,優秀個體的變化區間將逐步調整和收縮,與最優點的距離將越來越近,直到最優個體的優化準則函數值小于某一設定值或算法運行達到預定加速(循環)次數,結束整個算法的運行。此時,就把當前群體中最佳個體或優秀個體的平均值指定為AGA的結果。

第十六頁,共二十九頁,2022年,8月28日[AGA的主要特點]利用標準遺傳算法演化過程中的優秀個體子群體來逐步調整、壓縮算法的搜索空間。控制參數設置:二進制編碼長度e、雜交概率和變異率分別固定設置為10、1.0和1.0;群體規模n與優秀個體數目s關系:s/n>n/(e·2e),(n,s)的常用配置有(300,10)、(400,20)和(500,30);每次加速循環中AGA只進行兩次SGA的進化迭代。p個變量、加速循環q次,優秀個體包圍最優點的概率為(1-0.52s)pq第十七頁,共二十九頁,2022年,8月28日

步驟4:建立聚類模型。把由步驟3求得的最佳投影方向a*代入式(2.2)后,得各樣本點的投影值z*(i)。投影值z*(i)與z*(j)越接近,表示樣本i與樣本j越傾向于分為同一類。按z*(i)值從大到小排序,據此可把各指標的樣本集進行分類。第十八頁,共二十九頁,2022年,8月28日2基于加速遺傳算法的投影尋蹤聚類模型AGA-PPCE

2.2基于加速遺傳算法的投影尋蹤聚類模型在氣候區劃中的應用氣候區劃就是把研究區域劃分成若干個分區,在同一分區內具有相似的氣候條件,以便調整種植結構,因地制宜地發展農業生產。

表2.1氣候樣本集及其投影值

氣候因子j

j=1j=2j=3j=4j=5j=6j=7j=8j=9j=10樣本年平均極端最高極端最低≥10年年降水年日照年均相對無霜海拔凌凍天投影值氣溫/°C氣溫/°C氣溫/°C積溫/°C量/mm數/h濕度/%期/d高度/m數/dz*(i)1畢節12.933.6–10.13672.0904.31236.0822501510.615.21.2952大方11.831.5–8.83332.81176.91265.9842561700.033.21.2833黔西14.135.4–8.64047.4964.11263.6812741272.114.61.7224金沙15.136.0–6.24703.31049.71091.681304920.07.52.1915織金14.233.1–9.54264.21432.61165.6822801319.011.81.7286納雍13.733.5–8.44005.61234.31447.7812681457.114.21.6257威寧10.431.1–14.52572.8943.51960.3801902234.563.90.2718赫章13.435.7–11.63948.9892.81400.8792441534.912.41.282

第十九頁,共二十九頁,2022年,8月28日圖2.1氣候樣本投影值z*(i)的散布圖由表2.1和圖2.1可知:①該樣本集按投影值z*(i)從大到小排序的樣本序號依次為樣本點4、5、3、6、1、2、8和7。其中,樣本4可單獨分為A類,樣本5、3、6、1、2和8可分為B類,樣本7可單獨分為C類,該分類結果與文獻“劉崇欣.黔西北林木氣候區劃的聚類分析.農業系統科學與綜合研究,1997,13(3)”的模糊聚類結果和根據表2.1各樣本的對比分析結果都是一致的。②B類可進一步細分為由樣本5、3和6組成的B-1類和由樣本1、2和8組成的B-2類。③根據文獻所示各樣本的地理位置可知,以上分類具有明確的地理意義:A類、B類和C類分別位于研究區域的東部、中部和西部,B-1類和B-2類分別位于研究區域的中南部和中北部。

第二十頁,共二十九頁,2022年,8月28日3基于加速遺傳算法的投影尋蹤等級評價模型AGA-PPGE

3.1AGA-PPGE的建立步驟1:評價指標值的標準化處理。設樣本集為{x*(i,j)|i=1~n,j=1~p}。其中x*(i,j)為第i個樣本第j個指標值。為消除各指標值的量綱和統一各指標值的變化范圍,可采用下式進行標準化處理:

式中,Ex(j)、Sx(j)分別為原第j個評價指標{x*(j,i)|i=1~n}的均值和標準差。

第二十一頁,共二十九頁,2022年,8月28日3基于加速遺傳算法的投影尋蹤等級評價模型AGA-PPGE

3.1AGA-PPGE的建立步驟2:構造投影指標函數。PP方法就是把p維數據{x(i,j)|j=1~p}綜合成以a=(a(1),a(2),

…,a(p))為投影方向的一維投影值z(i)

式中,a為單位長度向量。在綜合投影值時,要求投影值z(i)應盡可能多地提取{x(j,i)}中的變異信息,即z(i)的標準差Sz達到盡可能大,同時要求z(i)與已知標準等級值y(i)的相關系數的絕對值|Rzy|達到盡可能大。為此,投影指標函數可構造為

Q(a)=Sz|Rzy|式中,Sz和Rzy分別為

第二十二頁,共二十九頁,2022年,8月28日3基于加速遺傳算法的投影尋蹤等級評價模型AGA-PPGE

3.1AGA-PPGE的建立

步驟3:優化投影指標函數。當給定標準等級及其評價指標的樣本數據{y(i)|i=1~n}和{x*(j,i)|j=1~p,i=1~n}時,投影指標函數Q(a)只隨投影方向a的變化而變化。不同的投影方向反映不同的數據結構特征,最佳投影方向就是最大可能暴露高維數據某類特征結構的投影方向。可通過求解投影指標函數最大化問題來估計最佳投影方向:

maxQ(a)=Sz|Rzy|這是一個以{a(j)|j=1~p}為優化變量的復雜的非線性優化問題,用AGA可方便地求解上述優化問題。

第二十三頁,共二十九頁,2022年,8月28日3基于加速遺傳算法的投影尋蹤等級評價模型AGA-PPGE

3.1AGA-PPGE的建立

步驟4:建立投影尋蹤等級評價模型。把由步驟3求得的最佳投影方向的估計值a*代入投影值公式后,得第i個樣本投影值的計算值z*(i),根據z*(i)~y(i)的散點圖建立相應的等級評價模型。z*(i)與y(i)之間一般呈單調非降關系,當z*(i)值超過某門限值時就判定為最高等級(N級),當指標值低于另門限值時就判定為最低等級(1級),當z*(i)值介于這兩門限值之間時則為中等等級,可用邏輯斯諦曲線來描述:

式中y*(i)為第i個樣本等級的計算值;模型參數c(1)、c(2)分別為積分常數和增長率,可通過求解如下優化問題來確定:

第二十四頁,共二十九頁,2022年,8月28日3基于加速遺傳算法的投影尋蹤等級評價模型AGA-PPGE

3.2AGA-PPGE在洪水災情等級評價中的應用表3.1河南省洪水災情等級標準災情等級指標一般災較大災大災特大災成災面積(hm2)<46.746.7~136.7136.7~283.3>283.3直接經濟損失(億元)<9.59.5~31.031.0~85.0>85.0根據表3.1,可用如下方法隨機產生各災情指標值及其對應的標準災情等級樣本系列:①四個災情等級值一般災、較大災、大災、特大災分別對應標準災情等級值1、2、3、4。②確定一般災的左端點值和特大災的右端點值,這里分別取為一般災的右端點值的0.5倍和特大災的左端點值的3倍,這樣,所有災級都有一個范圍。③利用均勻隨機數在每個災級范圍內產生5個值,考慮到直接經濟損失一般與成災面積具有正相關性,同一樣本點的直接經濟損失的隨機數應與成災面積的隨機數相同。④在災情等級標準表中取邊界值各一次,災情等級值取與該邊界值有關的兩個災級值的算術平均值。這樣得到的樣本點如表3.2序號1~23所示。

第二十五頁,共二十九頁,2022年,8月28日表3.2洪水災情等級的標準值和PPGE模型的計算值的對比結果序號災情指標投影洪水災情等級序號災情指標投影洪水災情等級

ix*(1,i)x*(2,i)值z*(i)標準值計算值ix*(1,i)x*(2,i)值z*(i)標準值計算值

138.707.900-1.1781.01.36917157.3038.600-0.4693.02.486238.507.800-1.1801.01.36618283.3085.0000.4223.53.498332.106.500-1.2151.01.31519556.90167.1002.1714.03.967424.204.900-1.2571.01.25620649.50194.9002.7634.03.987536.407.400-1.1911.01.35021602.30180.7002.4614.03.979646.709.500-1.1351.51.43222446.50134.0001.4664.03.897797.6021.700-0.8402.01.89523694.90208.5003.0534.03.992860.4012.800-1.0562.01.552195072.929.900-1.0422.01.5749112.6025.200-0.7552.02.0331954148.1320.656-0.6792.02.1561056.2011.800-1.0802.01.5151956203.9227.521-0.4213.02.5591180.6017.600-0.9392.0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論