遺傳算法在遙感中的應用_第1頁
遺傳算法在遙感中的應用_第2頁
遺傳算法在遙感中的應用_第3頁
遺傳算法在遙感中的應用_第4頁
遺傳算法在遙感中的應用_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、遺傳算法在遙感中的應用遺傳算法簡介:按照達爾文(C.Darwin)的生物進化論,生物界的進化遵循“物競天擇,適者生存”的法則。按照孟德爾(G.Mendel)和摩根(T.Morgan)的遺傳學理論,遺傳物質以基因的形式排列在染色體上,不同位置的基因控制著生物的不同特性,不同的基因組合產生的個體對環境的適應性不同,通過基因雜交和突變能夠產生對環境適應性強的后代個體。總之,在一定的環境影響下,生物物種通過自然選擇、基因交換和變異等過程進行繁殖演化,構成了整個生物進化過程。遺傳算法的思想來自上述生物進化過程,其基本原理的研究也是從研究生物進化的基本規律開始的。研究發現,生物進化是一個不斷循環的過程

2、。在這一過程中,生物群體不斷完善和發展。所以生物進化過程本質上是一種優化過程,種認識啟發著遺傳算法的研究者將其應用到優化計算領域,創立新的優化計算方法,并將這些方法應用到復雜的工程計算領域之中。遺傳算法的基本過程遺傳算法維持一個種群,每一個體均代表問題的一個潛在的解,每一個體都被按預定的評價函數評價優劣并得到其適應值。算法開始時先隨機地產生初始種群,計算每個個體適應度值,根據適應度值對某些個體進行交叉、變異等遺傳操作,形成新的個體,即子代,子代繼續被評價。從父代種群和子代種群中選擇比較優秀的個體就形成了新的種群。由于新種群個體是上一代種群的優秀者,繼承了上一代的優良性態,可能收斂于最優解。遺傳

3、算法就這樣反復迭代,向著更優解的方向進化,直至滿足某種預定的條件。在若干代以后,算法收斂到一個最優的個體,該個體很可能就是代表問題的最優或次優解。遺傳算法利用生物進化和遺傳的思想實現優化過程,區別于傳統的優化算法,其基本特征主要表現在以下幾個方面。1智能性遺傳算法的智能性包括自適應、自組織和自學習性等。應用遺傳算法求解問題時,在確定了編碼方式、適用度函數及遺傳算子以后,算法將利用遺傳算法中獲得的信息自行組織搜索。由于基于自然選擇的規則,即適者生存、劣者淘汰,所以適應值大的個體具有較高的生存概率。通常適應值大的個體具有與環境更適應的基因結構,再通過交叉和基因突變等遺傳操作就可能產生與環境更適應的

4、后代。遺傳算法的這種自組織、自適應特征現時也賦予了它具有能根據環境的變化自動發現環境的特性和規律的能力。應用遺傳算法使得我們在算法設計的過程中無需事先知道問題的全部特點,這尤其適合于那些結構尚不清楚的復雜問題。2并行性遺傳算法的并行性表現在兩方面:一是遺傳算法的內在并行性,即遺傳算法本身非常適合大規模并行操作。其最簡單的并行方式是讓幾百甚至上千臺計算機各自進行獨立種群的進化計算,運行過程中可不進行任何通信,等到運算結束時才通信比較,選取最佳個體,這種并行處理方式對并行系統結構也沒有什么限制和要求。二是遺傳算法的隱式并行性。由于遺傳算法不是在一個單點上進行尋優搜索,它可以同時搜索解空間中的多個區

5、域,并相互交流信息,這種搜索方式使得它雖然每次只執行與種群規模 N 成比例的計算,而實質上已進行了大約 O ( N3)次有效搜索,這使得遺傳算法能以較少的計算獲得較大的收益。3穩健性遺傳算法只利用適應度函數信息,基本上不用搜索空間的知識或其它輔助信息,而僅用適應度函數值來評估個體,在此基礎上進行遺傳操作。適應度函數不受連續性、單峰等假設的限制,且其定義域可以任意設定。這一特點使得遺傳算法的具有很強的魯棒性。4全局優化傳統的優化方法,一般采用的是梯度下降的爬山策略,當遇到多峰函數的情形往往容易陷入局部最優。而遺傳算法能在解空間的多個區域內同時進行搜索,并且能以較大的概率跳出局部最優,以找出全局的

6、最優解。5多解性遺傳算法是采用種群方式組織搜索。它從多個解出發,通過這些點內部結構的調整和重組來形成新的解。因而,每次都將提供多個近似解,這對多目標搜索或者需要多個近似解作為參照的情況下是非常有用的。6不確定性遺傳算法的不確定性是伴隨其選擇的隨機性而來的。遺傳操作算子主要利用概率轉換規則,而非確定性規則,這使得在算法的進化過程中,事件的發生與否帶有較大的不確定性。有人已經證明,在任意初始化、任意交叉算子以及任意適應度函數下,遺傳算法都不能收斂到全局最優。遺傳算法在遙感中的應用遺傳算法可以用在遙感數據的處理,遙感影像匹配,遙感影像增強,混合像元的快速分解和分類,遙感多光譜影像的分類和遙感圖像的壓

7、縮等方面。(1)遺傳算法在數據處理中的應用遙感數據的遺傳超平面分類方法遙感數據是一種特殊的圖像數據形式,它既具有自己的特殊性和復雜性,也有圖像數據的一般性。由于其特殊性和復雜性,因而將遺傳算法引入遙感數據的處理還是近幾年的事。如美國AlamoS空間與遙感科學國家實驗室StevenP.Brumby等人利用遺傳算法的優化搜索性能,在眾多的方法中尋找適合特定研究目的的最優分類方法。印度Pal等人則致力于遙感分類參數的遺傳優化問題。國內莊家禮等人則使用遺傳算法對遙感反演參數進行優化,取得了不錯的效果。分類是找出描述并區分數據類別或者概念的模型以便能使用模型預測類標記未知的數據的過程(Han2001),

8、或者是智能系統面對紛繁復雜的傳感器數據時,為從中提取出有意義信息所采取的一個關鍵的處理步驟(Richard2003)。對遙感數據的分類是一個根據遙感圖像辨識地表覆蓋類型的過程。由于遙感圖像具有多波段以及數據量大的特點,所以遺傳算法比較難于直接針對數據進行處理,一般是建立一個可以使用遺傳算法進化的模型。在遙感數據分類處理領域,以L等(2001)提出使用遺傳算法來確定超平面的空間組合位置,從而使得遺傳算法得以開始應用于遙感圖像分類中。在使用遺傳一超平面算法進行分類的過程中,除了要考慮遺傳算法本身的特點以外,建立一個適合遺傳進化的超平面組合模型具有非常重要的意義。通過遺傳算法進行超平面分類也是一個遺

9、傳算法應用于模式識別/分類的問題,在給定超平面集合的條件下,通過對訓練點集合中訓練點進行模式描述、模式匹配然后利用遺傳算法的優異搜索性能,通過進化的方式對各種不同的模式分類方案進行比較、選擇,得到最好的模式分類方案。最后擴展到整幅圖像達到模式分類的目的。在遺傳算法優化的超平面分類模型中,由超平面方程的參數經過特殊編碼而成的二進制串集合形成了遺傳算法的搜索空間。這是因為特定位數的二進制串可以代表特定空間的所有超平面方程。遺傳算法通過選擇、變異、交叉等遺傳操作在此搜索空間內搜索最優的解,中間通過解碼過程將二進制串還原為超平面的參數以計算每條染色體的適應度(目標函數)。目標函數過分類訓練的精確程度來

10、實現,本質上來講,這是一個自適應的迭代過程。訓練過程中,訓練點數與分類錯誤的點數之差作為一系列(套)超平面的適應度。最佳的染色體對應最優的分類方案,也就是最合適的超平面集合。通過這一系列超平面在多維空間中的區域劃分得到的多維空間模式分類結果被認為是精度最高的圖像分類方案。基于遺傳算法的影像匹配遺傳算法(Genetic Agorithms簡稱GA)是二十世紀七十年代開始興起的以自然選擇和遺傳理論為基礎,將生物進化過程中適者生存規則與群體內部染色體的隨機信息交換機制相結合的搜索算法。進人二十世紀九十年代以后,遺傳算法已經成為一種實用快速、穩定性好的優化技術。將遺傳算法用到影像匹配相對于其它的方法,

11、遺傳算法對求解問題只要求是可計算的,無可微性及其他要求,且較易獲得全局最優解。應用遺傳算法的求解一般包括以下幾個步驟:(1)編碼GA在進行搜索之前先將解空間的解數據表示成遺傳空間的基因型串結構數據,這些串結構數據的不同組合便構成了不同的點。(2)初始群體的生成在問題的候選解范圍內隨機產生N個初始串結構數據,每個串結構數據稱為一個個體,N個個體構成一個群體,GA以這N個串結構數據作為初始點開始迭代。(3)適應度函數的確定適應性函數表明個體或解的優劣性。不同的問題,適應性函數的定義方式也不同。(4)選擇選擇的目的是為了從當前群體中選出優良的個體,使它們有機會作為父代為下一代繁殖子孫。遺傳算法通過選

12、擇過程體現這一思想,進行選擇的原則是適應性強的個體為下一代貢獻一個或多個后代的概率大。選擇實現了達爾文的適者生存原則。(5)交叉交換操作是遺傳算法中最主要的遺傳操作。通過交換操作可以得到新一代個體,新個體組合了其父輩個體的特性。交換體現了信息交換的思想。(6)變異變異首先在群體中隨機選擇一個個體,對于選中的個體以一定的概率隨機地改變串結構數據中某個串的值。同生物界一樣,GA中變異發生的概率很低,通常取值在0.0010.01之間。變異為新個體的產生提供了機會。這里我們用VLL 法(基于物方的影像匹配),設為描述兩像片匹配程度的測度,p 為所要求的模型參數(遺傳算法中稱為個體)則目標函數為:f(p

13、)= (1)個體 p 可根據如下方法取得。設影像匹配窗口大小為:Zkx,Zky設 x'10,y'10為左片窗口近似中心點的坐標,考慮幾何形變與誤差,左片窗口實際取得的像素坐標為:x1 = a10 + x'1 + x10 x'1 - kx,kxy1 = b10 + y'1 + y'10 y'1 - ky,ky右片窗口中實際取得的像素坐標為:x2 = a20 + a21 x2 + a22 y'2 + x'20 x'2 - kx,kxy2 = b20 + b21 x'2 + b22 y'2 + y'

14、;20 y'2 - ky,ky其中:x'20,y'20為右片窗口近似中心坐標。考慮右像點相對于左像點的線性灰度畸變可得:g'(x1,y1)= h0 + h1 g(x2,y2)其中,g 為左像窗口像素值;g'為右像窗口像素值由上可知,個體可表示為:p = a10,b10,a20,b20,a21,b21,a22,b22,h0,h1,z實際應用中,p 中參數 z 是影像匹配 VLL 算法中的物方坐標高程。以上所求優化問題可表示為:maxf(p)s.t. a10min<=a10<=a10maxzmin<=z<=zmax遺傳算法終止后提取的

15、最好的個體中的 z 值即為VLL 中物方 A 點的高程。遺傳算法中的個體評價函數即個體適應度函數就是優化問題的目標函數 . 根據實際情況適應函度數可采用相關系數(矢量夾角)測度或差平方和(差矢量模),其測度公式為:差平方和適應度為:遺傳算法初始群體的生成、選擇算子、交叉算子、變異算子方面都作了改進,使之更適合影像匹配的具體問題。實驗結果表明,該方法大大減小了誤匹配率,提高了匹配精度,運算復雜度也小于傳統的影像匹配,是一種較為理想的匹配方法。(3)遺傳算法在圖像增強中的應用航空(遙感)影像是通過空間傳感器獲得的有關地表的圖像,它包含了十分豐富的地理信息,是人們獲取地面信息重要來源之一。但是,由于

16、受到傳感器精度,光照度等內在和外在的多種因素影響,影像不可避免存在反差較低,地物邊界輪廓不清等現象,給直接判讀和量測帶來了一定的困難。影像增強就是解決這一類問題的一個重要手段,其主要目的就是通過一定的變換把影像轉換成更適合人眼觀察判斷或機器視覺分析處理的另一種形式,其實質是有選擇地強調影像中某些信息而抑制其余信息,以增強影像的效用。遺傳算法在影像增強中的應用的一般步驟:(1)非線性變換函數的構造 輸入的圖像從視覺效果來看,一般的圖像有偏暗、偏亮、或灰度集中在某一區域三類情況。針對這幾類不同類型的退化圖像,我們需要不同的非線性變換。設這種非線性變換的函數為,原圖像像素灰度為,變換后的像素灰度為。

17、首先,對作歸一化處理得到,=,分別為原圖像灰度的最大和最小值,顯然的取值范圍在(0,1)之間。對于非線性變換函數作規定,和u取值范圍也在(0,1)之間。在考慮對原圖像不超過,的范圍拉伸的對比度:(2)編碼現在求解從輸入圖像至輸出圖像的灰度對應關系,也就轉化成求解 T (u)的 5 個參數問題,這可視為遺傳算法的表現型。從表現型到基因型的轉換,我們采用實數編碼,以一個一維五元數組表示一條染色體,即 p 1 ,p2,p3,p4,p5,每個參數對應一個基因位。問題就轉化為求目標規劃下的這五元素的組合。通過對 T1 (u)、 T2 (u)的數學實驗,為使曲線自由延展且滿足一定精度,函數的參數范圍設定如

18、表 Pl p2 p3 p4 ps 最小值 1 0 1 0 0 最大值 15 1 25 1 1 采樣間隔0.1 0.010.1 0.010.01從表中可以看出五個元素的組合有140x100x240x100x100=3.36這樣大。在這樣大空間進行搜索,遺傳算法將發揮其優勢。由于T (u)是由不是由的組合構成,這就極可能使使表現型空間的某一變換曲線對應基因型空間的多條基因。(3)適度函數遺傳算法中個體進化的動力就是所要構建的適應度函數。在對一幅影像增強過程中,適應度函數設計就是要兼顧圖像的整體與局部,大的結構和小的細節平衡體現。因此,考慮的因素有:圖像的信息嫡E、能量、緊致度C、信噪改變量。適應度

19、函數如下: 表明增強影像的灰度層次損失越少,保留的灰度層次越多,且閥值Th的設定還可以防止影像過度增強。(4)選擇策略和遺傳算子1、選擇策略。采用最優個體保存法。設種群規模為 N,交叉算子產生比例為 r,每代選擇 N + int r*(N-2)個父個體。復制保存的最優個體數為 2,其余父個體采用期望值選擇法中的無回放余數隨機選擇方式選擇所需數,2 * intr *(N-2)個用于交叉,N - 2 -intr*(N-2)個用于變異。2、 交叉算子。針對十進制實數編碼,這里采用一種局部尋優的交叉算子,以使子個體總是向著更優的方向搜索,這其實是仿射交叉的一個特例。對于求極小值問題,局部尋優算子定義為

20、: X= 式中 x1 ,x 2為父個體,x ' 為交叉后的子個體, 為0.6,1.3間的機數,這樣設是為了使交叉子代在最好值附近;f(x)表示 x 的適應值。若 x '的取值超出了取值范圍,則重新生成一個隨機數,直至滿足要求。3、變異算子。大多數變異算子是隨機的,這里引入的變異算子正比于個體與父代最優個體的差異,有:式中 x 為原個體,為父代中適應度最大的個體, 為0,1間的隨機數。(5)控制參數GA 控制參數種群規模取 30,最大迭代次數 100,最小迭代次數50,停機最優個體適應度變化值小于 0.001 時停機,適應值無變化持續 200 秒時停機。交叉概率和變異概率采用自適

21、應法。這是遺傳算法在遙感圖像增強中的應用,通過遺傳算法可以很好的達到遙感圖像增強的目的。總結:從上面可以看出,遺傳算法在遙感中的應用非常廣泛,我們可以運用遺傳算法進行圖像增強,遙感數據的處理,遙感影像匹配,混合像元的快速分解和分類,遙感多光譜影像的分類和遙感圖像的壓縮等方面。二、利用GA算法編程實現f(x)=x*sin(10*x)+1.0最大值的求解問題,要求提交偽代碼算法說明及實驗步驟和結果說明。遺傳算法(Genetic Algorithms簡稱GA)是二十世紀七十年代開始興起的以自然選擇和遺傳理論為基礎,將生物進化過程中適者生存規則與群體內部染色體的隨機信息交換機制相結合的搜索算法。進人二

22、十世紀九十年代以后,遺傳算法已經成為一種實用快速、穩定性好的優化技術,在模式識別、神經網絡,控制系統優化等方面都得到了廣泛的應用。遺傳算法原理簡介在遺傳算法的執行過程中,模擬了達爾文的生物進化理論中的適者生存原理,通過適應度函數值的大小來決定個體在下一代中的生存機會。適應度函數是與所提問題目標緊密相聯的一個量,對于實際問題,構造合理的適應度函數是遺傳算法的一個極為關鍵的問題。遺傳算法包括三種主要操作方法,三個基本要素的確定。三種基本操作方法是(1)選擇(又稱復制):選擇或復制是從當前群體中選擇優良的個體產生下一代的過程,其選擇的依據是以個體適應函數值的大小來進行選擇的,個體適應函數值越高,其被

23、選擇的機會就越多,那么其繁殖的子孫在下一代中產生的個數就越多,否則就少,甚至被淘汰。(2)交叉:交叉操作是遺傳算法中最主要的遺傳操作.簡單的交叉可分兩步進行,首先對種群中個體進行隨機配對;其次在配對個體中隨機設定交叉處,使配對個體彼此交換信息。 (3)變異:變異操作是為了增加遺傳算法找到最優解的能力,它以很小的概率隨機地改變字符串中某個位置的值.這個操作與前面兩個操作結合在一起可仿止解的過早收斂。三個基本要素的確定: (1)參數編碼:由于遺傳算法不能直接處理解空間的解數據,因此,必須通過編碼將它們表示成遺傳空間的基因型串結構數據。(2)初始群體的生成:由于遺傳算法的群體型操作需要,必須為遺傳操

24、作準備一個由若干個初始解組成的初始群體.初始群體的每個個體都是通過隨機方法產生的。 (3)適應度的評估與檢測:遺傳算法在搜索進化過程中一般不需要其它外部信息,僅用適應度值來評估個體或解的優劣,并以此作為遺傳算法的依據。具體到本題目中,我選擇使用C+來編寫這個程序,這個程序的關鍵點和難點就是交叉,變異。下面具體介紹下本程序。開始GEN=0產生初始的種群是否滿足停機準則指定結果是結束計算每個個體的適應值i=0i=M?以概率選擇遺傳操作否是交叉變異將兩個后代插入到新的種群GENi=GEN+1上面是本程序的流程圖,(1)隨機產生一個由確定長度的特征字符串組成的初始種群。(2)對該字符串種群迭代地執行步

25、驟和步驟,直到滿足停止準則為止:計算種群中每個個體字符串的適應值;應用交叉和變異等遺傳算子產生下一代種群。(3)把在后代中出現的最好的個體字符串指定為遺傳算法的執行結果,這個結果可以表示問題的一個解。其中GEN是當前代數。 首先,定義程序中所要用到的變量/ const const double DOUBLE_MAX = 999999999999;const double DOUBLE_MIN = -DOUBLE_MAX;const size_t MAXGENERATION = 100000;const size_t MAXUNCHANGE = 1000;/ 當最優值持續MAXUNCHANGE代

26、不發生變化,停止const double MINDIFF = 0.0001;/ 所能分辨的適應值函數的最小差值const size_t POPULATION = 50;/ 樣本的大小const size_t SAMPLELENGTH = 22;/ 每一個樣本的長度/ for x belong to -1, 2const double LOWBOUNARY = -1;const double ZOOMSCALE = 3;typedef char MyBit;typedef MyBit BinBitsSAMPLELENGTH;/ action to do in next stepenum Acti

27、onSTAY, MUTATE , CROSSOVER, DONE;然后定義一個樣本類class MySampleprivate:/ initialize samplesvoid Init();BinBits _bits;/ binary string double _fitvalue;double _prop;/ probability to stayAction _action; / what to do in next steppublic:MySample()Init();MySample(const MySample& rhs);MySample& operator =

28、 (const MySample& rhs);double Fitness();/ get probability to STAY/ double Probability() const; inline Action NextAction() constreturn _action;/ calulate probability of current samplevoid CalcuPro(double sumfit);void CrossOver(MySample& rhs);void Mutate();這個類中包含了初始化函數Init(),對樣本進行初始化。初始化的具體過程如

29、下:void MySample:Init()/ initialize binary stringfor (size_t i = 0; i < SAMPLELENGTH; +i)if (rand()%2) = 1)_bitsi = '1'else_bitsi = '0'/ initialize action_action = DONE;計算適度函數void CalcuPro(double sumfit),void MySample:CalcuPro(double sumfit)_prop = _fitvalue / sumfit;/ decide what

30、to do in next stepif ( static_cast<double>(rand() / static_cast<double>(RAND_MAX) < _prop )_action = STAY;else_action = CROSSOVER;交叉函數void CrossOver(MySample& rhs);void MySample:CrossOver(MySample& rhs)size_t pos = rand() % SAMPLELENGTH;/ cross over at posMyBit tmp;for (size_t

31、 i = 0; i < pos; +i)tmp = _bitsi;_bitsi = rhs._bitsi;rhs._bitsi = tmp;_action = STAY;變異函數void Mutate();void MySample:Mutate()size_t pos = rand() % SAMPLELENGTH;if (_bitspos = '1')_bitspos = '0'else_bitspos = '1'_action = STAY;其中還遇到個難題就是二值化問題,怎么讓0和1表示的數變為一個10進制的數,在這里我們用到了這樣

32、算法double BinaryParse(const BinBits& bits)int numer = 0;int denumer = 1;for (int i = SAMPLELENGTH - 1; i >= 0; -i)if (bitsi = '1')numer += denumer;denumer += denumer;return static_cast<double>(numer) / static_cast<double>(denumer);在計算二進制數的時候我們從后往前計算,并且只用到了加法,沒有用乘法這樣可以提高運算的效

33、率。三、任選一種數據挖掘軟件進行操作使用,并進行分析和總結。數據挖掘(Data Mining),又稱為數據庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識。并非所有的信息發現任務都被視為數據挖掘。例如,使用數據庫管理系統查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴傳統

34、的計算機科學技術和數據的明顯特征來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。數據的抽取數據的抽取是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便于管理和維護。·數據的存儲和管理

35、數據倉庫的組織管理方式決定了它有別于傳統數據庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優化查詢等。目前,許多數據庫廠家提供的技術解決方案是擴展關系型數據庫的功能,將普通關系數據庫改造成適合擔當數據倉庫的服務器。·數據的展現在數據展現方面主要的方式有:查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網

36、狀圖、交互式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的知識。1) 數據挖掘能做以下六種不同事情(分析方法):· 分類 (Classification)· 估值(Estimation)· 預言(Prediction)· 相關性分組或關聯規則(Affinity grouping or association rules)· 聚集(Clustering)· 描述和可視化(Des cription

37、and Visualization)· 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)2)數據挖掘分類    以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘· 直接數據挖掘    目標是利用可用的數據建立一個模型,這個模型對剩余的數據,對一個特定的變量(可以理解成數據庫中表的屬性,即列)進行描述。 間接數據挖掘   目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系 。· 分類、估值、預言屬于直接數據挖掘;后三種屬于間接數據挖掘3)各種分析

38、方法的簡介· 分類 (Classification)    首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對于沒有分類的數據進行分類。例子: a. 信用卡申請者,分類為低、中、高風險 b. 分配客戶到預先定義的客戶分片注意: 類的個數是確定的,預先定義好的估值(Estimation)   估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類的類別是確定數目的,估值的量是不確定的。例子: a. 根據購買模式,估計一個家庭的孩子個數 b. 根據購買模式,估計一個家庭的收入

39、c. 估計real estate的價值    一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變量的值,然后,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 01)。然后,根據閾值,將貸款級別分類。· 預言(Prediction)    通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間后,才知道預言準確性是多少。· 相關性分組或關聯規則(Affinity grouping or association rules)    決定哪些事情將一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論