




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第5章數(shù)據(jù)預(yù)處理 本章包括:本章包括: 數(shù)據(jù)預(yù)處理基本功能數(shù)據(jù)預(yù)處理基本功能 數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理的方法v數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但有潛在的有用信息和知人們事先不知道的、但有潛在的有用信息和知識的過程。識的過程。v數(shù)據(jù)挖掘:為企業(yè)決策者提供重要的、有價(jià)值數(shù)據(jù)挖掘:為企業(yè)決策者提供重要的、有價(jià)值的信息或知識,從而為企業(yè)帶來不可估量的經(jīng)的信息或知識,從而為企業(yè)帶來不可估量的經(jīng)濟(jì)效益。濟(jì)效益。 數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)數(shù)據(jù)
2、挖掘過程一般包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及知識評價(jià)和呈現(xiàn)。據(jù)挖掘以及知識評價(jià)和呈現(xiàn)。v在一個(gè)完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理要花費(fèi)在一個(gè)完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理要花費(fèi)60% 左右的時(shí)間,而后的挖掘工作僅占總工作量的左右的時(shí)間,而后的挖掘工作僅占總工作量的10% 左右。左右。 v目前對數(shù)據(jù)挖掘的研究主要集中于挖掘技術(shù)、挖掘目前對數(shù)據(jù)挖掘的研究主要集中于挖掘技術(shù)、挖掘算法、挖掘語言等。算法、挖掘語言等。數(shù)據(jù)挖掘的必要性:數(shù)據(jù)挖掘的必要性:v在海量的原始數(shù)據(jù)中,存在著大量雜亂的、重復(fù)在海量的原始數(shù)據(jù)中,存在著大量雜亂的、重復(fù)的、不完整的數(shù)據(jù),嚴(yán)重影響到數(shù)據(jù)挖掘算法的的、不完整的數(shù)據(jù),
3、嚴(yán)重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差。執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差。數(shù)據(jù)預(yù)處理分類:數(shù)據(jù)預(yù)處理分類:v從對不同的源數(shù)據(jù)進(jìn)行預(yù)處理的功能來分,數(shù)據(jù)預(yù)從對不同的源數(shù)據(jù)進(jìn)行預(yù)處理的功能來分,數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等據(jù)歸約等4個(gè)基本功能。個(gè)基本功能。v在實(shí)際的數(shù)據(jù)預(yù)處理過程中,在實(shí)際的數(shù)據(jù)預(yù)處理過程中, 這這4種功能不一定都種功能不一定都用到,而且,它們的使用也沒有先后順序,用到,而且,它們的使用也沒有先后順序, 某一種某一種預(yù)處理可能先后要多次進(jìn)行。預(yù)處理可能先后要多次進(jìn)行。v從數(shù)據(jù)預(yù)處理所
4、采用的技術(shù)和方法來分:從數(shù)據(jù)預(yù)處理所采用的技術(shù)和方法來分: 基本粗集理論的簡約方法;基本粗集理論的簡約方法; 復(fù)共線性數(shù)據(jù)預(yù)處理方法;復(fù)共線性數(shù)據(jù)預(yù)處理方法; 基于基于HashHash函數(shù)取樣的數(shù)據(jù)預(yù)處理方法;函數(shù)取樣的數(shù)據(jù)預(yù)處理方法; 基于遺傳算法數(shù)據(jù)預(yù)處理方法;基于遺傳算法數(shù)據(jù)預(yù)處理方法; 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)預(yù)處理方法;基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)預(yù)處理方法; Web Web挖掘的數(shù)據(jù)預(yù)處理方法等等。挖掘的數(shù)據(jù)預(yù)處理方法等等。v在數(shù)據(jù)挖掘整體過程中在數(shù)據(jù)挖掘整體過程中, ,海量的原始數(shù)據(jù)中存在著海量的原始數(shù)據(jù)中存在著大量雜亂的、重復(fù)的、不完整的數(shù)據(jù),嚴(yán)重影響到大量雜亂的、重復(fù)的、不完整的數(shù)據(jù),嚴(yán)重影
5、響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差。為此,在數(shù)據(jù)挖掘算法執(zhí)行之前,必須對的偏差。為此,在數(shù)據(jù)挖掘算法執(zhí)行之前,必須對收集到的原始數(shù)據(jù)進(jìn)行預(yù)處理,以改進(jìn)數(shù)據(jù)的質(zhì)量,收集到的原始數(shù)據(jù)進(jìn)行預(yù)處理,以改進(jìn)數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)挖掘過程的效率、精度和性能。數(shù)據(jù)預(yù)處提高數(shù)據(jù)挖掘過程的效率、精度和性能。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸約等技術(shù)。歸約等技術(shù)。v數(shù)據(jù)清理要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),清理要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù)、空缺值,處理
6、遺漏數(shù)據(jù)和清洗臟數(shù)據(jù)、空缺值, 識別刪除孤識別刪除孤立點(diǎn)等。立點(diǎn)等。 噪聲是一個(gè)測量變量中的隨機(jī)錯(cuò)誤或偏差,包括噪聲是一個(gè)測量變量中的隨機(jī)錯(cuò)誤或偏差,包括錯(cuò)誤的值或偏離期望的孤立點(diǎn)值錯(cuò)誤的值或偏離期望的孤立點(diǎn)值。對于噪聲數(shù)據(jù)。對于噪聲數(shù)據(jù)有如下幾種處理方法:有如下幾種處理方法:v分箱法分箱法v聚類法識別孤立點(diǎn)聚類法識別孤立點(diǎn)v回歸回歸 v目前最常用的方法是使用最可能的值填充空缺值目前最常用的方法是使用最可能的值填充空缺值, 如用一個(gè)全局常量替換空缺值、使用屬性的平均值如用一個(gè)全局常量替換空缺值、使用屬性的平均值填充空缺值或?qū)⑺性M按某些屬性分類填充空缺值或?qū)⑺性M按某些屬性分類, 然后用然
7、后用同一類中屬性的平均值填充空缺值。同一類中屬性的平均值填充空缺值。 例例5.2:一個(gè)公司職員平均工資收入為:一個(gè)公司職員平均工資收入為3000元,則使元,則使用該值替換工資中用該值替換工資中“基本工資基本工資”屬性中的空缺值。屬性中的空缺值。 v異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫中的數(shù)據(jù)并不都是正確的,常常異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫中的數(shù)據(jù)并不都是正確的,常常不可避免地存在著不完整、不一致、不精確和重復(fù)不可避免地存在著不完整、不一致、不精確和重復(fù)的數(shù)據(jù),這些數(shù)據(jù)統(tǒng)稱為的數(shù)據(jù),這些數(shù)據(jù)統(tǒng)稱為“臟數(shù)據(jù)臟數(shù)據(jù)”。臟數(shù)據(jù)能使。臟數(shù)據(jù)能使挖掘過程陷入混亂,導(dǎo)致不可靠的輸出。挖掘過程陷入混亂,導(dǎo)致不可靠的輸出。 清洗臟數(shù)據(jù)可采用下
8、面的方式:清洗臟數(shù)據(jù)可采用下面的方式: 在數(shù)據(jù)集成時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體在數(shù)據(jù)集成時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體有時(shí)并不一定是匹配的,例如:數(shù)據(jù)分析者如何才有時(shí)并不一定是匹配的,例如:數(shù)據(jù)分析者如何才能確信一個(gè)數(shù)據(jù)庫中的能確信一個(gè)數(shù)據(jù)庫中的student_idstudent_id和另一個(gè)數(shù)據(jù)庫和另一個(gè)數(shù)據(jù)庫中的中的stu_id stu_id 值是同一個(gè)實(shí)體。通常,可根據(jù)數(shù)據(jù)值是同一個(gè)實(shí)體。通常,可根據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫的元數(shù)據(jù)來區(qū)分模式集成中的錯(cuò)誤。庫或數(shù)據(jù)倉庫的元數(shù)據(jù)來區(qū)分模式集成中的錯(cuò)誤。v數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如同一屬性多次出現(xiàn)、數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如同一屬性多次
9、出現(xiàn)、同一屬性命名不一致等,對于屬性間冗余可以用相同一屬性命名不一致等,對于屬性間冗余可以用相關(guān)分析檢測到,然后刪除。關(guān)分析檢測到,然后刪除。 v對于現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性對于現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能不同。這可能是因?yàn)楸硎尽⒈壤蚓幋a、數(shù)值可能不同。這可能是因?yàn)楸硎尽⒈壤蚓幋a、數(shù)據(jù)類型、單位不統(tǒng)一、字段長度不同。據(jù)類型、單位不統(tǒng)一、字段長度不同。v數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維變換或數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、歸約、切換、旋轉(zhuǎn)
10、和投影等操作。包括規(guī)格化、歸約、切換、旋轉(zhuǎn)和投影等操作。v規(guī)格化是指將元組集按規(guī)格化條件進(jìn)行合并,也就規(guī)格化是指將元組集按規(guī)格化條件進(jìn)行合并,也就是屬性值量綱的歸一化處理。是屬性值量綱的歸一化處理。v規(guī)格化條件定義了屬性的多個(gè)取值到給定虛擬值的規(guī)格化條件定義了屬性的多個(gè)取值到給定虛擬值的對應(yīng)關(guān)系。對于不同的數(shù)值屬性特點(diǎn),一般可以分對應(yīng)關(guān)系。對于不同的數(shù)值屬性特點(diǎn),一般可以分為取值連續(xù)和取值分散的數(shù)值屬性規(guī)格化問題。為取值連續(xù)和取值分散的數(shù)值屬性規(guī)格化問題。v歸約指將元組按語義層次結(jié)構(gòu)合并。語義層次結(jié)構(gòu)歸約指將元組按語義層次結(jié)構(gòu)合并。語義層次結(jié)構(gòu)定義了元組屬性值之間的語義關(guān)系。規(guī)格化和歸約定義了
11、元組屬性值之間的語義關(guān)系。規(guī)格化和歸約能大量減少元組個(gè)數(shù),提高計(jì)算效率。同時(shí),規(guī)格能大量減少元組個(gè)數(shù),提高計(jì)算效率。同時(shí),規(guī)格化和歸約過程提高了知識發(fā)現(xiàn)的起點(diǎn),使得一個(gè)算化和歸約過程提高了知識發(fā)現(xiàn)的起點(diǎn),使得一個(gè)算法能夠發(fā)現(xiàn)多層次的知識,適應(yīng)不同應(yīng)用的需要。法能夠發(fā)現(xiàn)多層次的知識,適應(yīng)不同應(yīng)用的需要。v數(shù)據(jù)歸約是將數(shù)據(jù)庫中的海量數(shù)據(jù)進(jìn)行歸約,歸約數(shù)據(jù)歸約是將數(shù)據(jù)庫中的海量數(shù)據(jù)進(jìn)行歸約,歸約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量相對小得多,這樣進(jìn)行數(shù)據(jù)挖掘的性能和效率會量相對小得多,這樣進(jìn)行數(shù)據(jù)挖掘的性能和效率會得到很大提高。得到很大提高。v數(shù)
12、據(jù)歸約的策略主要有數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)歸約的策略主要有數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層。數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層。 v數(shù)據(jù)壓縮分為無損壓縮和有損壓縮,比較流行和有效的有損數(shù)據(jù)壓縮方法是小波變換和主要成分分析。v小波變換對于稀疏或傾斜數(shù)據(jù)以及具有有序?qū)傩缘臄?shù)據(jù)有很好的壓縮結(jié)果。v數(shù)值歸約通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。 v數(shù)值歸約技術(shù)可以是有參的,也可以是無參的。有參方法是使用一個(gè)模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù)。v有參的數(shù)值歸約技術(shù)有以下兩種,回歸:線性回歸和多元回歸;對數(shù)線性模型:近似離散屬性集中的多維概率分布
13、。v無參的數(shù)值歸約技術(shù)有3種:p直方圖直方圖p聚類聚類p選樣選樣v概念分層通過收集并用較高層的概念替換較低層的概念來定義數(shù)值屬性的一個(gè)離散化。v概念分層可以用來歸約數(shù)據(jù),通過這種概化盡管細(xì)節(jié)丟失了,但概化后的數(shù)據(jù)更有意義、更容易理解,并且所需的空間比原數(shù)據(jù)少。v對于數(shù)值屬性,由于數(shù)據(jù)的可能取值范圍的多樣性和數(shù)據(jù)值的更新頻繁,說明概念分層是困難的。 數(shù)值屬性的概念分層可以根據(jù)數(shù)據(jù)的分布分析自動地構(gòu)造,如用分箱、直方圖分析、聚類分析、基于熵的離散化和自然劃分分段等技術(shù)生成數(shù)值概念分層。v由用戶專家在模式級顯示地說明屬性的部分序或全序,從而獲得概念的分層;v只說明屬性集,但不說明它們的偏序,由系統(tǒng)根
14、據(jù)每個(gè)屬性不同值的個(gè)數(shù)產(chǎn)生屬性序,自動構(gòu)造有意義的概念分層。v數(shù)據(jù)預(yù)處理方法就是根據(jù)不同的挖掘問題采用相應(yīng)的理論和技術(shù),實(shí)現(xiàn)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等基本功能。v預(yù)處理方法很多,在此介紹常用的幾種方法。v粗糙集理論是一種研究不精確、不確定性知識粗糙集理論是一種研究不精確、不確定性知識的數(shù)學(xué)工具,可以對數(shù)據(jù)屬性進(jìn)行十分有效的精簡,的數(shù)學(xué)工具,可以對數(shù)據(jù)屬性進(jìn)行十分有效的精簡,求出最小約簡集,是數(shù)據(jù)預(yù)處理一種有效的方法。求出最小約簡集,是數(shù)據(jù)預(yù)處理一種有效的方法。v數(shù)據(jù)一般存在信息的含糊性問題。數(shù)據(jù)一般存在信息的含糊性問題。v粗糙集理論的最大特點(diǎn)是無需提供問題所需粗糙集理論的最大特點(diǎn)
15、是無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息。處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息。v粗糙集理論的基本思路是利用定義在數(shù)據(jù)集粗糙集理論的基本思路是利用定義在數(shù)據(jù)集合合U上的等價(jià)關(guān)系對上的等價(jià)關(guān)系對U進(jìn)行劃分,對于數(shù)據(jù)表進(jìn)行劃分,對于數(shù)據(jù)表來說,這種等價(jià)關(guān)系可以是某個(gè)屬性,或者來說,這種等價(jià)關(guān)系可以是某個(gè)屬性,或者是幾個(gè)屬性的集合。因此按照不同屬性的組是幾個(gè)屬性的集合。因此按照不同屬性的組合就把數(shù)據(jù)表劃分成不同的基本類,在這些合就把數(shù)據(jù)表劃分成不同的基本類,在這些基本類的基礎(chǔ)上進(jìn)一步求得最小約簡集。基本類的基礎(chǔ)上進(jìn)一步求得最小約簡集。v例如:表例如:表5.1優(yōu)秀人才決策表給出了某部門的員工數(shù)據(jù)
16、記錄集,通優(yōu)秀人才決策表給出了某部門的員工數(shù)據(jù)記錄集,通過對員工的政治表現(xiàn)、工作能力、科研能力等確定優(yōu)秀人才人選。過對員工的政治表現(xiàn)、工作能力、科研能力等確定優(yōu)秀人才人選。論域論域U 條件屬性(C) 決策屬性 政治表現(xiàn)(政治表現(xiàn)(C1)工作能力工作能力(C2) 科研能力科研能力(C3) 優(yōu)秀人才(優(yōu)秀人才(D) e1優(yōu)秀強(qiáng)強(qiáng)是e2良好一般一般否e3一般差差否e4一般一般一般否e5良好強(qiáng)一般否e6優(yōu)秀強(qiáng)強(qiáng)是其中:條件屬性集為其中:條件屬性集為C政治表現(xiàn),工作能力,科研能力政治表現(xiàn),工作能力,科研能力,決策屬性集為,決策屬性集為D優(yōu)秀人才優(yōu)秀人才。 v根據(jù)粗糙集理論對表5.1進(jìn)行離散化后再進(jìn)行數(shù)據(jù)
17、預(yù)處理。v處理過程分兩個(gè)步驟進(jìn)行,一是對決策表?xiàng)l件屬性集進(jìn)行約簡求核;二是對條件屬性值進(jìn)行約簡。具體求解步驟可見第11章相關(guān)內(nèi)容。v基于粗糙集理論的數(shù)據(jù)預(yù)處理具有優(yōu)點(diǎn)基于粗糙集理論的數(shù)據(jù)預(yù)處理具有優(yōu)點(diǎn):v第一,數(shù)據(jù)挖掘的對象一般都是通過觀測、試驗(yàn)、調(diào)查得到的數(shù)據(jù),通過觀測、試驗(yàn)、調(diào)查等得到的數(shù)據(jù)存在著冗余、雜亂、不完整等因素,采用粗糙集理論進(jìn)行數(shù)據(jù)預(yù)處理,不需要預(yù)先知道額外的信息,有利于集中精力解決問題;v第二,算法簡單。對于給定的決策表,預(yù)處理過程所使用的算法可以是分辨矩陣或逐個(gè)屬性、逐條規(guī)則進(jìn)行檢驗(yàn),算法簡單,易于計(jì)算機(jī)的實(shí)現(xiàn),方便挖掘系統(tǒng)的自動操作;v第三,可以有效地去除冗余的屬性或?qū)傩?/p>
18、的值。v常規(guī)方法進(jìn)行函數(shù)發(fā)現(xiàn)時(shí)一般要作出一個(gè)假設(shè):數(shù)據(jù)滿足統(tǒng)計(jì)不相關(guān)。而傳統(tǒng)的函數(shù)發(fā)現(xiàn)算法中,常常忽略對數(shù)據(jù)是否滿足該假設(shè)的檢驗(yàn)。若數(shù)據(jù)不滿足統(tǒng)計(jì)不相關(guān)的假設(shè)(也稱數(shù)據(jù)變量之間存在復(fù)共線性),在這種情況下,函數(shù)發(fā)現(xiàn)算法挖掘出來的函數(shù)關(guān)系表達(dá)式可能會存在系統(tǒng)誤差,該表達(dá)式將不是我們要發(fā)現(xiàn)的理想函數(shù)。v為解決該問題,本節(jié)給出復(fù)共線性的概念,然后給出不滿足不相關(guān)假設(shè)的情況下進(jìn)行數(shù)據(jù)預(yù)處理的算法MDPA(Multicollinearity Data Preprocessing Algorithm復(fù)共線性數(shù)據(jù)預(yù)處理算法)。v假定給定的樣本數(shù)據(jù)為Y、X,其中因變量樣本數(shù)據(jù)矩陣Y=(y1,y2,yn)是pn
19、樣本矩陣,即p個(gè)因變量,n個(gè)樣本;自變量樣本數(shù)據(jù)矩陣X是qn矩陣,即q個(gè)自變量,n個(gè)樣本。在實(shí)際計(jì)算時(shí),X一般是將原始數(shù)據(jù)中心化后得到的樣本矩陣,即:X1n0。v在一般的函數(shù)發(fā)現(xiàn)算法中,自變量樣本數(shù)據(jù)矩陣X需要數(shù)據(jù)滿足統(tǒng)計(jì)不相關(guān)假設(shè),也即X各行之間不能存在線性關(guān)系。而實(shí)際上,只要矩陣X的行向量之間存在近似線性關(guān)系時(shí),函數(shù)發(fā)現(xiàn)算法就有可能達(dá)不到實(shí)用的效果。為此,下面我們給出復(fù)共線性的定義,并對滿足這一定義的數(shù)據(jù)給出數(shù)據(jù)預(yù)處理的算法(MDPA)。v定義定義5.1(復(fù)共線性)復(fù)共線性)給定矩陣X,設(shè)X為X的轉(zhuǎn)置矩陣,設(shè)矩陣(XX)nn的特征根為1, 2, ,n, 若對預(yù)設(shè)的正數(shù),00.1,有max(
20、i,i=1,n)/ min(i,i=1,n)1/,則稱矩陣X滿足復(fù)共線性。v復(fù)共線性描述了最大特征根和最小特征根之間的差距,當(dāng)足夠小時(shí),XX至少有一個(gè)特征根接近于0,這時(shí),X的行向量之間存在著近似的線性關(guān)系,從而描述了數(shù)據(jù)之間的相關(guān)程度。v用于控制X各行向量之間的相關(guān)程度,當(dāng)其線性關(guān)系達(dá)到用戶指定的程度,那么,該組數(shù)據(jù)在進(jìn)行函數(shù)發(fā)現(xiàn)之前應(yīng)該進(jìn)行轉(zhuǎn)換預(yù)處理。v本小節(jié)主要討論存在著復(fù)共線性的數(shù)據(jù)矩陣X數(shù)據(jù)預(yù)處理的方法。v算法思路:為消除數(shù)據(jù)的復(fù)共線性使數(shù)據(jù)滿足統(tǒng)計(jì)不相關(guān)假設(shè),需對矩陣X作主成分分析,計(jì)算出主向量矩陣Z,矩陣Z的各行向量之間是滿足統(tǒng)計(jì)不相關(guān)假設(shè)的。于是,在后繼的函數(shù)發(fā)現(xiàn)算法中,將挖掘
21、Y與Z的關(guān)系,然后再利用X與Z的關(guān)系,得到Y(jié)與X之間的關(guān)系表達(dá)式。v下面的復(fù)共線性數(shù)據(jù)預(yù)處理算法描述了存在復(fù)共線性數(shù)據(jù)的轉(zhuǎn)換方法。v算法算法5-1MDPA(Multicollinearity Data Preprocessing Algorithm)v輸入:輸入:qn矩陣 X,控制值v輸出:輸出:Z (轉(zhuǎn)換后消除復(fù)共線性的數(shù)據(jù)矩陣)v步驟:步驟:vBeginvStep1計(jì)算XX的特征值1,2, , q,并按從大到小順序排序;vStep2 判斷數(shù)據(jù)矩陣X具有復(fù)共線性。vEnd.v算法的偽代碼如下:vEC(X) /計(jì)算XX的特征值1,2, , q,并按從大到小順序排序;vIF1/q1/ /數(shù)據(jù)矩陣
22、X具有復(fù)共線性v PCMC(Xqn,1, 2, ,q,t ) /主分量矩陣計(jì)算vELSEv Z=X;vENDIFv算法3-1的計(jì)算代價(jià)主要在第1行計(jì)算特征值過程和第3行主分量矩陣計(jì)算過程,分別由下面的算法5-2和算法5-3實(shí)現(xiàn)。v算法算法5-2EC(Eigenvalue Compute特征值計(jì)算子程序特征值計(jì)算子程序)v輸入:輸入:qn矩陣 Xv輸出:輸出:特征值1,2,q,并按從大到小順序排序和特征向量矩陣Eigenvalue(q,q)v步驟:步驟:vBeginvStep1計(jì)算相關(guān)系數(shù)矩陣CorMatrix(q,q);vStep2 利用雅可比法計(jì)算矩陣CorMatrix(q,q)的特征值;v
23、Step3 判斷上三角元素是否全部滿足設(shè)定值;vStep4 將特征值、特征向量按照特征值的大小進(jìn)行排序得到特征值向量lptq和特征向量矩陣EigenVectorq,q。vEnd.v算法的偽代碼如下:vBeginv計(jì)算相關(guān)系數(shù)矩陣CorMatrix(q,q);v利用雅可比法計(jì)算矩陣CorMatrix(q,q)的特征值;vEigenvaluei,j=CorMatrixi,j, (i,j=1,2,q);vl=0; /定義計(jì)數(shù)變量vwhile(l(q*(q-1)/2) /判斷上三角元素是否全部滿足設(shè)定值,滿足跳出循環(huán),否則繼續(xù)循環(huán)v l=0;v求在Eigenvalueq,q矩陣上三角元素中的最大值及其
24、位置pos1,pos2v根據(jù)pos1,pos2進(jìn)行一輪特征值、特征向量的計(jì)算vif(abs(Eigenvalue i,j),(i=0,1,q,j=i+1,q) /判斷上三角元素是否滿足條件vl+; /滿足計(jì)數(shù)器l加1vvLpti= Eigenvaluei,i; (i=1,2,q);/將特征值放入一維數(shù)組中v將特征值、特征向量按照特征值的大小進(jìn)行排序得到特征值向量lptq和特征向量矩陣EigenVectorq,qvEnd.v說明:說明:v算法中把特征值存放在Lpt數(shù)組,特征向量存放在Eigenvalue數(shù)組中。v一般qn,所以算法的主要計(jì)算代價(jià)在第一步計(jì)算相關(guān)系數(shù)矩陣中,計(jì)算量為q*n=O(n)
25、v下面的算法描述了主分量矩陣的計(jì)算過程。 v算法算法5-3PCMC(Principle Component Matrix Compute主分量矩陣計(jì)算子程序主分量矩陣計(jì)算子程序)v輸入:輸入:矩陣Xqn,1, 2, ,q,特征向量矩陣EigenVectorq,q,t (t=1為確定主分量個(gè)數(shù)時(shí)所需特征值之和對總和貢獻(xiàn)率的臨界值)v輸出:輸出:所需主分量矩陣Zknv步驟:步驟:v BeginvStep1計(jì)算所需主分量個(gè)數(shù)k;vStep2根據(jù)特征向量矩陣Eigenvalue(q,q)計(jì)算出所需特征向量矩陣Pkq;vStep3計(jì)算主分量矩陣Zkn(=PX)。vEnd.v算法的偽代碼如下:vBegin
26、v計(jì)算所需主分量個(gè)數(shù)k(=tv根據(jù)特征向量矩陣Eigenvalue(q,q)計(jì)算出所需特征向量矩陣Pkqv計(jì)算主分量矩陣Zkn(=PX)vEnd.v顯然,算法3-3的計(jì)算代價(jià)主要在第2行,第3行,它們的計(jì)算復(fù)雜度在下面的命題中將進(jìn)行分析。v下面的命題描述了算法MDPA的復(fù)雜度。v命題命題5.1 復(fù)共線性數(shù)據(jù)預(yù)處理算法MDPA的總計(jì)算量為O(n)。v證明證明: 注意,算法中的p,q的值一般較小,相對于n的值可計(jì)為O(1),算法計(jì)算代價(jià)主要有:(1)計(jì)算特征值:計(jì)算量為O(n)(2)計(jì)算主分量個(gè)數(shù):計(jì)算量為O(1)(3)計(jì)算特征向量矩陣:計(jì)算量為O(1)(4)計(jì)算主分量矩陣:計(jì)算量為O(1) 因此
27、,MDPA的總計(jì)算量為O(n)。v在目前常規(guī)的數(shù)據(jù)挖掘系統(tǒng)中,其數(shù)據(jù)分析功能模塊中,一般有主成分分析模塊,因此,復(fù)共線性數(shù)據(jù)預(yù)處理算法在海量數(shù)據(jù)計(jì)算中,可使用這些模塊計(jì)算的中間結(jié)果,或者使用抽樣方法估算主成分分析模塊的一些參數(shù),以減少運(yùn)算量。v因此,MDPA在沒有明顯增加計(jì)算量的情況下,將一些函數(shù)發(fā)現(xiàn)算法的應(yīng)用推廣到數(shù)據(jù)不滿足統(tǒng)計(jì)不相關(guān)假設(shè)的情況,大大地拓寬了統(tǒng)計(jì)學(xué)及數(shù)據(jù)挖掘中的一些方法應(yīng)用 v本實(shí)驗(yàn)的目的在于讓讀者理解MDPA算法的運(yùn)算過程,所以,實(shí)驗(yàn)數(shù)據(jù)樣本數(shù)較小。實(shí)驗(yàn)針對以下數(shù)據(jù)進(jìn)行,見表5.2。表表5.2某地區(qū)森林植被與引起洪澇災(zāi)害的降雨量的關(guān)系某地區(qū)森林植被與引起洪澇災(zāi)害的降雨量的關(guān)
28、系序號變量 12345678910X182.988.099.9105.3117.7131.0168.2161.8174.2184.7 X292.093.096.094.0110.0101.0105.0112.0112.0112.0 X317.121.325.129.034.040.044.049.051.053.0 X494.096.097.097.0100.0101.0104.0109.0111.0111.0 y8.49.610.411.412.214.215.817.919.620.8v該例中:p=1,q=4,n=10運(yùn)行MDPA應(yīng)用程序,并選擇0.001,t=0.90計(jì)算得: CorMa
29、trix(q,q)= 13.827, 2=0.138, 3=0.032, 4=0.0031/4=12761/=1000,1.000 0.969 0.907 0.9880.969 1.000 0.904 0.9880.907 0.904 1.000 0.8950.988 0.988 0.895 000. 1數(shù)據(jù)矩陣X存在復(fù)共線性,執(zhí)行PCMC子程序,計(jì)算主分量矩陣。由1/i0.957t,k=1,即主分量只需取一個(gè),即13.827對應(yīng)的評分量。計(jì)算得P14=(0.259,0.257,0.258,0.258)計(jì)算消除復(fù)共線性后的數(shù)據(jù)矩陣Z:Z110PX(73.8,76.9,82.0,83.9,93.
30、3,96.3,103.6,111.5,115.7,118.9)然后,就可以使用新的數(shù)據(jù)矩陣挖掘其與因變量Y之間的函數(shù)關(guān)系,最終將結(jié)果再代回到自變量X即可。 v在函數(shù)發(fā)現(xiàn)算法處理海量數(shù)據(jù)時(shí),由于實(shí)時(shí)的需要(例如針對數(shù)據(jù)流的處理),常需要先進(jìn)行抽樣。要使抽樣取得好的效果,最重要的是要使樣本的代表性能真正反映總體的統(tǒng)計(jì)特性。傳統(tǒng)的抽樣方法一般采取簡單隨機(jī)抽樣,但這種方法反映的是數(shù)據(jù)編號的統(tǒng)計(jì)特性,沒有真正反映出其數(shù)據(jù)分布的統(tǒng)計(jì)特性;特別是當(dāng)數(shù)據(jù)傾斜時(shí),樣本不具有對總體數(shù)據(jù)統(tǒng)計(jì)分布的代表性。v傳統(tǒng)的分層抽樣需要有關(guān)層次概念的知識,然后根據(jù)層的知識來進(jìn)行分層,因而傳統(tǒng)方法在沒有層知識的情況下就顯得無能為
31、力。v新的基于Hash函數(shù)取樣技術(shù)SHF (Sampling Based on Hash Function )模型,新方法注意到傳統(tǒng)分層抽樣需要預(yù)先知道關(guān)于層的知識,因此引入Hash函數(shù)技術(shù),在對總體數(shù)據(jù)沒有層知識的情形下,利用Hash桶進(jìn)行分層,即將m維超立方體按等概率空間進(jìn)行分桶,使得每層(Hash桶)的數(shù)據(jù)個(gè)數(shù)相近,以較小的計(jì)算代價(jià)獲得分層的效果,然后進(jìn)行分層抽樣,使所抽樣本能充分反映數(shù)據(jù)的統(tǒng)計(jì)特性。v算法保證了樣本具有對總體數(shù)據(jù)的充分的統(tǒng)計(jì)代表性并從理論上可證明新算法復(fù)雜度為O(n)。v總體的分布函數(shù)構(gòu)造Hash函數(shù),由于以下原因: 完全地計(jì)算總體數(shù)據(jù)去得到精確分布的計(jì)算量太大; 即使
32、處理完整個(gè)總體的數(shù)據(jù),由于數(shù)據(jù)噪聲,得到總體的分布也只是近似的。 所以,SHF利用隨機(jī)抽樣的一些性質(zhì),使用總體的估計(jì) 分布函數(shù)來代替其精確分布。設(shè)總體數(shù)據(jù)為:X(Xij)nm,即共有m個(gè)變量,n行數(shù)據(jù)。為了簡化問題且不失一般性,本節(jié)作下列兩項(xiàng)假定: (1) 假定m個(gè)變量中有下列幾種類型: l 連續(xù)型,如重量和高度等。其距離計(jì)算方法一般用歐氏距離或曼哈坦距離。 l 二元型,即變量取值只有2個(gè)狀態(tài),如性別。 l 標(biāo)稱型,二元型的推廣,其狀態(tài)多于2個(gè),如顏色。 其它類型均可以看作上述三種類型的特例。(2) 假定m個(gè)變量中,x1,xm1為連續(xù)型變量,xm1+1,x m1+m2為二元變量, x m1+m
33、2+1,x m1+m2+m3為標(biāo)稱變量。 m1+m2+m3m,即m1個(gè)連續(xù)變量,m2個(gè)二元變量,m3個(gè)標(biāo)稱變量。v關(guān)于二元變量,兩個(gè)對象i,j之間的距離常用它們的匹配系數(shù)來表示:d(i,j)=f/m2,其中f為m2個(gè)二元變量中,兩個(gè)對象取不同狀態(tài)的個(gè)數(shù)。v關(guān)于標(biāo)稱變量,兩個(gè)對象i,j之間的距離也常用它們的匹配系數(shù)來表示:d(i,j)=m3g/m3,其中g(shù)為m3個(gè)標(biāo)稱變量中,兩個(gè)對象取相同狀態(tài)的個(gè)數(shù)。 v對于分布函數(shù)的估計(jì)采用簡單隨機(jī)取樣,設(shè)簡單隨機(jī)樣本數(shù)據(jù)為ssimp。為了針對各類型變量給出各分布函數(shù)的估計(jì),根據(jù)文獻(xiàn)13,有下列三條性質(zhì): v性質(zhì)性質(zhì)5.1(無偏估計(jì)性)(無偏估計(jì)性)v(1)樣
34、本均值xmean是總體均值Xmean的無偏估計(jì)量。v(2)xtotalnxmean是總體總值Xtotal的無偏估計(jì)量。v(3)樣本方差 (xi-xmean)2/(ssimp-1)是v總體方差:S (Xi-Xmean)2/(n-1)的無偏估計(jì)量。2xsni 12Xni 1v性質(zhì)性質(zhì)5.2(關(guān)于各類型變量的近似分布性)(關(guān)于各類型變量的近似分布性)v(1) 對于連續(xù)隨機(jī)變量x,其估計(jì)分布函數(shù)為近似正態(tài)分布N(xmena,sx2)。分布函數(shù)為: F(x) dysxysxmeanxx2)(exp2122v(2) 對于二元變量x,設(shè)其狀態(tài)為0,1。所抽ssimp個(gè)樣本中,0狀態(tài)的個(gè)數(shù)為ssimp0,1狀
35、態(tài)的個(gè)數(shù)為ssimp1。令p= ssimp0/ssimp,則其估計(jì)分布函數(shù)為: F(x)= 1 x10 xpv(3) 對于標(biāo)稱變量x,設(shè)狀態(tài)為sta1,sta2,stat,分別被標(biāo)記為1,2,,t。所抽樣本中各狀態(tài)出現(xiàn)的個(gè)數(shù)分別為ksta1,ksta2,kstat,令pi=kstai /ssimp(i=1,2,t)。則其估計(jì)分布函數(shù)為: F(x)ijjp1t)1,2,.,i i,x1-(i v性質(zhì)性質(zhì)5.3(抽樣數(shù)的確定)估計(jì)分布函數(shù)的簡單隨機(jī)抽樣樣本個(gè)數(shù)ssimp由以下方法確定:vssimp= v其中 為標(biāo)準(zhǔn)正態(tài)分布的雙側(cè) 分位數(shù),r為相對誤差。2meanXrXSSHF模型按如下步驟構(gòu)造Ha
36、sh函數(shù):v對總體進(jìn)行簡單隨機(jī)抽樣,抽樣針對每維變量進(jìn)行。v按(5.1)(5.2)(5.3)式得到每維變量的近似分布,構(gòu)造Hash函數(shù)如下: H(x1,x2,xm)F(x1)F(x2)F(xm) (5.4)v以上方法實(shí)際上假定了各變量之間相互獨(dú)立。對于總體數(shù)據(jù),若各變量之間存在復(fù)共線性情形,可采取因子分析法先將數(shù)據(jù)進(jìn)行轉(zhuǎn)化,消除其復(fù)共線性。其計(jì)算量為O(n)。v命題命題5.2 x1,x2,xm 相互獨(dú)立時(shí),H(x1,x2,xm)為變量X=(x1,x2,xm)的聯(lián)合分布函數(shù)。v證明:由獨(dú)立隨機(jī)變量的聯(lián)合分布函數(shù)的性質(zhì)即知。vSHF模型利用Hash函數(shù)對總體數(shù)據(jù)進(jìn)行分桶,亦即將數(shù)據(jù)進(jìn)行分層,然后針
37、對各桶進(jìn)行簡單隨機(jī)抽樣,從而實(shí)現(xiàn)分層抽樣。v設(shè)按函數(shù)發(fā)現(xiàn)技術(shù)要求所需抽取的樣本數(shù)為slayer,將0,1slayer等分,slayer個(gè)等分點(diǎn)如下:v0=i0, i1, i2, , islayer-1, islayer=1,則iq-iq-1=1/slayer(q=1, 2, , slayer)v將n個(gè)數(shù)據(jù)分到slayer個(gè)桶,分法如下:v若第j行數(shù)據(jù)滿足:viq-1=H(xj1, xj2, , xjm)iq(q=1,2,slayer-1) viq-1=H(xj1,xj2,xjm)=iq(q=slayer) (5.5)v則第j 行屬于第q個(gè)桶。v命題命題5.3 (各桶中數(shù)據(jù)分布的特點(diǎn))(各桶中數(shù)
38、據(jù)分布的特點(diǎn))按上述分桶方法,各桶中數(shù)據(jù)的個(gè)數(shù)以概率1相同。v證明證明:由命題5.2知, H(x1, x2, , xm)為變量X=(x1,x2,xm)的聯(lián)合分布函數(shù),將n個(gè)點(diǎn)看作是分布在維數(shù)為m的超幾何體中。由于桶的劃分是按分布函數(shù)等概率來劃分的(注意,不是按超幾何體等體積劃分),即超幾何體被劃分為slayer個(gè)等概率空間,即slayer個(gè)等概率Hash桶,由概率函數(shù)的頻率意義知,各桶落入點(diǎn)的頻率應(yīng)該均為,因此,各桶中數(shù)據(jù)的個(gè)數(shù)以概率1相同。v命題5.3保證了后面的基于Hash函數(shù)取樣技術(shù)在分層時(shí),各層中數(shù)據(jù)個(gè)數(shù)接近,為保證抽樣質(zhì)量提供了理論依據(jù)。v性質(zhì)性質(zhì)5.4分層抽樣的精度優(yōu)于簡單隨機(jī)抽樣
39、,即分層抽樣的估計(jì)量方差小于簡單隨機(jī)抽樣。vSHF模型中的HSDPA(Hash Sampling Based Data Preprocessing Algorithm)算法首先進(jìn)行簡單隨機(jī)抽樣,估計(jì)分布函數(shù),構(gòu)造出Hash函數(shù),然后進(jìn)行基于Hash函數(shù)的分層抽樣,得到具有充分統(tǒng)計(jì)代表性的樣本。下面的算法5-4給出了計(jì)算過程的細(xì)節(jié):v算法算法5-4 HSDPA算法算法v輸入輸入:n行m列混合類型數(shù)據(jù),樣本個(gè)體數(shù)為slayerv輸出輸出:slayer行m列混合類型數(shù)據(jù)v步驟步驟: v BeginvStep1 針對各列進(jìn)行簡單隨機(jī)抽樣;vStep2 根據(jù)(5.1)(5.2)(5.3)式估計(jì)各列分布函
40、數(shù);vStep3 根據(jù)(5.4)式構(gòu)造Hash函數(shù)H;vStep4 根據(jù)(5.5)式將n個(gè)個(gè)體分成slayer個(gè)桶;vStpe5 隨機(jī)地從各桶抽取一個(gè)個(gè)體,組成一個(gè)樣本數(shù)為slayer的樣本;vStep6 End.v命題命題5.4 HSDPA算法的復(fù)雜度為O(n),即為關(guān)于n的線性時(shí)間。v證明證明:顯然,HSDPA算法中m, k, ssimp, slayernv第1步代價(jià)為O(1)v第2步代價(jià)為O(1)v第3步代價(jià)為O(1)v第4步代價(jià)為nv第5代價(jià)為O(1)v所以整個(gè)算法的代價(jià)為:O(n)v即整個(gè)算法的復(fù)雜度是關(guān)于n的線性時(shí)間。vHSDPA算法已被成功應(yīng)用于聚類分析方法中,參見文獻(xiàn)15。該文
41、實(shí)驗(yàn)表明,HSPDA算法在聚類質(zhì)量下降很小的情況下,在數(shù)據(jù)集個(gè)數(shù)接近10000時(shí),聚類效率比傳統(tǒng)算法提高2個(gè)數(shù)量級。v遺傳算法是從某一隨機(jī)產(chǎn)生的或是特定的初始群體出發(fā)(父本),進(jìn)行選擇、復(fù)制、交叉、變異等,不斷地進(jìn)行迭代計(jì)算,并根據(jù)每一個(gè)個(gè)體的適應(yīng)度值,優(yōu)勝劣汰,引導(dǎo)搜索過程向解逼近。v遺傳算法的優(yōu)點(diǎn):它直接對結(jié)構(gòu)對象進(jìn)行操作,無需函數(shù)可導(dǎo)或連續(xù),具有內(nèi)在的隱并行性和較好的全局尋優(yōu)能力,它以一定的概率進(jìn)行交叉和變異,采用了概率化的尋優(yōu)方法,能自動獲取搜索過程中的有關(guān)知識并用于指導(dǎo)優(yōu)化,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。v遺傳算法的高效搜索能力可以用來進(jìn)行數(shù)據(jù)的聚類預(yù)處理,即把一條具有n個(gè)
42、屬性的記錄看作是n維空間中的一個(gè)點(diǎn),數(shù)據(jù)庫中的數(shù)據(jù)記錄就成為n維空間中的一組點(diǎn)群,這樣對樣本的聚類問題就轉(zhuǎn)化為對點(diǎn)群的劃分或歸類問題。v在用遺傳算法求解之前,有必要先對問題的解空間進(jìn)行編碼。以交易數(shù)據(jù)庫為例,經(jīng)過預(yù)處理的目標(biāo)子集,由0,1形成了相應(yīng)的屬性值,所以可采用通常的二進(jìn)制編碼方法,編碼長度取決于向量的維數(shù),這是一個(gè)長度固定的染色體編碼。遺傳算法中,自然選擇過程的模擬通常是采用評估函數(shù)和適應(yīng)度函數(shù)來實(shí)現(xiàn)的。v評估函數(shù)主要通過染色體優(yōu)劣的絕對值來評估,而適應(yīng)度則用來評估一個(gè)染色體相對于整個(gè)群體優(yōu)劣的相對值的大小。v通常的遺傳算子主要有選擇、交叉和變異。 其中,選擇算子指按照一定的策略從父代
43、中選出個(gè)體進(jìn)入中間群體;交叉算子指隨機(jī)地從群體中抽取兩個(gè)個(gè)體,并按照某種交叉策略使兩個(gè)個(gè)體互相交換部分染色體碼串,形成兩個(gè)新的個(gè)體,可采用兩點(diǎn)交叉或多點(diǎn)交叉策略;變異算子指按一定的概率,改變?nèi)旧w中的某些位的值。v標(biāo)準(zhǔn)遺傳算法的形式化描述為 ,SGA是一個(gè)八元組SGA =(C, E, P0,M, T) ,其中,C為個(gè)體的編碼方法,E為個(gè)體適應(yīng)度評價(jià)函數(shù),P0為初始群體,M 為群體規(guī)模, 為選擇算子,為交叉算子, 為變異算子,T為遺傳算法的終止條件。遺傳算法一般分為兩個(gè)階段,首先從初始群體開始,通過選擇生成中間群體,然后在中間群體上進(jìn)行交叉與變異,以形成下一代的群體。v算法算法5-5基于遺傳算法
44、的特征子集選取算法基于遺傳算法的特征子集選取算法 v輸入:輸入:置迭代次數(shù)為0,隨機(jī)生成初始群體;v輸出:輸出:優(yōu)化的特征子集,優(yōu)化的子群體。v步驟:步驟:v BeginvStep1 置迭代次數(shù)為0,隨機(jī)生成初始群體;vStep2 IF T終止條件滿足 Then End;vStep3 計(jì)算當(dāng)前群體中各個(gè)體的適應(yīng)度;vStep4 由各個(gè)體適應(yīng)度選擇生成中間群體;vStep5 以概率Pc選擇個(gè)體進(jìn)行交叉,產(chǎn)生的新個(gè)體替換老個(gè)體,加入到中間群體中;vStep6 以概率Pm 選擇個(gè)體對其某一位進(jìn)行變異,產(chǎn)生新個(gè)體替換老個(gè)體,并加入到中間群體中;vStep7 轉(zhuǎn)Step2。vEnd.v人工神經(jīng)網(wǎng)絡(luò)(ar
45、tificialneuralnetwork,簡稱ANN)是在對大腦的生理研究的基礎(chǔ)上,用模擬生物神經(jīng)元的某些基本功能元件(即人工神經(jīng)元),按各種不同的聯(lián)結(jié)方式組成的一個(gè)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)(Neural Network)的學(xué)習(xí)結(jié)果為目標(biāo)函數(shù),根據(jù)這個(gè)目標(biāo)函數(shù)的輸出作為分類的依據(jù)。輸入即為文本在各個(gè)特征上的各分量值。v神經(jīng)網(wǎng)絡(luò)實(shí)際上是一組連接的輸入/輸出單元,其中每一個(gè)連接都具有一定的權(quán)值。通過訓(xùn)練集來訓(xùn)練的過程就是調(diào)整這些權(quán)值的過程,使得神經(jīng)網(wǎng)絡(luò)可以正確的預(yù)測類別。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是針對訓(xùn)練例逐個(gè)進(jìn)行的,所以神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集可以隨時(shí)添加,不需要重新進(jìn)行訓(xùn)練就可完成網(wǎng)絡(luò)的調(diào)整。v同時(shí)有實(shí)驗(yàn)結(jié)果表明,在訓(xùn)
46、練例過少的情況下,神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率較低。因?yàn)榭赏ㄟ^訓(xùn)練來針對特征取一定的合適的權(quán)值,神經(jīng)網(wǎng)絡(luò)可以較好地抵御噪音的干擾。 因此有必要建立“白化”機(jī)制,用規(guī)則解釋網(wǎng)絡(luò)的權(quán)值矩陣,為決策支持和數(shù)據(jù)挖掘提供說明。v通常有兩種解決方法:v方法一,建立一個(gè)基于規(guī)則的系統(tǒng)輔助。神經(jīng)網(wǎng)絡(luò)運(yùn)行的同時(shí),將其輸入和輸出模式給基于規(guī)則的系統(tǒng),然后用反向關(guān)聯(lián)完成網(wǎng)絡(luò)的推理過程,這種方法把網(wǎng)絡(luò)的運(yùn)行過程和解釋過程用兩套系統(tǒng)實(shí)現(xiàn),開銷大,不夠靈活;v方法二,直接從訓(xùn)練好的網(wǎng)絡(luò)中提取(分類)規(guī)則。這是當(dāng)前數(shù)據(jù)挖掘使用得比較多的方法。v網(wǎng)絡(luò)中的采掘規(guī)則,主要有兩種:v網(wǎng)絡(luò)結(jié)構(gòu)分解的規(guī)則提取和由神經(jīng)網(wǎng)絡(luò)的非線性映射關(guān)系提取規(guī)則。其中,網(wǎng)絡(luò)結(jié)構(gòu)分解的規(guī)則提取以神經(jīng)網(wǎng)絡(luò)的隱層結(jié)點(diǎn)和輸出層結(jié)點(diǎn)為研究對象,把整個(gè)網(wǎng)絡(luò)分解為許多單層子網(wǎng)的組合。研究較簡單的子網(wǎng),便于從中挖掘知識。v對于大規(guī)模網(wǎng)絡(luò),在提取規(guī)則前,需要對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行剪枝和刪除冗余結(jié)點(diǎn)等預(yù)處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國過渡配件行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 2025-2030年中國貴金屬鹽廢料行業(yè)市場發(fā)展分析與發(fā)展趨勢及投資風(fēng)險(xiǎn)研究報(bào)告
- 2025-2030年中國虛擬管道與即插即用CNG系統(tǒng)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 2025年花草種項(xiàng)目提案報(bào)告模板
- 2024年三亞市公務(wù)員考試行測試卷歷年真題附答案詳解(考試直接用)
- 2024年黔西南州公務(wù)員考試行測真題及答案詳解1套
- 生物降解性研究方法基礎(chǔ)知識點(diǎn)歸納
- 2024年清遠(yuǎn)市公務(wù)員考試行測試卷歷年真題及一套參考答案詳解
- 2025年農(nóng)業(yè)灌溉用水高效利用與農(nóng)業(yè)節(jié)水灌溉技術(shù)市場潛力分析報(bào)告
- 2024年廈門市公務(wù)員考試行測真題及答案詳解(奪冠)
- 2025年全國普通高校招生全國統(tǒng)一考試數(shù)學(xué)試卷(新高考Ⅰ卷)含答案
- T/CSPSTC 75-2021微動探測技術(shù)規(guī)程
- 【KAWO科握】2025年中國社交媒體平臺指南報(bào)告
- 【語文】第23課《“蛟龍”探海》課件 2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 大部分分校:地域文化形考任務(wù)一-國開(CQ)-國開期末復(fù)習(xí)資料
- 2024年江蘇省南通市中考地理試題(含答案)
- 2024年上海市中考數(shù)學(xué)真題試卷及答案解析
- 哈爾濱市道路交通安全管理辦法
- 油變使用說明書
- 涉農(nóng)貸款客戶貸后管理操作規(guī)范
- ISO9001表單英文版
評論
0/150
提交評論