數(shù)據(jù)挖掘考試題庫(kù)完整_第1頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第2頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第3頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第4頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘考試題庫(kù)完整一、填空題1.web挖掘可分為、和3大類。2.數(shù)據(jù)倉(cāng)庫(kù)需要統(tǒng)一數(shù)據(jù)源,包括統(tǒng)一、統(tǒng)一、統(tǒng)一和統(tǒng)一數(shù)據(jù)特征4個(gè)方面。3.數(shù)據(jù)分割通常按時(shí)間、以及組合方法進(jìn)展。4.噪聲數(shù)據(jù)處理的方法主要有、和。5.數(shù)值歸約的常用方法有、和對(duì)數(shù)模型等。6.評(píng)價(jià)關(guān)聯(lián)規(guī)章的2個(gè)主要指標(biāo)是和。7.多維數(shù)據(jù)集通常采納或雪花型架構(gòu),以表為中心,連接多個(gè)表。8.決策樹(shù)是用作為結(jié)點(diǎn),用作為分支的樹(shù)構(gòu)造。9.關(guān)聯(lián)可分為簡(jiǎn)潔關(guān)聯(lián)、和。10.b p神經(jīng)網(wǎng)絡(luò)的作用函數(shù)通常為區(qū)間的。11.數(shù)據(jù)挖掘的過(guò)程主要包括確定業(yè)務(wù)對(duì)象、及學(xué)問(wèn)同化等幾個(gè)步驟。12.數(shù)據(jù)挖掘技術(shù)主要涉及、和3個(gè)技術(shù)領(lǐng)域。13.數(shù)據(jù)挖掘的主要功能包括、

2、趨勢(shì)分析、孤立點(diǎn)分析和偏差分析7個(gè)方面。14.人工神經(jīng)網(wǎng)絡(luò)具有和等特點(diǎn),其構(gòu)造模型包括、和自組織網(wǎng)絡(luò)3種。15.數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的4個(gè)根本特征是、非易失、隨時(shí)間改變。16.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)通常劃分為、和等幾個(gè)級(jí)別。17.數(shù)據(jù)預(yù)處理的主要容(方法)包括、和數(shù)據(jù)歸約等。18.平滑分箱數(shù)據(jù)的方法主要有、和。19.數(shù)據(jù)挖掘發(fā)覺(jué)學(xué)問(wèn)的類型主要有廣義學(xué)問(wèn)、和偏向型學(xué)問(wèn)五種。20.o lap的數(shù)據(jù)組織方式主要有和兩種。21.常見(jiàn)的olap多維數(shù)據(jù)分析包括、和旋轉(zhuǎn)等操作。22.傳統(tǒng)的決策支持系統(tǒng)是以和驅(qū)動(dòng),而新決策支持系統(tǒng)那么是以、建立在和技術(shù)之上。23.o lap的數(shù)據(jù)組織方式主要有和2種。24.s ql ser

3、ver2000的olap組件叫,olap操作窗口叫。25.b p神經(jīng)網(wǎng)絡(luò)由、以及一或多個(gè)結(jié)點(diǎn)組成。26.遺傳算法包括、3個(gè)根本算子。27.聚類分析的數(shù)據(jù)通常可分為區(qū)間標(biāo)度變量、序數(shù)型以及混合類型等。28.聚類分析中最常用的間隔 計(jì)算公式有、等。29.基于劃分的聚類算法有和。30.c lementine的工作流通常由、和等節(jié)點(diǎn)連接而成。31.簡(jiǎn)潔地說(shuō),數(shù)據(jù)挖掘就是從中挖掘的過(guò)程。32.數(shù)據(jù)挖掘相關(guān)的名稱還有、等。二、推斷題( )1.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量越大,其應(yīng)用價(jià)值也越大。( )2.啤酒與尿布的故事是聚類分析的典型實(shí)例。( )3.等深分箱法使每個(gè)箱子的記錄個(gè)數(shù)一樣。( )4.數(shù)據(jù)倉(cāng)庫(kù)“粒度越細(xì),記

4、錄數(shù)越少。( )5.數(shù)據(jù)立方體由3維構(gòu)成,z軸表示事實(shí)數(shù)據(jù)。( )6.決策樹(shù)方法通常用于關(guān)聯(lián)規(guī)章挖掘。( )7.id3算法是決策樹(shù)方法的早期代表。( )8.c4.5是一種典型的關(guān)聯(lián)規(guī)章挖掘算法。( )9.回來(lái)分析通常用于挖掘關(guān)聯(lián)規(guī)章。( )10.人工神經(jīng)網(wǎng)絡(luò)特殊合適解決多參數(shù)大冗雜度問(wèn)題。( )11.概念關(guān)系分析是文本挖掘所獨(dú)有的。( )12.可信度是對(duì)關(guān)聯(lián)規(guī)章的精確度的衡量。( )13.孤立點(diǎn)在數(shù)據(jù)挖掘時(shí)總是被視為異樣、無(wú)用數(shù)據(jù)而丟棄。( )14.sql server 2000不供應(yīng)關(guān)聯(lián)規(guī)章挖掘算法。( )15.clementine是ibm公司的專業(yè)級(jí)數(shù)據(jù)挖掘軟件。( )16.決策樹(shù)方法特殊

5、合適于處理數(shù)值型數(shù)據(jù)。( )17.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)為歷史數(shù)據(jù),從來(lái)不需要更新。( )18.等寬分箱法使每個(gè)箱子的取值區(qū)間一樣。( )19.數(shù)據(jù)立方體是廣義學(xué)問(wèn)發(fā)覺(jué)的方法和技術(shù)之一。( )20.數(shù)據(jù)立方體的其中一維用于記錄事實(shí)數(shù)據(jù)。( )21.決策樹(shù)通常用于分類與預(yù)報(bào)。( )22.apriori算法是一種典型的關(guān)聯(lián)規(guī)章挖掘算法。( )23.支持度是衡量關(guān)聯(lián)規(guī)章重要性的一個(gè)指標(biāo)。( )24.sql server 2000集成了olap,但不具有數(shù)據(jù)挖掘功能。( )25.人工神經(jīng)網(wǎng)絡(luò)常用于分類與預(yù)報(bào)。三、名詞說(shuō)明1.數(shù)據(jù)倉(cāng)庫(kù):是一種新的數(shù)據(jù)處理體系構(gòu)造,是面對(duì)主題的、集成的、不行更新的(穩(wěn)定性)、隨時(shí)

6、間不斷改變(不同時(shí)間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)供應(yīng)所需的集成信息。2.孤立點(diǎn):指數(shù)據(jù)庫(kù)中包含的一些與數(shù)據(jù)的一般行為或模型不全都的異樣數(shù)據(jù)。3.olap:olap是在oltp的根底上進(jìn)展起來(lái)的,以數(shù)據(jù)倉(cāng)庫(kù)為根底的數(shù)據(jù)分析處理,是共享多維信息的快速分析,是被特地設(shè)計(jì)用于支持冗雜的分析操作,側(cè)重對(duì)分析人員和高層管理人員的決策支持。4.粒度:指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能答復(fù)查詢問(wèn)題的詳情程度。5.數(shù)據(jù)規(guī)化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個(gè)特定的區(qū)域如01以進(jìn)步數(shù)據(jù)挖掘效率的方法。規(guī)化的常用方法有:

7、最大最小規(guī)化、零均值規(guī)化、小數(shù)定標(biāo)規(guī)化。6.關(guān)聯(lián)學(xué)問(wèn):是反映一個(gè)大事和其他大事之間依靠或互相關(guān)聯(lián)的學(xué)問(wèn)。假如兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以根據(jù)其他屬性值進(jìn)展預(yù)報(bào)。7.數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和學(xué)問(wèn)的過(guò)程。8.oltp:oltp為聯(lián)機(jī)事務(wù)處理的縮寫(xiě),olap是聯(lián)機(jī)分析處理的縮寫(xiě)。前者是以數(shù)據(jù)庫(kù)為根底的,面對(duì)的是操作人員和低層管理人員,對(duì)根本數(shù)據(jù)進(jìn)展查詢和增、刪、改等處理。9.rolap:是基于關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)方式的,在這種構(gòu)造中,多維數(shù)據(jù)被映像成二維關(guān)系表,通常采納星型或雪花型架構(gòu)

8、,由一個(gè)事實(shí)表和多個(gè)維度表構(gòu)成。10.molap:是基于類似于“超立方塊的olap存儲(chǔ)構(gòu)造,由很多經(jīng)壓縮的、類似于多維數(shù)組的對(duì)象構(gòu)成,并帶有高度壓縮的索引及指針構(gòu)造,通過(guò)挺直偏移計(jì)算進(jìn)展存取。11.數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值圍,使其更合適于數(shù)據(jù)挖掘算法的需要,并且可以得到和原始數(shù)據(jù)一樣的分析結(jié)果。12.廣義學(xué)問(wèn):通過(guò)對(duì)大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普遍性的、概括性的描繪統(tǒng)計(jì)的學(xué)問(wèn)。13.預(yù)報(bào)型學(xué)問(wèn):是依據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推想將來(lái)的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)學(xué)問(wèn)。14.偏向型學(xué)問(wèn):是對(duì)差異和極端特例的描繪,用于提醒事物偏離常規(guī)的異樣現(xiàn)象,如標(biāo)準(zhǔn)類外的特例

9、,數(shù)據(jù)聚類外的離群值等。15.遺傳算法:是一種優(yōu)化搜尋算法,它首先產(chǎn)生一個(gè)初始可行解群體,然后對(duì)這個(gè)群體通過(guò)模擬生物進(jìn)化的選擇、穿插、變異等遺傳操作遺傳到下一代群體,并最終到達(dá)全局最優(yōu)。16.聚類:是將物理或抽象對(duì)象的集合分組成為多個(gè)類或簇(cluster)的過(guò)程,使得在同一個(gè)簇中的對(duì)象之間具有較高的相像度,而不同簇中的對(duì)象差異較大。17.決策樹(shù):是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹(shù)構(gòu)造。它是分類規(guī)章挖掘的典型方法,可用于對(duì)新樣本進(jìn)展分類。18.相異度矩陣:是聚類分析中用于表示各對(duì)象之間相異度的一種矩陣,n個(gè)對(duì)象的相異度矩陣是一個(gè)nn維的單模矩陣,其對(duì)角線元素均為0,對(duì)角線兩側(cè)元素

10、的值一樣。19.頻繁項(xiàng)集:指滿足最小支持度的項(xiàng)集,是挖掘關(guān)聯(lián)規(guī)章的根本條件之一。20.支持度:規(guī)章ab的支持度指的是全部大事中a與b同地發(fā)生的的概率,即p(ab),是ab同時(shí)發(fā)生的次數(shù)與大事總次數(shù)之比。支持度是對(duì)關(guān)聯(lián)規(guī)章重要性的衡量。21.可信度:規(guī)章ab的可信度指的是包含a項(xiàng)集的同時(shí)也包含b項(xiàng)集的條件概率p(b|a),是ab同時(shí)發(fā)生的次數(shù)與a發(fā)生的全部次數(shù)之比。可信度是對(duì)關(guān)聯(lián)規(guī)章的精確度的衡量。22.關(guān)聯(lián)規(guī)章:同時(shí)滿足最小支持度閾值和最小可信度閾值的規(guī)章稱之為關(guān)聯(lián)規(guī)章。四、綜合題1.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事

11、先不知道的、但又是潛在有用的信息和學(xué)問(wèn)的過(guò)程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有學(xué)問(wèn)發(fā)覺(jué)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描繪、關(guān)聯(lián)分析、分類與預(yù)報(bào)、聚類分析、趨勢(shì)分析、孤立點(diǎn)分析以及偏向分析等。2.何謂數(shù)據(jù)倉(cāng)庫(kù)?為什么要建立數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)是一種新的數(shù)據(jù)處理體系構(gòu)造,是面對(duì)主題的、集成的、不行更新的(穩(wěn)定性)、隨時(shí)間不斷改變(不同時(shí)間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)供應(yīng)所需的集成信息。建立數(shù)據(jù)倉(cāng)庫(kù)的目的有3個(gè):一是為理解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問(wèn)題,數(shù)據(jù)倉(cāng)庫(kù)能供應(yīng)比傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對(duì)數(shù)據(jù)的特別需求問(wèn)題。決策分析需要全面的、正確的

12、集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)不能挺直供應(yīng)的。三是解決決策分析對(duì)數(shù)據(jù)的特別操作要求。決策分析是面對(duì)專業(yè)用戶而非一般業(yè)務(wù)員,需要用法專業(yè)的分析工具,對(duì)分析結(jié)果還要以商業(yè)智能的方式進(jìn)展表現(xiàn),這是事務(wù)數(shù)據(jù)庫(kù)不能供應(yīng)的。3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)分。4.何謂oltp和olap?它們的主要異同有哪些?oltp即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫(kù)為根底、面對(duì)操作人員和低層管理人員、對(duì)根本數(shù)據(jù)進(jìn)展查詢和增、刪、改等的日常事務(wù)處理。olap即聯(lián)機(jī)分析處理,是在oltp根底上進(jìn)展起來(lái)的、以數(shù)據(jù)倉(cāng)庫(kù)根底上的、面對(duì)高層管理人員和專業(yè)分析人員、為企業(yè)決策支持效勞。oltp和olap的主要區(qū)分如下表:5.粒度是指數(shù)

13、據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能答復(fù)查詢問(wèn)題的詳情程度。按粒度組織數(shù)據(jù)的方式主要有:簡(jiǎn)潔積累構(gòu)造輪轉(zhuǎn)綜合構(gòu)造簡(jiǎn)潔挺直構(gòu)造連續(xù)構(gòu)造6.簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)模型及其根本容。概念模型設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì),其主要容包括:界定系統(tǒng)邊界和確定主要的主題域。規(guī)律模型設(shè)計(jì)的主要容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系形式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計(jì)的主要容包括:確定數(shù)據(jù)存儲(chǔ)構(gòu)造、確定數(shù)據(jù)存放位置、確定存儲(chǔ)安排以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)主要考慮的因素有: i/o存取時(shí)間、空間利用率和

14、維護(hù)代價(jià)等。進(jìn)步性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。7.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)展預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),它們的構(gòu)造和規(guī)章可能是不同的,這將導(dǎo)致原始數(shù)據(jù)特別的雜亂、不行用,即使在同一個(gè)數(shù)據(jù)庫(kù)中,也可能存在重復(fù)的和不完好的數(shù)據(jù)信息,為了使這些數(shù)據(jù)可以符合數(shù)據(jù)挖掘的要求,進(jìn)步效率和得到清楚的結(jié)果,必需進(jìn)展數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法供應(yīng)完好、潔凈、精確、有針對(duì)性的數(shù)據(jù),削減算法的計(jì)算量,進(jìn)步挖掘效率和精確程度。8.簡(jiǎn)述數(shù)據(jù)預(yù)處理方法和容。數(shù)據(jù)清洗:包括填充空缺值,識(shí)別孤立點(diǎn),去掉噪聲和無(wú)關(guān)數(shù)據(jù)。數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)全都的數(shù)據(jù)存儲(chǔ)中。需要留意不同數(shù)據(jù)源的數(shù)據(jù)匹配問(wèn)題、數(shù)值沖突問(wèn)題和冗余問(wèn)題等。數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為合適數(shù)據(jù)挖掘的形式。包括對(duì)數(shù)據(jù)的匯總、聚集、概化、規(guī)化,還可能需要進(jìn)展屬性的重構(gòu)。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值圍,使其更合適于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)一樣的分析結(jié)果。9.簡(jiǎn)述數(shù)據(jù)清理的根本容。盡可能給予屬性名和屬性值明確的含義;統(tǒng)一多數(shù)據(jù)源的屬性值編碼;去除無(wú)用的惟一屬性或鍵值(如自動(dòng)增長(zhǎng)的id);去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,但在某些時(shí)候它們可能又是同時(shí)需要的)去除可忽視字段(大局部為空值的屬性一般是沒(méi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論