數(shù)據(jù)科學(xué)導(dǎo)論南開大學(xué)_第1頁(yè)
數(shù)據(jù)科學(xué)導(dǎo)論南開大學(xué)_第2頁(yè)
數(shù)據(jù)科學(xué)導(dǎo)論南開大學(xué)_第3頁(yè)
數(shù)據(jù)科學(xué)導(dǎo)論南開大學(xué)_第4頁(yè)
數(shù)據(jù)科學(xué)導(dǎo)論南開大學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)科學(xué)導(dǎo)論課程一、客觀部分:(單項(xiàng)選擇、判斷)(一)、選擇部分1、通過構(gòu)造新的指標(biāo)-線損率,當(dāng)超出線損率的正常范圍,則可以判斷這條線路的用戶可能存在竊漏電等異常行為屬于數(shù)據(jù)變換中的(C)A.簡(jiǎn)單函數(shù)變換B.規(guī)范化C.屬性構(gòu)造D.連續(xù)屬性離散化2、實(shí)體識(shí)別屬于以下哪個(gè)過程(B)A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)規(guī)約D.數(shù)據(jù)變換3、數(shù)據(jù)質(zhì)量檢驗(yàn)的主要任務(wù)就是檢查原始數(shù)據(jù)中是否存在“臟數(shù)據(jù)”,概括性來說,臟數(shù)據(jù)不包括以下(A)A.普通值B.異常值C.不一致的值D.重復(fù)值4、決策樹在什么情況下結(jié)點(diǎn)需要?jiǎng)澐郑―)A.當(dāng)前結(jié)點(diǎn)所包含的樣本全屬于同一類別B.當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同C

2、.當(dāng)前結(jié)點(diǎn)包含的樣本集為空D.還有子集不能被基本正確分類5、系統(tǒng)日志收集的基本特征不包括(D)A.高可用性B.高可靠性C.可擴(kuò)展性D.高效率6、k近鄰法的基本要素不包括(C)。A.距離度量B.k值的選擇C.樣本大小D.分類決策規(guī)則7、一元回歸參數(shù)估計(jì)的參數(shù)求解方法不包括(D)A.最大似然法B.距估計(jì)法C.最小二乘法D.歐式距離法8、下列選項(xiàng)不是BFR的對(duì)象是(B)A.廢棄集B.臨時(shí)集C.壓縮集D.留存集9、聚類的主要方法不包括(D)A.劃分聚類B.層次聚類C.密度聚類D.距離聚類10、以下哪一項(xiàng)不是特征選擇常見的方法(D)A.過濾式B.封裝式C.嵌入式D.開放式11、以下哪一項(xiàng)不是特征工程的子

3、問題(D)A.特征創(chuàng)建B.特征提取C.特征選擇D.特征識(shí)別12、比如一張表,從業(yè)務(wù)上講,一個(gè)用戶應(yīng)該只會(huì)有一條記錄,那么如果某個(gè)用戶出現(xiàn)了超過一條的記錄,這就產(chǎn)生了(C)A.異常值B.不一致的值C.重復(fù)值D.缺失值13、對(duì)于相似性與相異性的度量方法,基于距離的方法,以下哪一項(xiàng)不符合要求(D)A.歐氏距離B.曼哈頓距離C.馬氏距離D.對(duì)角距離14、通過變量標(biāo)準(zhǔn)化計(jì)算得到的回歸方程稱為(A)。A.標(biāo)準(zhǔn)化回歸方程B.標(biāo)準(zhǔn)化偏回歸方程C.標(biāo)準(zhǔn)化自回歸方程D.標(biāo)準(zhǔn)化多回歸方程D)。15、一元線性回歸中,真實(shí)值與預(yù)測(cè)值的差稱為樣本的(A.誤差B.方差C.測(cè)差D.殘差16、在回歸分析中,自變量為(),因變量

4、為(D)。A.離散型變量,離散型變量B.連續(xù)型變量,離散型變量C.離散型變量,連續(xù)型變量D.連續(xù)型變量,連續(xù)型變量17、為了解決任何復(fù)雜的分類問題,使用的感知機(jī)結(jié)構(gòu)應(yīng)至少包含(B)個(gè)隱含層。A.1B.2C.3D.418、BF咪類用于在(A)歐氏空間中對(duì)數(shù)據(jù)進(jìn)行聚類A.高維B.中維C.低維D.中高維19、層次聚類對(duì)給定的數(shù)據(jù)進(jìn)行(B)的分解。A.聚合B.層次C.分拆D.復(fù)制(二)、判斷部分1、當(dāng)維度增加時(shí),特征空間的體積增加得很快,使得可用的數(shù)據(jù)變得稀疏。(,)2、數(shù)據(jù)分析師的任務(wù):用模型來回答具體問題,了解數(shù)據(jù),其來源和結(jié)構(gòu)。(X)3、探索性數(shù)據(jù)分析的特點(diǎn)是研究從原始數(shù)據(jù)入手,完全以實(shí)際數(shù)據(jù)為

5、依據(jù)。(,)4、特征的信息增益越大,則其越重要。(V)5、隨著特征維數(shù)的增加,樣本間區(qū)分度提高。(X)6、多層感知機(jī)的學(xué)習(xí)能力有限,只能處理線性可分的二分類問題。(X)7、給定一組點(diǎn),使用點(diǎn)之間的距離概念,將點(diǎn)分組為若干簇,不同簇的成員不可以相同。(,)8、給定關(guān)聯(lián)規(guī)則QB,意味著:若A發(fā)生,B也會(huì)發(fā)生。(X)9、Jaccard系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問題。(,)10、集中趨勢(shì)能夠表明在一定條件下數(shù)據(jù)的獨(dú)特性質(zhì)與差異。(x)11、利用K近鄰法進(jìn)行分類時(shí),使用不同的距離度量所確定的最近鄰點(diǎn)都是相同的。(X)12、利用K近鄰法進(jìn)行分類時(shí),k值過小容易發(fā)生過擬合現(xiàn)象。(,)13、神

6、經(jīng)網(wǎng)絡(luò)中誤差精度的提高可以通過增加隱含層中的神經(jīng)元數(shù)目來實(shí)現(xiàn)。(V)14、單層感知機(jī)對(duì)于線性不可分的數(shù)據(jù),學(xué)習(xí)過程也可以收斂。(X)15、聚合方法是自底向上的方法。(,)16、如果一個(gè)候選集至少有一個(gè)子集是非頻繁的,根據(jù)支持度的反單調(diào)屬性,這樣的候選項(xiàng)集肯定是非頻繁的。(,)17、在k近鄰方法中,k值增大意味著整體模型變得復(fù)雜。(x)18、樸素貝葉斯分類器有簡(jiǎn)單、高效、健壯的特點(diǎn),但某些屬性可能會(huì)降低分類。、主觀部分:(一)、填空部分1、二分類問題常用的評(píng)價(jià)指標(biāo)是精確率、召回率2、樸素貝葉斯分類器建立在一個(gè)類條件獨(dú)立性假設(shè)基礎(chǔ)之上。3、在決策樹生成算法中,最關(guān)鍵的是如何在每一輪的迭代中選擇最優(yōu)

7、特征。4、一個(gè)關(guān)聯(lián)規(guī)則同時(shí)滿足最小支持度和最小置信度,我們稱之為強(qiáng)關(guān)聯(lián)規(guī)則。5、數(shù)據(jù)科學(xué)的過程包括獲取數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索、數(shù)據(jù)建模、結(jié)果展示。6、Pearson線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正本分布。7、歐氏距離越小,兩個(gè)點(diǎn)的相似度就越大,歐氏距離越大,兩個(gè)點(diǎn)的相似度就越小。8、數(shù)據(jù)散度分析表示一組數(shù)據(jù)離數(shù)據(jù)中心的距離,多用標(biāo)準(zhǔn)差、方差以及極差進(jìn)行衡量。9、在k近鄰法中,選擇較大的k值時(shí),學(xué)習(xí)的“近似誤差”會(huì),“估計(jì)誤差”會(huì)減小。10、在k近鄰法中,通常采用交叉驗(yàn)證法來選取最優(yōu)的k值。11、劃分聚類采取互斥簇的劃分.即每個(gè)對(duì)象必須恰好屬于一個(gè)1。12、在線性回歸分析中,根據(jù)自變量的

8、維度不同可以分為一維和d維。13、反向的基本思想為,通過輸出層得到輸出結(jié)果和期望輸出的誤差,間接調(diào)整隱含層的權(quán)值。14、多層感知機(jī)中,隱含層和輸出層都是擁有激活函數(shù)的功能神經(jīng)元。15、神經(jīng)網(wǎng)絡(luò)中最基本的成分是神經(jīng)元模型。16、密度分類法中,單維的變量可以通過其分布峰的個(gè)數(shù)來確定K值。17、在聚類中,使用距離測(cè)量來定義相似性18、Apriori核心算法有兩個(gè)關(guān)鍵步驟為連接步和剪枝步。(二)、簡(jiǎn)答1、為什么需要標(biāo)準(zhǔn)化偏回歸系數(shù)?標(biāo)準(zhǔn)化偏回歸系數(shù)與普通的偏回歸系數(shù)之間的關(guān)系是什么?在實(shí)際問題中,各自變量都有各自的計(jì)量單位以及不同的變異程度,所以不能直接用普通的偏回歸系數(shù)的大小來比較方程中各個(gè)自變量對(duì)

9、因變量?的影響大小,可以利用標(biāo)準(zhǔn)化偏回歸系數(shù)來衡量。通過變量標(biāo)準(zhǔn)化計(jì)算得到的回歸方程稱為標(biāo)準(zhǔn)化回歸方程,相應(yīng)的回歸系數(shù)即為標(biāo)準(zhǔn)化偏回歸系數(shù)。標(biāo)準(zhǔn)化偏回歸系數(shù)與普通的偏回歸系數(shù)關(guān)系如下:?=q?其中??<2?2、簡(jiǎn)單介紹決策樹算法流程決策樹算法流程:1 .首先計(jì)算訓(xùn)練數(shù)據(jù)集的信息嫡;2 .計(jì)算各特征對(duì)數(shù)據(jù)集的信息增益;3 .選取信息增益最大的特征為最優(yōu)特征;4 .將數(shù)據(jù)集按照最優(yōu)特征進(jìn)行劃分;5 .循環(huán)2,3,4直到結(jié)點(diǎn)不能劃分。3、一般的關(guān)聯(lián)規(guī)則學(xué)習(xí)的步驟是什么?關(guān)聯(lián)規(guī)則學(xué)習(xí)的步驟:1 .找出所有的頻繁項(xiàng)集;2 .根據(jù)頻繁項(xiàng)集生成頻繁規(guī)則;3 .根據(jù)置信度等指標(biāo)進(jìn)一步過濾篩選規(guī)則;4、請(qǐng)

10、簡(jiǎn)述K-means聚類的優(yōu)缺點(diǎn)。優(yōu)點(diǎn):容易實(shí)現(xiàn)。缺點(diǎn):可能收斂到局部最小值,在大規(guī)模數(shù)據(jù)集上收斂較慢。5、請(qǐng)簡(jiǎn)述在使用反向傳播算法訓(xùn)練多層感知機(jī)時(shí),應(yīng)該如何設(shè)置學(xué)習(xí)的停止條件?在使用反向傳播算法訓(xùn)練多層感知機(jī)時(shí),設(shè)置學(xué)習(xí)的停止條件常見的方法有兩種。第一種為設(shè)置最大迭代次數(shù),比如使用數(shù)據(jù)集迭代100次后停止訓(xùn)練;第二種為將數(shù)據(jù)分為訓(xùn)練集與驗(yàn)證集,當(dāng)訓(xùn)練集的誤差降低而驗(yàn)證集的誤差升高,則停止訓(xùn)練。6、請(qǐng)簡(jiǎn)述k近鄰法中k的取值對(duì)模型的影響。對(duì)于k近鄰法中k的取值:選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),學(xué)習(xí)的“近似誤差”會(huì)減小,“估計(jì)誤差”會(huì)增大,預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。

11、k值減小意味著整體模型變得復(fù)雜,容易發(fā)生過擬合。選擇較大的k值,學(xué)習(xí)的“近似誤差”會(huì)增大,“估計(jì)誤差”會(huì)減小,與輸入實(shí)例較遠(yuǎn)(不相似)的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用。k值增大意味著整體模型變得簡(jiǎn)單。在應(yīng)用中,k值一般取一個(gè)比較小的數(shù)值,通常采用交叉驗(yàn)證法來選取最優(yōu)7、簡(jiǎn)答特征選擇的四個(gè)步驟?特征選擇的四個(gè)步驟:1 .子集產(chǎn)生2 .子集評(píng)估3 .停止條件4 .子集驗(yàn)證8、探索性數(shù)據(jù)分析有哪些特點(diǎn)?探索性數(shù)據(jù)分析的特點(diǎn):1 .研究從原始數(shù)據(jù)入手,完全以實(shí)際數(shù)據(jù)為依據(jù);2 .分析方法從實(shí)際出發(fā),不以某種理論為依據(jù);3 .分析工具簡(jiǎn)單直觀,更易于普及。9、單變量分析的方法主要包括非圖形化方法和圖形化方法兩

12、種,其中非圖形化方法中主要求出哪些常量?非圖形化方法中主要求出的變量有:均值、方差、標(biāo)準(zhǔn)差和峰度系數(shù)10、請(qǐng)簡(jiǎn)述,對(duì)于多層感知機(jī),為什么無法通過簡(jiǎn)單感知機(jī)的學(xué)習(xí)規(guī)則對(duì)隱含層進(jìn)行誤差估計(jì)。因?yàn)閷?duì)于各隱含層的節(jié)點(diǎn)來說,它們并不直接與外界相連,即不存在期望輸出。所以無法通過簡(jiǎn)單感知機(jī)的學(xué)習(xí)規(guī)則對(duì)隱含層進(jìn)行誤差估計(jì)。(三)、計(jì)算題1、已知二維空間有三個(gè)點(diǎn)xi=(2,1)T,X2=(5,4)T,X3=(6,2)T要求:求出在??=1,2,3時(shí),??&E離下??的最近鄰點(diǎn),并得出相應(yīng)結(jié)論?E離計(jì)算公式如下:1?/???=(匯|?以-?|)?=1p=1時(shí),Ll(xi,X2)=經(jīng)1|x1"-

13、x2"|=6,Li(xi,X3)=年1|x(l)-x(3l)|=5>,此時(shí)最近鄰點(diǎn)為x3;p=2時(shí),L1(x1,x2)=(X2=1|x1"-1x3l)|)=4.12,此時(shí)最近鄰點(diǎn)為x3;p=3時(shí),L1(x1,x2)=(墓1|x(l)-1x3l)|)=4.02,此時(shí)最近鄰點(diǎn)為x2;1x2l)|)2=4.24,L1(x1,x3)=(經(jīng)1|x(l)-1(l)33(l)x2|)=3.78,L1(x1,x3)=("1|x1)-由此可知,由不同的距離度量所確定的最近鄰點(diǎn)是不同的2、設(shè)變量?膏口?的普通線性回歸方程為??=4?-0.5?+22,其中??的標(biāo)準(zhǔn)差?語1=0.

14、2,?的標(biāo)準(zhǔn)差?枷=2.5,?勺標(biāo)準(zhǔn)差??=0.8。要求:請(qǐng)寫出y,?萬口??的標(biāo)準(zhǔn)化回歸方程,并分析??和??哪個(gè)變量對(duì)??勺影響強(qiáng)度更大。標(biāo)準(zhǔn)化偏回歸系數(shù)與普通的偏回歸系數(shù)關(guān)系為SjWj=Wj()4y因此,,4x1、W1=W1(G)Sy0.2=4X0.8W2=W2=-0.52.5=0.8-1.5625因此標(biāo)準(zhǔn)化回歸方程為y=x1-1.5625x2+22從標(biāo)準(zhǔn)化偏回歸系數(shù)可以看出|W1|<|w2|,由此可知x2對(duì)y的影響強(qiáng)度更大(四)、論述題1、在特征選擇問題上,貪心算法依據(jù)搜索策略的不同可以分為幾種?并簡(jiǎn)述每種策略是如何進(jìn)行的?貪心算法依據(jù)搜索策H&的不同可以分為3種,分別是前向搜索、后向搜索和雙向搜索。前向搜索:特征子集從空集產(chǎn)生,迭代的從特征全集中選擇特征加入子集。只能加入特征而不能去除特征。后向搜索:特征子集從全集產(chǎn)生,迭代的從子集中刪除無關(guān)或冗余的特征。只能去除特征不能加入特征。雙向搜索:從某個(gè)隨機(jī)的特征子集開始,使用前向搜索向子集中增加新特征,同時(shí)使用后向搜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論