MOOC 數據挖掘與python實踐-中央財經大學 中國大學慕課答案_第1頁
MOOC 數據挖掘與python實踐-中央財經大學 中國大學慕課答案_第2頁
MOOC 數據挖掘與python實踐-中央財經大學 中國大學慕課答案_第3頁
MOOC 數據挖掘與python實踐-中央財經大學 中國大學慕課答案_第4頁
MOOC 數據挖掘與python實踐-中央財經大學 中國大學慕課答案_第5頁
已閱讀5頁,還剩56頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

MOOC數據挖掘與python實踐-中央財經大學中國大學慕課答案第一單元測驗1、問題:數據挖掘又稱從數據中發現知識,后者英文簡稱為()。選項:A、KPPB、KDPC、KDDD、KPD正確答案:【KDD】2、問題:數據挖掘又稱從數據中發現知識,前者英文簡稱為()。選項:A、KPPB、DMC、KDDD、DD正確答案:【DM】3、問題:一般數據挖掘的流程順序,下列正確的是()。①選擇數據挖掘的技術、功能和合適的算法②選擇數據,數據清洗和預處理③了解應用領域,了解相關的知識和應用目標④尋找感興趣的模式、模式評估、知識表示⑤創建目標數據集選項:A、③④①⑤②B、⑤④②①③C、③②⑤①④D、③⑤②①④正確答案:【③⑤②①④】4、問題:結構化的數據是指一些數據通過統一的()的形式存儲的,這類數據我們稱為結構化的數據。選項:A、文檔B、二維表格C、圖像D、聲音正確答案:【二維表格】5、問題:數值預測用于連續變量的取值,常用的預測方法是()。選項:A、回歸分析B、聚類C、關聯D、分類正確答案:【回歸分析】6、問題:下列應用場景不屬于分類的是()。選項:A、對信用卡申請者判斷其信譽高低B、醫生根據患者的癥狀判斷所患疾病類型C、推廣新產品時預測已有客戶是否對新產品感興趣D、為了解用戶特點,公司將客戶分群正確答案:【為了解用戶特點,公司將客戶分群】7、問題:Python語言的創始人是()。選項:A、GuidovanRossumB、BillGatesC、SergeyBrinD、LarryPage正確答案:【GuidovanRossum】8、問題:Python科學計算的基本包是()。選項:A、NumpyB、PandasC、Scikit-learnD、Matplotlib正確答案:【Numpy】9、問題:以下Python包中,繪圖功能最強大的是()。選項:A、MatplotlibB、PandasC、Scikit-learnD、Numpy正確答案:【Matplotlib】10、問題:以下Python包中,最適合用于機器學習的是()。選項:A、Scikit-learnB、PandasC、NumpyD、Matplotlib正確答案:【Scikit-learn】11、問題:以下Python包中,提供了DataFrame數據類型的是()。選項:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正確答案:【Pandas】12、問題:為了避免包的依賴關系和系統兼容性等方面出現問題,本課程推薦的Python安裝方式為()。選項:A、通過Anaconda安裝B、直接下載Python安裝C、通過瀏覽器查找處理過的Python安裝包D、直接安裝Pycharm正確答案:【通過Anaconda安裝】13、問題:數據挖掘包括下面哪些方法()。選項:A、分類B、聚類C、關聯D、異常發現正確答案:【分類#聚類#關聯#異常發現】14、問題:數據挖掘和哪些學科領域有關系()。選項:A、統計B、機器學習C、數據庫D、優化正確答案:【統計#機器學習#數據庫#優化】15、問題:聚類針對有標簽的數據。選項:A、正確B、錯誤正確答案:【錯誤】16、問題:分類和回歸都可用于預測,分類的輸出是離散的類別值。選項:A、正確B、錯誤正確答案:【正確】17、問題:分類就是根據物以類聚的原理,將沒有類別的對象根據對象的特征自動聚成不同簇的過程。選項:A、正確B、錯誤正確答案:【錯誤】18、問題:序列分析經常會用在購物籃分析中。選項:A、正確B、錯誤正確答案:【錯誤】19、問題:關聯分析是數據分析中常用的分析方法。選項:A、正確B、錯誤正確答案:【正確】20、填空題:在這個大數據爆炸的時代,我們期待能夠從這些數據中提煉出有用的知識,解決的方法就是數據倉庫技術和技術。正確答案:【數據挖掘】21、填空題:在這個大數據爆炸的時代,我們期待能夠從這些數據中提煉出有用的知識,解決的方法就是技術和數據挖掘技術。正確答案:【數據倉庫】22、填空題:從存儲方式對數據類型進行分類,可分為數據和數據。(輸入兩個位置的答案時,以一個空格作為分隔符)正確答案:【結構化非結構化】23、填空題:預測的模型構建需要來進行分析。正確答案:【歷史數據】24、填空題:就是根據有類別的數據提供的信息,來概括類別的主要特征,構建模型或者規則,根據該模型或者規則預測對象的類別。正確答案:【分類】第二章單元測驗1、問題:下列對學生相關屬性描述中,不是標稱屬性的是()。選項:A、頭發顏色B、婚姻狀況C、身高D、學號正確答案:【身高】2、問題:下列哪些選項能表示序數屬性的數據集中趨勢度量()。選項:A、眾數B、均值C、四分位數D、標準差正確答案:【眾數】3、問題:()可以觀察從一個分布到另一分布是否有漂移。選項:A、直方圖B、散點圖C、盒圖D、分位數-分位數圖正確答案:【分位數-分位數圖】4、問題:4人喜歡服飾的顏色如下,屬性是標稱屬性。李四和孫六的相似性是()。姓名帽子顏色上衣顏色褲子顏色鞋子顏色圍巾顏色張三紅藍藍綠紅李四紅藍藍紅粉王五黃綠藍綠紅孫六藍藍藍紅粉選項:A、1/5B、2/5C、3/5D、4/5正確答案:【4/5】5、問題:度量作為一種測度,滿足以下哪些條件:選項:A、同一性B、對稱性C、三角不等式D、以上均是正確答案:【以上均是】6、問題:Python語言在創始人是()。選項:A、BillGatesB、SergeyBrinC、LarryPageD、GuidovanRossum正確答案:【GuidovanRossum】7、問題:Python科學計算的基本包是()。選項:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正確答案:【Numpy】8、問題:以下Python包中,繪圖功能最強大的是()。選項:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正確答案:【Matplotlib】9、問題:以下Python包中,最適合用于機器學習的是()。選項:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正確答案:【Scikit-learn】10、問題:以下Python包中,提供了DataFrame數據類型的是()。選項:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正確答案:【Pandas】11、問題:為了避免包的依賴關系和系統兼容性等方面出現問題,本課程推薦的Python安裝方式為()。選項:A、直接下載Python安裝B、通過Anaconda安裝C、通過瀏覽器查找處理過的Python安裝包D、直接安裝Pycharm正確答案:【通過Anaconda安裝】12、問題:下列對學生的描述屬性中,標稱屬性的屬性是:選項:A、頭發顏色B、婚姻狀況C、身高D、學號正確答案:【頭發顏色#婚姻狀況#學號】13、問題:下列哪些指標可以度量數據的離散趨勢度量:選項:A、極差B、四分位數C、四分位數極差D、五數概括正確答案:【極差#四分位數#四分位數極差#五數概括】14、問題:在探索性數據分析中,認為最有代表性,最能反映數據重要特征的五數概括,包括:選項:A、中位數Q2B、四分位數Q1C、四分位數Q3D、最小值E、最大值正確答案:【中位數Q2#四分位數Q1#四分位數Q3#最小值#最大值】15、問題:在文獻中,屬性、維、特征和變量通常可以互換地使用。選項:A、正確B、錯誤正確答案:【正確】16、問題:二元屬性是一種特殊的標稱屬性,分為對稱和不對稱兩種。選項:A、正確B、錯誤正確答案:【正確】17、問題:序數屬性的值存在有意義的序。相鄰兩者之間的差是已知的。選項:A、正確B、錯誤正確答案:【錯誤】18、問題:如果屬性不是離散的,則它是連續的。選項:A、正確B、錯誤正確答案:【正確】19、問題:四分位數極差(IQR)是第1個和第2個四分位數之間的距離。選項:A、正確B、錯誤正確答案:【錯誤】20、問題:盒圖用來考察兩個屬性之間是否存在正相關和負相關。選項:A、正確B、錯誤正確答案:【錯誤】21、問題:對于非對稱的二元屬性,兩個都取值1的情況(正匹配)被認為比兩個都取值0的情況(負匹配)更有意義,其中負匹配數t被認為是不重要的,因此在計算時可以忽略。選項:A、正確B、錯誤正確答案:【正確】22、問題:一般來說數據庫中行對應于數據對象,而列對應于屬性。選項:A、正確B、錯誤正確答案:【正確】23、問題:相異性矩陣又稱對象-對象結構,存放n個對象兩兩之間的鄰近度。選項:A、正確B、錯誤正確答案:【正確】24、問題:在計算混合類型屬性的相異性時,一般是通過將所有有意義的屬性轉換到共同的區間[0.0,1.0]上,實現在單個相異性矩陣中進行計算。選項:A、正確B、錯誤正確答案:【正確】25、填空題:為了抵消少數極端值對均值計算的影響,我們可以使用。正確答案:【截尾均值】26、填空題:中列數是數據集的最大值和的平均值。正確答案:【最小值】27、填空題:給定兩個數據對象(19,4,5)和(22,6,3),則兩個對象之間的歐氏距離。【如果計算結果是小數,則保留一位;如果是整數,則直接填寫整數】正確答案:【4.1】28、填空題:給定兩個數據對象(19,4,5)和(22,6,3),則兩個對象之間的曼哈頓距離。【如果計算結果是小數,則保留一位;如果是整數,則直接填寫整數】正確答案:【7】29、填空題:給定兩個數據對象(19,4,5)和(22,6,3),則兩個對象之間的上確界距離。【如果計算結果是小數,則保留一位;如果是整數,則直接填寫整數】正確答案:【3】30、填空題:x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式計算這兩個向量之間的相似性等于。【如果計算結果是小數,則保留一位;如果是整數,則直接填寫整數】正確答案:【0.9】第三單元測驗1、問題:運行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結果為(150,4)。則表示iris數據集包括樣本個數為()。選項:A、150B、4C、600D、154正確答案:【150】2、問題:運行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結果為(150,4)。則表示iris數據集包括樣本特征數為()。選項:A、150B、4C、600D、154正確答案:【4】3、問題:在Numpy包中,計算中位數的函數為()。選項:A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正確答案:【numpy.median()】4、問題:在Numpy包中,計算標準差的函數為()。選項:A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正確答案:【numpy.std()】5、問題:給定df是一個DataFrame對象,對df所有字段進行描述性統計,可以利用的方法為()。選項:A、df.summary()B、df.statistics()C、df.mean()D、df.describe()正確答案:【df.describe()】6、問題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制餅狀圖,需要利用的函數為()。選項:A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正確答案:【plt.pie()】7、問題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制折線圖,需要利用的函數為()。選項:A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正確答案:【plt.plot()】8、問題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制直方圖,需要利用的函數為()。選項:A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正確答案:【plt.hist()】9、問題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制散點圖,需要利用的函數為()。選項:A、plt.bar()B、plt.scatter()C、plt.plot()D、plt.hist()正確答案:【plt.scatter()】10、問題:使用最小-最大法進行數據規范化,需要映射的目標區間為[0,100],原來的取值范圍是[-10,10]。根據等比映射的原理,一個值8映射到新區間后的值是()。選項:A、80B、85C、90D、95正確答案:【90】11、問題:使用零均值規范化方法,年收入屬性的均值為65,標準差為12,則年收入59萬元規范化后為()。選項:A、-0.5B、-0.2C、0.3D、0.5正確答案:【-0.5】12、問題:使用等距離分箱法進行數據離散化,數據范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區間個數為4。下列屬于4個箱的區間是()。選項:A、[20,65]B、(65,110)C、[110,155)D、(155,200]正確答案:【[110,155)】13、問題:特征選擇方法中,一般的啟發式方法有()。選項:A、逐步增加法B、逐步遞減法C、隨機選擇D、以上都是正確答案:【以上都是】14、問題:在使用主成分分析法進行數據屬性特征提取中,在對數據集進行中心化處理后,為了去除冗余和降低噪音,應將協方差矩陣非對角線上的元素化為()。選項:A、-1/2B、0C、1/2D、不用處理正確答案:【0】15、問題:關聯規則的挖掘算法只能處理()類型的取值,為此()是繼續其知識發現過程的必要步驟。選項:A、離散;數據離散化B、連續;數據離散化C、離散;數據規范化D、連續;數據規范化正確答案:【離散;數據離散化】16、問題:()是指對描述對象的屬性進行重新組合,獲得一組反映事物本質的少量的新的屬性的過程。()是指從屬性集合中選擇那些重要的、與分析任務相關的子集的過程。選項:A、特征提取;特征選擇B、特征選擇;特征提取C、數據提取;數據選擇D、數據選擇;數據提取正確答案:【特征提取;特征選擇】17、問題:下列不屬于數據預處理原因的是()。選項:A、數據可能存在缺失、錯誤、不一致等問題B、數據有可能不能很好地反映潛在的模式C、有些數據屬性是無用的或者冗余的D、數據量過于龐大正確答案:【數據量過于龐大】18、問題:下列關于數據規范化說法錯誤的是()。選項:A、數據規范化又稱為數據標準化B、數據規范化是將屬性的取值范圍統一C、數據規范化是為了給重要的屬性賦予更大的權重D、數據規范化是為了避免不同屬性的不平等地位正確答案:【數據規范化是為了給重要的屬性賦予更大的權重】19、問題:缺失值處理方法中錯誤的是()。選項:A、對于分類屬性,使用同類對象屬性值的均值B、對于離散屬性或定性屬性,使用眾數C、對于所有屬性都可以使用均值D、轉換為分類問題或數值預測問題正確答案:【對于所有屬性都可以使用均值】20、問題:主成分分析的步驟是()。選項:A、中心化數據集-計算主成分矩陣-計算協方差矩陣-計算特征根-得到降維后的數據集B、中心化數據集-計算協方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數據集C、計算協方差矩陣-計算主成分矩陣-計算特征根-中心化數據集-得到降維后的數據集D、計算協方差矩陣-計算特征根-中心化數據集-計算主成分矩陣-得到降維后的數據集正確答案:【中心化數據集-計算協方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數據集】21、問題:下列關于等距離分箱的說法中錯誤的是()。選項:A、又稱為等寬度分箱B、若區間個數為k,每個區間的間距為I=(max-min)/kC、等距離分箱能使每個區間內包含的取值個數大致相同D、等距離分箱可能導致屬于某些的取值非常多,而某些又非常少正確答案:【等距離分箱能使每個區間內包含的取值個數大致相同】22、問題:數據預處理的任務不包括()。選項:A、數據分類B、數據清洗C、數據規范化和離散化D、特征提取與特征選擇正確答案:【數據分類】23、問題:使用python處理缺失值的方法中敘述錯誤的是()。選項:A、isnull()判斷缺失值B、dropna()刪除缺失值C、fillna()填充缺失值D、interpolate()使用中位數填充缺失值正確答案:【interpolate()使用中位數填充缺失值】24、問題:最小最大規范化方法MinMaxScaler屬于python中的哪個包()。選項:A、sklearnB、pandasC、numpyD、scipy正確答案:【sklearn】25、問題:主成分分析方法PCA屬于屬于python中的哪個包()。選項:A、sklearnB、pandasC、numpyD、scipy正確答案:【sklearn】26、問題:最小-最大法中,假設需要映射到目標區間為[L,R],原來的取值范圍為[l,r]。一個值x映射到新區間后的值v的計算方法是()。選項:A、B、C、D、正確答案:【】27、問題:在利用中文文本繪制詞云時,需要在anaoncda的基礎上安裝哪些工具包()。選項:A、WordcloudB、Scikit-learnC、JiebaD、Matplotlib正確答案:【Wordcloud#Jieba】28、問題:數據預處理的任務有哪些()。選項:A、數據離散化B、數據規范化C、數據清洗D、特征提取與特征選擇正確答案:【數據離散化#數據規范化#數據清洗#特征提取與特征選擇】29、問題:數據規范化方法有哪些()。選項:A、最小-最大法B、z-scoreC、聚類D、分類正確答案:【最小-最大法#z-score】30、問題:數據清洗的主要目的是將數據集中存在的()和()進行處理,降低其對后續數據分析處理的影響。選項:A、缺失B、噪聲C、最大值D、最小值正確答案:【缺失#噪聲】31、問題:特征選擇過程是描述同一對象的多個屬性的取值范圍,統一到相同的范圍,避免某些屬性的作用大于其它屬性。選項:A、正確B、錯誤正確答案:【錯誤】32、問題:通過數據離散化,可以實現縮減數據量的效果。選項:A、正確B、錯誤正確答案:【正確】33、問題:有監督的離散化方法常用的有分箱法和ChiMerge方法。選項:A、正確B、錯誤正確答案:【錯誤】34、問題:基于熵的方法可以被看做是自頂向下的分裂方法,ChiMerge則屬于自底向上的合并方法。選項:A、正確B、錯誤正確答案:【正確】35、問題:一種簡單的填補缺失值的方法為,將屬于同一類的對象的該屬性值的均值賦予此缺失值。選項:A、正確B、錯誤正確答案:【正確】36、問題:分箱離散化是一種有監督離散化方法。選項:A、正確B、錯誤正確答案:【錯誤】37、問題:基于熵的離散化方法是常用的有監督的離散化方法。選項:A、正確B、錯誤正確答案:【正確】38、問題:選擇屬性子集的方法一般采用啟發式方法,只檢驗部分可能性比較大的子集,這樣可以快速完成屬性的選擇。選項:A、正確B、錯誤正確答案:【正確】39、問題:主成分分析能夠達到去除冗余、降低噪音和降維的目的,但無法得到反映事物本質的新變量。選項:A、正確B、錯誤正確答案:【錯誤】40、問題:將數據分為n個等頻的箱中,可以?箱均值、箱中位數或箱邊界光滑數據。選項:A、正確B、錯誤正確答案:【正確】41、問題:在主成分分析中,每個主成分都是原始變量的線性組合,且各個主成分之間互不相關。選項:A、正確B、錯誤正確答案:【正確】42、填空題:等距離分箱可能導致屬于某些區間的取值非常多,而某些區間的取值又非常少。則能夠解決此問題。正確答案:【等頻】43、填空題:面對噪音,一類是識別出噪音,將其去除;另一類是可以使用方法,用于平滑噪音。正確答案:【分箱】44、填空題:使用主成分分析法進行數據屬性特征提取中,每個新的特征是原有特征的。正確答案:【線性組合】45、填空題:一組數據:20,40,50,58,65,80,80,82,86,90,96,105,120,200。采用等距分箱法分為4箱,其中82位于第____個箱。(填寫阿拉伯數字)正確答案:【2】46、填空題:一組數據:20,40,50,58,65,80,80,82,86,90,96,105,120,200。使用最大-最小法進行數據規范化,目標區間為[0,1],則80映射到新區間后的值為___。(四舍五入保留小數點后兩位)正確答案:【0.33】第四單元測驗1、問題:Python在調用efficient-apriori包中的apriori函數進行挖掘關聯規則時,第一個返回值是()。選項:A、頻繁項集B、關聯規則C、最小支持度D、最小置信度正確答案:【頻繁項集】2、問題:Python在調用efficient-apriori包中的apriori函數進行挖掘關聯規則時,第二個返回值是()。選項:A、頻繁項集B、關聯規則C、最小支持度D、最小置信度正確答案:【關聯規則】3、問題:如下表所示,X={butter,cheese},則支持度support(X)=()。交易號(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts選項:A、1/5B、2/5C、3/5D、4/5正確答案:【2/5】4、問題:如下表所示,X={butter,cheese},Y={beer},則置信度confidence(X→Y)=()。交易號(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts選項:A、1/2B、1/3C、1/4D、2/5正確答案:【1/2】5、問題:如下表所示,使用FP-Growth計算其頻繁集,給定最小支持度為40%,頻繁模式樹(FP樹)有()個結點。(不包括根結點)。交易號(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts選項:A、5B、8C、9D、10正確答案:【9】6、問題:對于任一個頻繁項集X和它的一個非空真子集Y,S=X-Y,規則S→Y成立的條件是()。選項:A、confidence(S→Y)minconfB、confidence(S→Y)≥minconfC、confidence(Y→S)minconfD、confidence(Y→S)≥minconf正確答案:【confidence(S→Y)≥minconf】7、問題:在多層次關聯規則分析中,如果將商品進行歸類,每一商品類別的支持度會()其包含的每個商品的支持度,從而有利于發現一些有意義的頻繁模式或關聯規則。選項:A、小于B、等于C、大于D、不確定正確答案:【大于】8、問題:在FP-growth構建頻繁模式樹中,每個()(除根結點外)代表一個單項,樹中的每條()代表原數據中每一個條目的各個項。如果把條目內的項組合在一起看成一個字符串,則字符串前綴相同時共享相同的()。選項:A、結點;路徑;路徑B、結點;路徑;結點C、路徑;路徑;結點D、路徑;路徑;路徑正確答案:【結點;路徑;路徑】9、問題:購買了此商品后還會購買的商品,它們的地位是平等的,其中涉及了時間和順序的概念,強調的是一個規則,也就是我們所說的關聯規則。選項:A、正確B、錯誤正確答案:【錯誤】10、問題:如果一個項集是不頻繁的,則其所有的超集都是不頻繁的。利用這一性質可以簡化Apriori算法中的計算過程。選項:A、正確B、錯誤正確答案:【正確】11、問題:逐層發現算法Apriori發現頻繁項集的過程是按照項集的長度由大到小逐級進行的。選項:A、正確B、錯誤正確答案:【錯誤】12、問題:利用項的概念層次信息,不僅可以發現涉及那些出現頻率比較低的商品的頻繁模式和關聯規則,而且還可以發現概括性更強的規則。選項:A、正確B、錯誤正確答案:【正確】13、問題:在結構化數據中進行關聯分析發現其中的頻繁模式和關聯規則。對于取值連續的屬性,首先將其離散化,然后將每個取值區間作為一個值,繼而轉化為“屬性=值”的形式。選項:A、正確B、錯誤正確答案:【正確】14、問題:若Y和Z是X的兩個不同的k項子集,只有當confidence(X-Y→Y)≥minconf和confidence(X-Z→Z)≥minconf都滿足時,X-(Y∪Z)→(Y∪Z)一定成立。選項:A、正確B、錯誤正確答案:【錯誤】15、問題:具體來講,若一個項集X的支持度大于用戶給定的一個最小支持度閾值,則X被稱為頻繁項集(或頻繁模式)。選項:A、正確B、錯誤正確答案:【正確】16、問題:如果一個規則X→Y同時滿足support(X→Y)≥minsup和confidence(X→Y)≥minconf,則稱該規則在數據庫D中成立,其中minsup和minconf分別是用戶給定的最小支持度和最小置信度的閾值。選項:A、正確B、錯誤正確答案:【正確】17、問題:給定最小支持度閾值minsup,一個頻繁項集的所有非空子集都是頻繁的。選項:A、正確B、錯誤正確答案:【正確】18、問題:FP-growth算法無須生成候選項集的方法,可以避免產生大量候選項集。選項:A、正確B、錯誤正確答案:【正確】19、填空題:Python在調用efficient-apriori包中的apriori函數訓練挖掘關聯規則時,設定最小支持度的參數是______。正確答案:【min_support】20、填空題:Python在調用efficient-apriori包中的apriori函數訓練挖掘關聯規則時,設定最小置信度的參數是______。正確答案:【min_confidence】21、填空題:給定一個頻繁負項集X,我們可以從中發現隱含的負關聯規則。負項集和負關聯規則統稱為_____。正確答案:【負模式】22、填空題:如果一個規則和其祖先規則具有近似相同的置信度,則該規則稱為_____。為了減少發現的規則數目,可以將其從輸出的結果中刪除。正確答案:【冗余規則】第五單元測驗1、問題:通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構造分類器對象后,訓練時要調用的方法是()。選項:A、clf.train()B、clf.fit()C、clf.learn()D、clf.predict()正確答案:【clf.fit()】2、問題:通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構造分類器對象,在訓練后做預測時要調用的方法是()。選項:A、clf.predict()B、clf.forecast()C、clf.guess()D、clf.outlook()正確答案:【clf.predict()】3、問題:利用tree.DecisionTreeClassifier()訓練模型時調用.fit()方法需要傳遞的第一個參數是()。選項:A、樣本特征XB、樣本標簽YC、判斷標準D、設置結點的最小樣本數量正確答案:【樣本特征X】4、問題:利用tree.DecisionTreeClassifier()訓練模型時調用.fit()方法需要傳遞的第二個參數是()。選項:A、樣本特征XB、樣本標簽YC、判斷標準D、設置結點的最小樣本數量正確答案:【樣本標簽Y】5、問題:通過代碼“fromsklearnimportmetrics”引入評價指標模塊后,面對真實標簽true_label和模型預測標簽predicted_label,混淆矩陣可通過調用()代碼得到。選項:A、confusion_matrix(true_labe,predicted_label)B、confusion_matrix(predicted_label,true_labe)C、metrics.confusion_matrix(true_labe,predicted_label)D、metrics.confusion_matrix(predicted_label,true_labe)正確答案:【metrics.confusion_matrix(true_labe,predicted_label)】6、問題:在Scikit-learn模塊下,不同分類模型在訓練時,調用的方法名稱()。選項:A、相同B、不同C、視情況而定D、不知道正確答案:【相同】7、問題:在Scikit-learn模塊下,不同分類模型在預測時,調用的方法名稱()。選項:A、相同B、不同C、視情況而定D、不知道正確答案:【相同】8、問題:用于分類與回歸應用的主要算法有()。選項:A、Apriori算法、HotSpot算法B、RBF神經網絡、K均值法、決策樹C、K均值法、SOM神經網絡D、決策樹、BP神經網絡、貝葉斯正確答案:【決策樹、BP神經網絡、貝葉斯】9、問題:決策樹中不包含一下哪種結點()。選項:A、根結點(rootnode)B、內部結點(internalnode)C、外部結點(externalnode)D、葉結點(leafnode)正確答案:【外部結點(externalnode)】10、問題:以下哪種算法是分類算法()。選項:A、DBSCANB、C4.5C、K-MeanD、EM正確答案:【C4.5】11、問題:下列屬于決策樹中應該剪枝的情景是()。選項:A、一個結點關聯的數據集的信息熵高于指定閾值B、一個結點關聯的數據集的信息熵低于指定閾值C、雙親結點的誤差比子女結點的加權誤差大D、雙親結點的誤差比子女結點的平均誤差大正確答案:【一個結點關聯的數據集的信息熵低于指定閾值】12、問題:樸素貝葉斯分類中得到條件概率的方法錯誤的是()。選項:A、對于定性屬性,計算某一類別的樣本中某種屬性取該值的樣本所占比例來近似B、對于定性屬性,將轉化為定量屬性,再計算相應的概率C、對于定量屬性,將取值離散化變為區間,再當做定性屬性處理D、對于定量屬性,假設變量服從某種概率分布,通過訓練數據集估計分布的參數正確答案:【對于定性屬性,將轉化為定量屬性,再計算相應的概率】13、問題:假設某分類器在一個測試數據集上的分類結果的混淆矩陣如下所示,該分類器的準確率accuracy為()。PredictedyesnoActualyes155no1020選項:A、70%B、75%C、66.7%D、80%正確答案:【70%】14、問題:假設某分類器在一個測試數據集上的分類結果的混淆矩陣如下所示,該分類器的錯誤率errorrate為()。PredictedyesnoActualyes155no1020選項:A、30%B、25%C、33.3%D、20%正確答案:【30%】15、問題:構造訓練數據集和測試數據集的常用方法有()。選項:A、保持法(holdout)B、交叉驗證法(crossvalidation)C、自助抽樣法(bootstrap)D、留一法(leaveoneout)正確答案:【保持法(holdout)#交叉驗證法(crossvalidation)#自助抽樣法(bootstrap)#留一法(leaveoneout)】16、問題:為了比較利用不同分類算法構建的分類模型的性能,可以利用圖形進行比較,常用的圖形包括()。選項:A、增益圖B、ROC曲線C、直方圖D、條形圖正確答案:【增益圖#ROC曲線】17、問題:分類是總結已有類別對象的特點,并根據這些特點,進行未知類別對象的類別預測的過程。又可稱為無監督學習。選項:A、正確B、錯誤正確答案:【錯誤】18、問題:Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。選項:A、正確B、錯誤正確答案:【錯誤】19、問題:分類模型的誤差大致分為兩種:訓練誤差(trainingerror)和泛化誤差(generalizationerror)。選項:A、正確B、錯誤正確答案:【正確】20、問題:在決策樹中,隨著樹中結點數變得太大,即使模型的訓練誤差還在繼續減低,但是檢驗誤差開始增大,這是出現了模型擬合不足的問題。選項:A、正確B、錯誤正確答案:【錯誤】21、問題:決策樹方法通常用于關聯規則挖掘。選項:A、正確B、錯誤正確答案:【錯誤】22、問題:留一法是交叉驗證法的特殊情況。選項:A、正確B、錯誤正確答案:【正確】23、問題:決策樹的思想是自頂向下遞歸的構建過程,關鍵點是在于分裂屬性和分裂條件的選擇。選項:A、正確B、錯誤正確答案:【正確】24、問題:ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。選項:A、正確B、錯誤正確答案:【正確】25、問題:樸素貝葉斯分類基于貝葉斯定理的一種分類方法。選項:A、正確B、錯誤正確答案:【正確】26、問題:k近鄰方法不需要事先學習分類模型,當需要預測的時候,根據預測樣本的特性和已知訓練數據集中的數據進行類別的判斷。選項:A、正確B、錯誤正確答案:【正確】27、問題:K近鄰方法的核心思想是對一個預測樣本A,從訓練數據集中找到與其最相似的k個樣本,利用這個k個樣本的類別來決策該樣本A的類別。選項:A、正確B、錯誤正確答案:【正確】28、填空題:為了評價一個分類模型的性能,我們通常根據分類模型判斷一組已知類別的對象的類別,這些已知類別的對象構成的數據集稱為。正確答案:【測試數據集##%_YZPRLFH_%##測試集】29、填空題:決策樹中根結點的層次為。【請填寫阿拉伯數字】正確答案:【1】30、填空題:分類算法針對某個測試數據集的有效性通常通過矩陣來反映。正確答案:【混淆】31、填空題:假設某分類器在一個測試數據集上的分類結果的混淆矩陣如下所示,請計算該分類器的錯誤率,以類別yes為正例,計算分類器的查準率precision為%。【保留到整數位】PredictedyesnoActualyes155no1020正確答案:【60】32、填空題:假設某分類器在一個測試數據集上的分類結果的混淆矩陣如下所示,請計算該分類器的錯誤率,以類別yes為正例,計算分類器的查全率recall為%。【保留到整數位】PredictedyesnoActualyes155no1020正確答案:【75】第六單元測驗1、問題:通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構造回歸器對象后,在訓練時要調用的方法是()。選項:A、reg.train()B、reg.fit()C、reg.learn()D、reg.predict()正確答案:【reg.fit()】2、問題:通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構造回歸器對象,在訓練后做預測時要調用的方法是()。選項:A、reg.guess()B、reg.forecast()C、reg.predict()D、reg.outlook()正確答案:【reg.predict()】3、問題:利用“linear_model.LinearRegression()”訓練模型時調用.fit()方法需要傳遞的第一個參數是()。選項:A、樣本特征XB、樣本標簽YC、樣本權重D、是否考慮計算截距正確答案:【樣本特征X】4、問題:利用linear_model.LinearRegression()訓練模型時調用.fit()方法需要傳遞的第二個參數是()。選項:A、樣本特征XB、樣本標簽YC、樣本權重D、是否考慮計算截距正確答案:【樣本標簽Y】5、問題:在利用linear_model.LinearRegression()構造的reg對象訓練模型后,可以通過以下哪行代碼查看回歸模型系數()。選項:A、reg.coefficient_B、reg._coefficientC、reg._coefD、reg.coef_正確答案:【reg.coef_】6、問題:在以下四個散點圖中,其中適用于作線性回歸的散點圖為()。選項:A、①②B、①③C、②③D、③④正確答案:【①③】7、問題:已知對一組觀察值(xi,yi)作出散點圖后確定具有線性相關關系,若對于y=bx+a,求得b=0.51,x=61.75,y=38.14,則線性回歸方程為()。選項:A、y=0.51x+6.65B、y=6.65x+0.51C、y=0.51x+42.30D、y=42.30x+0.51正確答案:【y=0.51x+6.65】8、問題:對于指數曲線y=a*e^(bx),令u=lny,c=lna,經過非線性化回歸分析之后,可以轉化成的形式為()。選項:A、u=c+bxB、u=b+cxC、y=b+cxD、y=c+bx正確答案:【u=c+bx】9、問題:下面關于構建模型樹的說法中,錯誤的是()。選項:A、創建一個結點t,與結點t關聯的數據集記為DtB、如果當前結點t所關聯的數據集Dt中樣本個數小于給定閾值或者Dt中樣本的目標屬性取值的標準差小于給定閾值,則將該結點標記為葉子節點C、在選擇分類屬性時,應選擇時SDR值最小的屬性D、SDR代表誤差的期望減少正確答案:【在選擇分類屬性時,應選擇時SDR值最小的屬性】10、問題:下列選項中錯誤的是()。選項:A、MST=SST/dfTB、MSE=SSE/dfEC、MSR=SSR/dfRD、SSR=SST+SSE正確答案:【SSR=SST+SSE】11、問題:決策樹的葉子結點對應()。選項:A、某個類別B、一個數值C、一個線性回歸方程D、以上都可以正確答案:【某個類別】12、問題:回歸樹的葉子結點對應()。選項:A、某個類別B、一個數值C、一個線性回歸方程D、以上都可以正確答案:【一個數值】13、問題:模型樹的葉子結點對應()。選項:A、某個類別B、一個數值C、一個線性回歸方程D、以上都可以正確答案:【一個線性回歸方程】14、問題:在比較模型的擬合效果時,甲、乙、丙、丁四個模型的決定系數R^2的值分別約為0.96、0.85、0.80和0.7,則擬合效果好的模型是()。選項:A、甲B、乙C、丙D、丁正確答案:【甲】15、問題:多元回歸建模后的檢驗包括()。選項:A、擬合優度檢驗B、回歸關系的顯著性檢驗C、回歸系數的顯著性檢驗D、傾向值檢驗正確答案:【擬合優度檢驗#回歸關系的顯著性檢驗#回歸系數的顯著性檢驗】16、問題:常用的非線性函數除了多項式函數之外,還包括()。選項:A、冪函數B、指數函數C、對數函數D、雙曲函數正確答案:【冪函數#指數函數#對數函數#雙曲函數】17、問題:()采用自頂向下分而治之的思想,將訓練集不斷分割成子數據集來不斷擴展樹枝,當滿足一定條件時停止樹的生長。選項:A、決策樹B、模型樹C、回歸樹D、多元回歸正確答案:【決策樹#模型樹#回歸樹】18、問題:預測性能的優劣需要一定的度量來衡量,常用的度量是()。選項:A、MAE(平均絕對誤差)B、MSE(均方誤差)C、RSE(相對平方誤差)D、RAE(相對絕對誤差)正確答案:【MAE(平均絕對誤差)#MSE(均方誤差)#RSE(相對平方誤差)#RAE(相對絕對誤差)】19、問題:數值預測與分類都屬于有監督學習,解決問題的過程相同,都是先通過訓練數據集進行學習,以得到一個模型然后利用模型進行預測。選項:A、正確B、錯誤正確答案:【正確】20、問題:的值越接近1,說明回歸直線對觀測值的擬合程度越好。選項:A、正確B、錯誤正確答案:【正確】21、問題:為了檢驗回歸系數的顯著性,可以使用F檢驗。選項:A、正確B、錯誤正確答案:【錯誤】22、問題:在模型樹的剪枝過程中,兩個葉子結點的期望誤差通過加權求和結合在一起作為子樹誤差。選項:A、正確B、錯誤正確答案:【正確】23、問題:回歸樹和模型樹都是通過自下而上、分而治之的思想,將訓練集不斷分割成子數據集來不斷擴展樹枝,當滿足一定條件時停止樹的生長。選項:A、正確B、錯誤正確答案:【錯誤】24、問題:在模型樹的構建過程中,應選擇使SDR值最小的屬性。選項:A、正確B、錯誤正確答案:【錯誤】25、問題:一元線性回歸的步驟:構建包含因變量和自變量的訓練集;通過散點圖確認因變量和自變量之前的近似線性關系;計算系數和構建模型;模型檢驗;利用模型進行預測。選項:A、正確B、錯誤正確答案:【正確】26、問題:多元回歸是對一個自變量和多個因變量之間的回歸分析。選項:A、正確B、錯誤正確答案:【錯誤】27、問題:回歸系數的檢驗可以采用t檢驗。選項:A、正確B、錯誤正確答案:【正確】28、問題:模型樹構建之后,為了避免過度擬合,需要對模型樹進行剪枝。選項:A、正確B、錯誤正確答案:【正確】29、問題:在模型樹的構建過程中,分裂屬性的選擇以分裂后的各個子數據集中目標屬性取值的標準差為依據,將標準差作為一種誤差度量,將分裂前后標準差的減少量作為誤差的期望減少,稱為SDR。選項:A、正確B、錯誤正確答案:【正確】30、問題:K近鄰數值預測是利用一個樣本的K個最相似的鄰居的目標屬性的取值來進行預測。選項:A、正確B、錯誤正確答案:【正確】31、填空題:模型樹構建之后,為了避免過度擬合,需要對模型樹進行________。正確答案:【剪枝】32、填空題:在模型樹的構建過程中,分裂屬性的選擇以分裂后的各個子數據集中目標屬性取值的標準差為依據,將標準差作為一種誤差度量,將分裂前后標準差的減少量作為誤差的期望減少,稱為_________(填寫英文簡稱)。正確答案:【SDR】第七單元測驗1、問題:通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊,生成模型對象“kmeans=KMeans(n_clusters=2)”后,對于數據X訓練時要調用的方法是()。選項:A、kmeans.train()B、kmeans.fit()C、kmaens.train()D、kmaens.fit()正確答案:【kmeans.fit()】2、問題:通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊后,生成模型對象“kmeans=KMeans(n_clusters=3)”并完成對數據X完成聚類后,以下哪個代碼可以查看每個樣本所屬簇的標簽()。選項:A、kmeans.labels_B、kmeans.y_C、kmeans.targets_D、kmeans.output_正確答案:【kmeans.labels_】3、問題:以下哪種情況對Kmeans模型的影響較小()。選項:A、給定錯誤聚類個數B、數據有各向異性分布C、不同簇的方差相差較大D、簇的大小分布不均衡正確答案:【簇的大小分布不均衡】4、問題:在利用sklearn.cluster.AgglomerativeClustering進行凝聚聚類時,使用的默認距離度量是()。選項:A、馬氏距離B、余弦距離C、曼哈頓距離D、歐氏距離正確答案:【歐氏距離】5、問題:給定numpy.ndarray類型的數X,在以下代碼中,eps參數的含義是()。fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)選項:A、收斂條件閾值B、簇的個數C、鄰域半徑D、每個簇的最小樣本數正確答案:【鄰域半徑】6、問題:根據聚類形成的簇的特點,如果有交集的簇之間必然存在包含關系,這種聚類稱為()。選項:A、劃分型聚類B、層次型聚類C、重疊聚類D、以上均不是正確答案:【層次型聚類】7、問題:余弦相似度適用于()情況。選項:A、屬性類型多B、屬性數量多C、有大量零值維度D、距離相近正確答案:【有大量零值維度】8、問題:皮爾森相關系數取值為()時說明兩個對象最不相似。選項:A、0B、1C、0.05D、-1正確答案:【-1】9、問題:k均值聚類的目標是()。選項:A、最大化簇間距離B、最小化簇內距離的平方和C、最大化質心距離D、簇的大小基本一致正確答案:【最小化簇內距離的平方和】10、問題:給定密度闕值為3,對象o的ξ鄰域中有5個對象,那么o是()。選項:A、核心點B、關鍵點C、集中點D、高密度點正確答案:【核心點】11、問題:輪廓系數的取值范圍是()。選項:A、[0,1]B、[-1,1]C、[-1,0]D、[0,∞)正確答案:【[-1,1]】12、問題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的歐幾里得距離是()。選項:A、B、11C、6D、正確答案:【】13、問題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的曼哈頓距離是()。選項:A、B、11C、6D、正確答案:【11】14、問題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的切比雪夫距離是()。選項:A、B、11C、6D、正確答案:【6】15、問題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的閔可夫斯基距離(x=3)是()。選項:A、B、11C、6D、正確答案:【】16、問題:下面哪些聚類方法易于發現具有球形形狀的簇,難以發現橢圓形或者凹形形狀的簇?選項:A、k均值聚類B、層次聚類C、DBSCAND、基于密度的聚類方法正確答案:【k均值聚類#層次聚類】17、問題:下面哪些聚類方法易于發現特殊形狀的簇?選項:A、k均值聚類B、層次聚類C、DBSCAND、基于密度的聚類方法正確答案:【DBSCAN#基于密度的聚類方法】18、問題:關于聚類下列說法正確的是()。選項:A、聚類有著廣泛的應用。B、聚類可以作為其他數據挖掘分析過程的一個基礎處理步驟。C、聚類可以發現偏離多數數據對象的孤立點。D、聚類和分類沒有區別。正確答案:【聚類有著廣泛的應用。#聚類可以作為其他數據挖掘分析過程的一個基礎處理步驟。#聚類可以發現偏離多數數據對象的孤立點。】19、問題:聚類分析的過程中,聚類效果較好時屬于同一個簇的對象相似度很高,而屬于不同簇的對象相似度很低。選項:A、正確B、錯誤正確答案:【正確】20、問題:攝氏溫度屬于比例屬性。選項:A、正確B、錯誤正確答案:【錯誤】21、問題:多種屬性相似度的綜合度量,可以先對單個屬性進行相似度度量,然后求所有屬性相似度的均值作為整個對象相似度。選項:A、正確B、錯誤正確答案:【正確】22、問題:凝聚層次聚類法中每次簇的合并可以更改。選項:A、正確B、錯誤正確答案:【錯誤】23、問題:凝聚度是用于衡量簇間相似程度的,凝聚度越大越好。選項:A、正確B、錯誤正確答案:【正確】24、問題:基于隨機游走理論的鏈接相似度衡量方法(稱為SimRank)計算兩結點間的相似度,具有有界性、對稱性、單調遞增性、三角不等式性質。選項:A、正確B、錯誤正確答案:【錯誤】25、問題:輪廓系數是將凝聚度和分離度相結合的一種度量,越大聚類效果越好。選項:A、正確B、錯誤正確答案:【正確】26、問題:DBSCAN是一種基于密度的聚類方法,容易發現特殊形狀的簇。選項:A、正確B、錯誤正確答案:【正確】27、問題:K均值聚類需要提前設定K值,而凝聚層次法不需要預先設置參數。選項:A、正確B、錯誤正確答案:【正確】28、填空題:____屬性分為對稱屬性和非對稱屬性。正確答案:【二值】29、填空題:Jaccard系數適用于衡量用________二值屬性描述的對象間的相似度。正確答案:【非對稱】第八單元測驗1、問題:顧客購物序列屬于哪種數據類型()選項:A、時間序列數據B、符號序列數據C、生物學序列D、空間數據正確答案:【符號序列數據】2、問題:下列哪項不是時間序列的主要研究方法()選項:A、相似性搜索B、回歸分析C、趨勢分析D、序列模式挖掘正確答案:【序列模式挖掘】3、問題:下列屬于異質網絡的是()選項:A、朋友網絡B、合著者網絡C、在線醫療網絡D、網頁網絡正確答案:【在線醫療網絡】4、問題:機動車輛管理者把GPS安裝在汽車上,以便更好地監管和引導車輛,所記錄的數據屬于()選項:A、空間數據B、時空數據C、物聯網系統數據D、Web數據正確答案:【時空數據】5、問題:典型的文本挖掘任務包括()選項:A、文本分類B、文本聚類C、觀點分析D、以上都是正確答案:【以上都是】6、問題:()是指大量流入系統、動態變化的、可能無限的,并且包含多維特征的數據。選項:A、流數據B、文本數據C、序列數據D、符號數據正確答案:【流數據】7、問題:根據分析目標,Web挖掘可以劃分主要研究領域包括()。選項:A、Web內容挖掘B、Web結構挖掘C、Web使用挖掘D、Web布局挖掘正確答案:【Web內容挖掘#Web結構挖掘#Web使用挖掘】8、問題:下面哪些是時空數據的應用()。選項:A、動物學家把遙感設備安裝在野生動物身上,以便分析生態行為B、機動車輛管理者把GPS安裝在汽車上,以便更好地監管和引導車輛C、氣象學家使用人造衛星和雷達觀察颶風D、從多媒體數據庫中發現有趣的模式正確答案:【動物學家把遙感設備安裝在野生動物身上,以便分析生態行為#機動車輛管理者把GPS安裝在汽車上,以便更好地監管和引導車輛#氣象學家使用人造衛星和雷達觀察颶風】9、問題:生物學序列通常很長,攜帶重要的、復雜的、隱藏的語義。選項:A、正確B、錯誤正確答案:【正確】10、問題:符號序列數據由事件或標稱數據的長序列組成,通常時間間隔相等。選項:A、正確B、錯誤正確答案:【錯誤】11、問題:圖與網絡挖掘應用范圍廣泛,涉及生物信息學、化學情報學、計算機視覺、多媒體和文本檢索。選項:A、正確B、錯誤正確答案:【正確】12、問題:多媒體數據挖掘是一個交叉學科領域,涉及圖像處理和理解、計算機視覺、數據挖掘和模式識別。選項:A、正確B、錯誤正確答案:【正確】13、問題:目前大部分系統能夠多次讀取流數據。選項:A、正確B、錯誤正確答案:【錯誤】14、問題:網絡由一個節點集和一個連接這些節點的邊集組成。選項:A、正確B、錯誤正確答案:【正確】15、問題:物聯網系統由大量相互作用的物理和信息部件組成,其例子包括患者護理系統,運輸系統等。選項:A、正確B、錯誤正確答案:【正確】16、問題:“你和任何一個陌生人之間所間隔的人不會超過六個”稱為小世界現象。選項:A、正確B、錯誤正確答案:【正確】17、問題:多媒體數據挖掘是一個交叉學科領域,涉及圖像處理和理解、計算機視覺、數據挖掘和模式識別。選項:A、正確B、錯誤正確答案:【正確】《數據挖掘與python實踐》期末試卷1、問題:數據挖掘又稱從數據中發現知識,后者英文簡稱為()。選項:A、KDDB、KPPC、KDPD、KPD正確答案:【KDD】2、問題:數據挖掘又稱從數據中發現知識,前者英文簡稱為()。選項:A、DMB、KPPC、KDDD、DD正確答案:【DM】3、問題:一般數據挖掘的流程順序,下列正確的是()。①選擇數據挖掘的技術、功能和合適的算法②選擇數據,數據清洗和預處理③了解應用領域,了解相關的知識和應用目標④尋找感興趣的模式、模式評估、知識表示⑤創建目標數據集選項:A、③⑤②①④B、③④①⑤②C、⑤④②①③D、③②⑤①④正確答案:【③⑤②①④】4、問題:結構化的數據是指一些數據通過統一的()的形式存儲的,這類數據我們稱為結構化的數據。選項:A、二維表格B、文檔C、圖像D、聲音正確答案:【二維表格】5、問題:數值預測用于連續變量的取值,常用的預測方法是()。選項:A、回歸分析B、聚類C、關聯D、分類正確答案:【回歸分析】6、問題:下列應用場景不屬于分類的是()。選項:A、為了解用戶特點,公司將客戶分群B、對信用卡申請者判斷其信譽高低C、醫生根據患者的癥狀判斷所患疾病類型D、推廣新產品時預測已有客戶是否對新產品感興趣正確答案:【為了解用戶特點,公司將客戶分群】7、問題:Python語言的創始人是()。選項:A、GuidovanRossumB、BillGatesC、SergeyBrinD、LarryPage正確答案:【GuidovanRossum】8、問題:Python科學計算的基本包是()。選項:A、numpyB、pandasC、scikit-learnD、matplotlib正確答案:【numpy】9、問題:以下Python包中,繪圖功能最強大的是()。選項:A、matplotlibB、pandasC、scikit-learnD、numpy正確答案:【matplotlib】10、問題:以下Python包中,最適合用于機器學習的是()。選項:A、scikit-learnB、pandasC、numpyD、matplotlib正確答案:【scikit-learn】11、問題:以下Python包中,提供了DataFrame數據類型的是()。選項:A、pandasB、scikit-learnC、numpyD、matplotlib正確答案:【pandas】12、問題:為了避免包的依賴關系和系統兼容性等方面出現問題,本課程推薦的Python安裝方式為()。選項:A、通過Anaconda安裝B、直接下載Python安裝C、通過瀏覽器查找處理過的Python安裝包D、直接安裝Pycharm正確答案:【通過Anaconda安裝】13、問題:下列不屬于數據預處理原因的是()。選項:A、數據量過于龐大B、數據可能存在缺失、錯誤、不一致等問題C、數據有可能不能很好地反映潛在的模式D、有些數據屬性是無用的或者冗余的正確答案:【數據量過于龐大】14、問題:下列關于數據規范化說法錯誤的是()。選項:A、數據規范化是為了給重要的屬性賦予更大的權重B、數據規范化又稱為數據標準化C、數據規范化是將屬性的取值范圍統一D、數據規范化是為了避免不同屬性的不平等地位正確答案:【數據規范化是為了給重要的屬性賦予更大的權重】15、問題:缺失值處理方法中錯誤的是()。選項:A、對于所有屬性都可以使用均值B、對于分類屬性,使用同類對象屬性值的均值C、對于離散屬性或定性屬性,使用眾數D、轉換為分類問題或數值預測問題正確答案:【對于所有屬性都可以使用均值】16、問題:主成分分析的步驟是()。選項:A、中心化數據集-計算協方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數據集B、中心化數據集-計算主成分矩陣-計算協方差矩陣-計算特征根-得到降維后的數據集C、計算協方差矩陣-計算主成分矩陣-計算特征根-中心化數據集-得到降維后的數據集D、計算協方差矩陣-計算特征根-中心化數據集-計算主成分矩陣-得到降維后的數據集正確答案:【中心化數據集-計算協方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數據集】17、問題:下列關于等距離分箱的說法中錯誤的是()。選項:A、等距離分箱能使每個區間內包含的取值個數大致相同B、又稱為等寬度分箱C、若區間個數為k,每個區間的間距為I=(max-min)/kD、等距離分箱可能導致屬于某些的取值非常多,而某些又非常少正確答案:【等距離分箱能使每個區間內包含的取值個數大致相同】18、問題:數據預處理的任務不包括()。選項:A、數據分類B、數據清洗C、數據規范化和離散化D、特征提取與特征選擇正確答案:【數據分類】19、問題:使用python處理缺失值的方法中敘述錯誤的是()。選項:A、interpolate()使用中位數填充缺失值B、isnull()判斷缺失值C、dropna()刪除缺失值D、fillna()填充缺失值正確答案:【interpolate()使用中位數填充缺失值】20、問題:最小最大規范化方法MinMaxScaler屬于python中的哪個包()。選項:A、sklearnB、pandasC、numpyD、scipy正確答案:【sklearn】21、問題:主成分分析方法PCA屬于屬于python中的哪個包()。選項:A、sklearnB、pandasC、numpyD、scipy正確答案:【sklearn】22、問題:運行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結果為(150,4)。則表示iris數據集包括樣本個數為()。選項:A、150B、4C、600D、154正確答案:【150】23、問題:運行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結果為(150,4)。則表示iris數據集包括樣本特征數為()。選項:A、4B、150C、600D、154正確答案:【4】24、問題:在numpy包中,計算中位數的函數為()。選項:A、numpy.median()B、numpy.mean()C、numpy.std()D、numpy.var()正確答案:【numpy.median()】25、問題:在numpy包中,計算標準差的函數為()。選項:A、numpy.std()B、numpy.mean()C、numpy.median()D、numpy.var()正確答案:【numpy.std()】26、問題:給定df是一個DataFrame對象,對df所有字段進行描述性統計,可以利用的方法為()。選項:A、df.describe()B、df.summary()C、df.statistics()D、df.mean()正確答案:【df.describe()】27、問題:運行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制餅狀圖,需要利用的函數為()。選項:A、plt.pie()B、plt.bar()C、plt.plot()D、plt.hist()正確答案:【plt.pie()】28、問題:運行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制折線圖,需要利用的函數為()。選項:A、plt.plot()B、plt.bar()C、plt.pie()D、plt.hist()正確答案:【plt.plot()】29、問題:運行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制直方圖,需要利用的函數為()。選項:A、plt.hist()B、plt.bar()C、plt.pie()D、plt.plot()正確答案:【plt.hist()】30、問題:運行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制散點圖,需要利用的函數為()。選項:A、plt.scatter()B、plt.bar()C、plt.plot()D、plt.hist()正確答案:【plt.scatter()】31、問題:使用最小-最大法進行數據規范化,需要映射的目標區間為[0,100],原來的取值范圍是[-10,10]。根據等比映射的原理,一個值8映射到新區間后的值是()。選項:A、90B、80C、85D、95正確答案:【90】32、問題:使用零均值規范化方法,年收入屬性的均值為65,標準差為12,則年收入59萬元規范化后為()。選項:A、-0.5B、-0.2C、0.3D、0.5正確答案:【-0.5】33、問題:使用等距離分箱法進行數據離散化,數據范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區間個數為4。下列屬于4個箱的區間是()。選項:A、[110,155)B、[20,65]C、(65,110)D、(155,200]正確答案:【[110,155)】34、問題:特征選擇方法中,一般的啟發式方法有()。選項:A、以上都是B、逐步增加法C、逐步遞減法D、隨機選擇正確答案:【以上都是】35、問題:在使用主成分分析法進行數據屬性特征提取中,在對數據集進行中心化處理后,為了去除冗余和降低噪音,應將協方差矩陣非對角線上的元素化為()。選項:A、0B、-1/2C、1/2D、不用處理正確答案:【0】36、問題:通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構造分類器對象后,訓練時要調用的方法是()。選項:A、clf.train()B、clf.fit()C、clf.learn()D、clf.predict()正確答案:【clf.fit()】37、問題:通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構造分類器對象,在訓練后做預測時要調用的方法是()。選項:A、clf.predict()B、clf.forecast()C、clf.guess()D、clf.outlook()正確答案:【clf.predict()】38、問題:利用tree.DecisionTreeClassifier()訓練模型時調用.fit()方法需要傳遞的第一個參數是()。選項:A、樣本特征XB、樣本標簽YC、判斷標準D、設置結點的最小樣本數量正確答案:【樣本特征X】39、問題:利用tree.DecisionTreeClassifier()訓練模型時調用.fit()方法需要傳遞的第二個參數是()。選項:A、樣本特征XB、樣本標簽YC、判斷標準D、設置結點的最小樣本正確答案:【樣本標簽Y】40、問題:通過代碼fromsklearnimportmetrics引入評價指標模塊后,面對真實標簽true_label和模型預測標簽predicted_label,混淆矩陣可通過哪行代碼調用()選項:A、confusion_matrix(true_label,predicted_label)B、confusion_matrix(predicted_label,true_label)C、metrics.confusion_matrix(true_label,predicted_label)D、metrics.confusion_matrix(predicted_label,true_label)正確答案:【metrics.confusion_matrix(true_label,predicted_label)】41、問題:在Scikit-learn模塊下,不同分類模型在訓練時,調用的方法名稱是否相同()。選項:A、相同B、不同C、視情況而定D、不知道正確答案:【相同】42、問題:在Scikit-learn模塊下,不同分類模型在預測時,調用的方法名

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論