CPDA考試真題與答案5_第1頁
CPDA考試真題與答案5_第2頁
CPDA考試真題與答案5_第3頁
已閱讀5頁,還剩24頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、判斷題(題數: 15 ,共 15.0 分)1. 定量屬性可以是整數值或者是連續值。()正確答案 :V2. 分類模型的誤差大致分為兩種 : 訓練誤差 ( training error ) 和泛化誤差 ( generalizationerror ( )正確答案: V3. 在決策樹中,隨著樹中結點數變得太大,即使模型的訓練誤差還在繼續減低,但是檢驗誤差開始增大,這是出現了模型擬合不足的問題。()正確答案: x4. 在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差。()正確答案: x5. 聚類分析可以看作是一種非監督的分類。()6. 如果一個對象不強屬于任何簇,那么該對象是基于聚

2、類的離群點。()正確答案 :V7. 允許誤差應根據錯誤記錄對整個系統可能帶來的破壞來確定,通常正是那些低使用率的產品或不常使用的產品為庫存誤差帶來很大麻煩,因此應結合數量方差百分比和絕對值方差來 定誤差。()正確答案: V8. 召回率反映的是預測為正中的樣本中正例的概率。()正確答案 :x9. 支持度表示前項與后項在一個數據集中同時出現的頻率。()正確答案: V10. 最大最小值標準化法也叫極值法,該方法適用于已知數據集的最小值或最大值情況。(:11. 波特五力模型中五個壓力來源是供應商議價能力、購買者的議價能力、行業新進入者的 脅、替代產品的威脅及企業內部的管理壓力。()(1.0 分 )1.

3、0 分正確答案: X12. 異常值在數理統計里一般是指一組觀測值中與平均值的偏差超過三倍標準差的測定值。()正確答案 :x13. 數據可視化可以便于人們對數據的理解。()正確答案: V14. 大數據思維,是指一種意識,認為公開的數據一旦處理得當可以為人類急需解決的問題 提供答案。()正確答案: V15. 資金本身具有時間價值。() 正確答案: X、單選題(題數: 3。,共 45.0 分)1. 某超市研究銷售記錄發現,購買牛奶的人很大概率會購買面包,這種屬于數據挖掘的哪類 問題?()A 、 聚類分析B 、 關聯規則C 、 分類分析D 、 自然語言處理正確答案: B2. 以下兩種描述分別對應哪兩種

4、對分類算法的評價標準?()( a) 警察抓殺人犯,描述警察抓的人中有多少個是殺人犯的標準。( b) 描述有多少比例的殺人犯給警察抓了的標準。A 、 Precision, RecallB 、 Recall, PrecisionC 、 Precision, ROCD 、 Recall, ROC正確答案: A3. 將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?()A、數據獲取B、分類和預測C、數據預處理D、數據可視化正確答案: C4. 當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?()A、分類B、聚類C、關聯分析D、主成分分析正確答案 :

5、 B5.面哪種不屬于數據預處理的方法?A 、 變量代換B 、 離散化C 、 聚集D 、 估計遺漏值正確答案: D6. 假設 12 個銷售價格記錄組已經排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215用等寬劃分 (寬度為 50 ) 方法將它們劃分成四個箱,求15 在哪個箱子里? ()A 、 第一個B 、 第二個C 、 第三個D 、 第四個正確答案: A7. 以下哪些算法是分類算法? ()A、DBSCANB、C4.5C 、 K-MeanD 、 K-medoids正確答案: B8. 以下哪些分類方法可以較好地避免樣本的不平衡問題?()A、KN

6、NB、SVMC、BayesD、神經網絡正確答案 : A9. 關于 K 均值和 DBSCAN 的比較,以下說法不正確的是( A 、 K 均值丟棄被它識別為噪聲的對象,而DBSCAN 一般聚類所有對象B 、 K 均值使用簇的基于原型的概念,而DBSCAN 使用基于密度的概念C 、 K 均值很難處理非球形的簇和不同大小的簇,DBSCAN 可以處理不同大小和不同形狀 的簇D、 K 均值可以發現不是明顯分離的簇 ,即便簇有重疊也可以發現,但是DBSCAN 會合并 有重疊的簇 正確答案: A10.下列不屬于關聯分析的關鍵要素的是( )A 、 支持度B 、 置信度C 、 滿意度D 、 提升度正確答案: C1

7、1. 因子分析的主要作用有 ( )A 、 對變量進行降維B 、 對變量進行判別C 、 對變量進行聚類D 、 以上都不對正確答案: A12. ROC 曲線凸向哪個角,代表模型越理想?(A 、 左上角B 、 左下角C 、 右上角D 、 右下角正確答案: A13. SQL 語句中刪除表的命令是()A、DROP TABLEB、DELETE TABLEC、ERASE TABLED、DELETE DBF正確答案: A14. 在多元回歸模型的檢驗中,目的是檢驗每一個自變量與因變量在指定顯著性水平上是否 存在線性相關關系的檢驗是()A、r 檢驗B、t 檢驗C 、 f 檢驗D 、 DW 檢驗正確答案: B15.

8、 () 提供的支撐技術,有效解決了大數據分析、研發的問題,比如虛擬化技術、并行 算、海量存儲和海量管理等。A、點計算B、線計算C、云計算D、面計算正確答案: C16. 智能健康手環的應用開發,體現了 () 的數據采集技術的應用A 、 統計報表B 、 網絡爬蟲C 、 API 接口D、傳感器正確答案: D17.下列關于數據重組的說法中,錯誤的是()A 、 數據重組是數據的重新生產和重新采集B 、 數據重組能夠使數據煥發新的光芒C 、 數據重組實現的關鍵在于多源數據融合和數據集成D 、 數據重組有利于實現新穎的數據模式創新正確答案 : A18. 美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航

9、海路線圖,標明了大風與 洋流可能發生的地點。這體現了大數據分析理念中的()A 、 在數據基礎上傾向于全體數據而不是抽樣數據B 、 在分析方法上更注重相關分析而不是因果分析C 、 在分析效果上更追究效率而不是絕對精確D 、 在數據規模上強調相對數據而不是絕對數據正確答案: B19. 當前國內社會中,最為突出的大數據環境是()A、互聯網B 、 物聯網C 、 綜合國力D 、 自然資源正確答案: A20. 下列關于聚類挖掘技術的說法中,錯誤的是()A 、 不預先設定數據歸類類目,完全根據數據本身性質將數據聚合成不同類別B 、 要求同類數據的內容相似度盡可能小C 、 要求不同類數據的內容相似度盡可能小D

10、 、 與分類挖掘技術相似的是,都是要對數據進行分類處理正確答案: B21. 下列關于大數據的分析理念的說法中,錯誤的是()A 、 在數據基礎上傾向于全體數據而不是抽樣數據B 、 在分析方法上更注重相關分析而不是因果分析C、在分析效果上更追究效率而不是絕對精確D、在數據規模上強調相對數據而不是絕對數據正確答案: D22. 對于企業來說,數據使用的關鍵是 ()A 、 數據收集B 、 數據存儲C 、 數據分析D 、 數據再利用正確答案: D23. 數據倉庫的最終目的是()A 、 收集業務需求B 、 建立數據倉庫邏輯模型C 、 開發數據倉庫的應用分析D 、 為用戶和業務部門提供決策支持24.大數據背景

11、下,數據支撐業務的目的是(A、建立數據科學B、完成數據應用C 、配備數據硬件D 、吸納數據人才正確答案: B25.在 SQL中,創建數據庫用的命令是A、CREATESCHEMAB、CREATETABLEC、VIEWDCR、EATEDATABACREATESE正確答案: D26. 下列四項中,不屬于數據庫特點的是 (A 、數據共享B 、數據完整性C 、 數據冗余很高D 、 數據獨立性高正確答案: C27. 資金的時間價值是 ()A 、 同一資金在同一時點上價值量的差額B 、 同一資金在不同時點上價值量的差額C 、 不同資金在同一時點上價值量的差額D 、 不同資金在不同時點上價值量的差額 正確答案

12、: B28. 下列選項中屬于現金流入的項目是(A 、 所得稅B 、 建設投資C 、 經營成本29. 下列關于計算機存儲容量單位的說法中,錯誤的 是(A 、 1KB<1MB<1GBB 、 基本單位是字節 (Byte )C 、 一個漢字需要一個字節的存儲空間D 、 一個字節能夠容納一個英文字符正確答案: C30. 按數據的結構程度來劃分,分為( )A 、 結構化數據半結構化數據非結構化數據B 、 強結構化數據弱結構化數據C 、 截面數據面板數據D 、 一級數據二級數據三級數據正確答案: A三、多選題(題數: 20 ,共 40.0 分)1. 以下屬于數據預處理的是()A 、 缺失值填充B

13、 、 噪聲數據剔除C 、 異常值識別D 、 數據可視化正確答案 :ABC2. 缺失值的處理方法有哪些?(A、用平均值填充B、忽略缺失記錄C、以任意數據填充D、用默認值填充正確答案 :ABD3. 以下屬于數據規約方法的是(A 、 數據離散化B 、 數據標準化C、噪聲數據識別D、數據壓縮正確答案: AD4. 數據挖掘的預測建模任務主要包括哪幾大類問題? (A 、 分類B 、 回歸C 、 模式發現D 、 模式匹配正確答案: AB5. 以下說法正確的有哪些?()A 、 大數據僅僅是講數據的體量大B 、 大數據對傳統行業有幫助C 、 大數據會帶來機器智能D 、 大數據是一種思維方式6.關于大數據的來源,

14、以下理解正確的是()A 、 大數據是數據量變積累達到質變的結果B 、 數據的產生需要經歷很長時間C 、 我們每個人都是數據的制造者D 、 當今的世界,基本上一切都可以用數字表達,所以叫數字化的世界 正確答案: ACD7. 大數據在今天這個時間點上爆發的原因有哪些?( )A 、 各種傳感器無時無刻不在為我們提供大量的數據B 、 各種監控設備無時無刻不在為我們提供大量的數據C 、 各種智能設備無時無刻不在為我們提供大量的數據D 、 互聯網的收集和積累正確答案: ABCD8. ( )這些數據特性都是對聚類分析具有很強影響的。A、高維性B、規模C 、 稀疏性D 、 噪聲和離群點正確答案 : ABCD9

15、. 以下哪個分布是右偏分布?()A、均勻分布B、卡方分布C、F 分布D、對數正態分布正確答案 : BCD10. 以下哪些變量使用 RFM 方法構造出來的?(A、 最近 3 期境外消費金額B、 最近 6 期網銀消費交易筆數C 、 信用額度D 、 距最近一次逾期的月數11.如下表 student 中,如何篩選 type 為包含數學或語文的記錄?( )A 、 select * from student where type="數學” and type= “語文”B 、 select * from student where type="數學 " or type= “語文

16、 "C 、 select * from student where type in" 數學 ", “語文 " )D 、 select * from student where type in“數學”? “語文”)正確答案: BC12. 主成分分析計算選擇相關系數計算法時,確定主成分個數的大致原則包括(A、特征根值大于 1B、特征根值大于 0.8C、累積特征根值加總占總特征根值的80% 以上D、累積特征根值加總占總特征根值的90% 以上正確答案: AC13. 在客戶關系管理中,客戶的生命周期都包括()階段。A、潛在客戶B、響應客戶C 、 即得客戶D 、 流

17、失客戶正確答案: ABCD14. 分箱方法有哪些? ()( 2.0 分) 0.0 分A、等深分箱B、等寬分箱C、數據標準化D、自定義區間法正確答案: ABD15. 利用 Apriori 算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物籃 中產生支持度不小于 3 的候選 3- 項集,在候選 2- 項集中需要剪枝的是() ID 項集。 1 面包、牛奶2 面包、尿布、啤酒、雞蛋3 牛奶、尿布、啤酒、可樂4 面包、牛奶、尿布、啤酒 5 面包、牛奶、尿布、可樂A 、 啤酒、尿布B 、 啤酒、面包C 、 面包、尿布D 、 啤酒、牛奶正確答案: BD16. 我們可以用哪種方式來避免決策樹過度擬合的問題?(A 、 利用修剪法來限制樹的深度B 、 利用盆栽法規定每個節點下的最小的記錄數目C 、 利用逐步回歸法來刪除部分數據D 、 目前并無適合的方法來處理這問題正確答案: AB17. 圖中 0 預測的準確率和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論