




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上2011Alibaba數據分析師(實習)試題解析一、異常值是指什么?請列舉1種識別連續型變量異常值的方法?異常值(Outlier) 是指樣本中的個別值,其數值明顯偏離所屬樣本的其余觀測值。在數理統計里一般是指一組觀測值中與平均值的偏差超過兩倍標準差的測定值。Grubbs test(是以Frank E.Grubbs命名的),又叫maximumnormed residual test,是一種用于單變量數據集異常值識別的統計檢測,它假定數據集來自正態分布的總體。未知總體標準差,在五種檢驗法中,優劣次序為:t檢驗法、格拉布斯檢驗法、峰度檢驗法、狄克遜檢驗法、偏度檢驗法。二、什
2、么是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟。聚類分析(clusteranalysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析也叫分類分析(classification analysis)或數值分類(numerical taxonomy)。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類分析計算方法主要有: 層次的方法(hierarchical method)、劃分方法(partitioning method)、基于密度的方法(density-based method)、基于網格的方法(grid-based method)、基
3、于模型的方法(model-based method)等。其中,前兩種算法是利用統計學定義的距離進行度量。k-means 算法的工作過程說明如下:首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數. k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。其流程如下:(1)從 n個數據對象任意選擇 k 個對象作為初始聚類
4、中心; (2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分;(3)重新計算每個(有變化)聚類的均值(中心對象);(4)循環(2)、(3)直到每個聚類不再發生變化為止(標準測量函數收斂)。優 點:本算法確定的K 個劃分到達平方誤差最小。當聚類是密集的,且類與類之間區別明顯時,效果較好。對于處理大數據集,這個算法是相對可伸縮和高效的,計算的復雜度為 O(NKt),其中N是數據對象的數目,t是迭代的次數。一般來說,K<<N,t<<N 。缺點:1. K 是事先給定的,但非常難以選定;2. 初始聚類中心的選擇對聚類結果
5、有較大的影響。 三、根據要求寫出SQL表A結構如下:Member_ID (用戶的ID,字符型)Log_time (用戶訪問頁面時間,日期型(只有一天的數據)URL (訪問的頁面地址,字符型)要求:提取出每個用戶訪問的第一個URL(按時間最早),形成一個新表(新表名為B,表結構和表A一致)create table B as select Member_ID,min(Log_time), URL from A group by Member_ID ; 四、銷售數據分析以下是一家B2C電子商務網站的一周銷售數據,該網站主要用戶群是辦公室女性,銷售額主要集中在5種產品上,如果你是這家公司的分
6、析師,a) 從數據中,你看到了什么問題?你覺得背后的原因是什么?b) 如果你的老板要求你提出一個運營改進計劃,你會怎么做?表如下:一組每天某網站的銷售數據a) 從這一周的數據可以看出,周末的銷售額明顯偏低。這其中的原因,可以從兩個角度來看:站在消費者的角度,周末可能不用上班,因而也沒有購買該產品的欲望;站在產品的角度來看,該產品不能在周末的時候引起消費者足夠的注意力。b) 針對該問題背后的兩方面原因,我的運營改進計劃也分兩方面:一是,針對消費者周末沒有購買欲望的心理,進行引導提醒消費者周末就應該準備好該產品;二是,通過該產品的一些類似于打折促銷等活動來提升該產品在周末的人氣和購買力。五、用戶調
7、研某公司針對A、B、C三類客戶,提出了一種統一的改進計劃,用于提升客戶的周消費次數,需要你來制定一個事前試驗方案,來支持決策,請你思考下列問題:a) 試驗需要為決策提供什么樣的信息?c) 按照上述目的,請寫出你的數據抽樣方法、需要采集的數據指標項,以及你選擇的統計方法。a) 試驗要能證明該改進計劃能顯著提升A、B、C三類客戶的周消費次數。b) 根據三類客戶的數量,采用分層比例抽樣;需要采集的數據指標項有:客戶類別,改進計劃前周消費次數,改進計劃后周消費次數;選用統計方法為:分別針對A、B、C三類客戶,進行改進前和后的周消費次數的,兩獨立樣本T-檢驗(two-samplet-test)。摘錄一段
8、企業面對海量數據應如何具體實施數據挖掘,使之轉換成可行的結果/模型?首先進行數據的預處理,主要進行數據的清洗,數據清洗,處理空缺值,數據的集成,數據的變換和數據規約。請列舉您使用過的各種數據倉庫工具軟件(包括建模工具,ETL工具,前端展現工具,OLAP Server、數據庫、數據挖掘工具)和熟悉程度。ETL工具:Ascential DataStage ,IBM warehouse
9、MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream市場上的主流數據倉庫存儲層軟件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA請談一下你對元數據管理在數據倉庫中的運用的理解。元數據能支持系統對數據的管理和維護,如關于數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。具體來說,在數據倉庫系統中,元數據機制主要支持以下五類系統管理功能:()描述哪些數據在數據倉庫中;()定義要進入數據倉庫中的數據和從數據倉庫中產生的數據;()記錄根據業務
10、事件發生而隨之進行的數據抽取工作時間安排;()記錄并檢測系統數據一致性的要求和執行情況;()衡量數據質量。數據挖掘對聚類的數據要求是什么?(1)可伸縮性(2)處理不同類型屬性的能力(3)發現任意形狀的聚類(4)使輸入參數的領域知識最小化(5)處理噪聲數據的能力(6)對于輸入順序不敏感(7)高維性(8)基于約束的聚類(9)可解釋性和可利用性簡述Apriori算法的思想,談談該算法的應用領域并舉例。思想:其發現關聯規則分兩步,第一是通過迭代,檢索出數據源中所有煩瑣項集,即支持度不低于用戶設定的閥值的項即集,第二是利用第一步中檢索出的煩瑣項集構造出滿足用戶最小信任度的規則,其中,第一步即挖掘出所有頻
11、繁項集是該算法的核心,也占整個算法工作量的大部分。在商務、金融、保險等領域皆有應用。在建筑陶瓷行業中的交叉銷售應用,主要采用了Apriori 算法通過閱讀該文擋,請同學們分析一下數據挖掘在電子商務領域的應用情況(請深入分析并給出實例,切忌泛泛而談)?單選題1. 某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?(A) A. 關聯規則發現 B. 聚類 C. 分類
12、60; D. 自然語言處理2. 以下兩種描述分別對應哪兩種對分類算法的評價標準? (A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。 (b)描述有多少比例的小偷給警察抓了的標準。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC3. 將原始數據進行集成、變換、
13、維度規約、數值規約是在以下哪個步驟的任務?(C) A. 頻繁模式挖掘 B. 分類和預測 C. 數據預處理 D. 數據流挖掘4. 當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?(B) A. 分類 B. 聚類 C. 關聯分析
14、160; D. 隱馬爾可夫鏈5. 什么是KDD? (A) A. 數據挖掘與知識發現 B. 領域知識發現 C. 文檔知識發現 D. 動態知識發現6. 使用交互式的和可視化的技術,對數據進行探索屬于數據挖掘的哪一類任務?(A)A. 探索性數據分析 B. 建模描述 C. 預測建模 D. 尋找模式和規則7. 為數據的總體分布建模;把多維空間劃分成組等問題屬于數據挖掘的哪一類任務?(B) A
15、. 探索性數據分析 B. 建模描述 C. 預測建模 D. 尋找模式和規則8. 建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬于數據挖掘的哪一類任務?(C) A. 根據內容檢索 B. 建模描述 C. 預測建模 D. 尋找模式和規則9. 用戶有一種感興趣的模式并且希望在數據集中找到相似的模式,屬于數據挖掘哪一類任務?(A) A. 根據內容檢索 B. 建模描述 C. 預測建模 D.
16、 尋找模式和規則 11.下面哪種不屬于數據預處理的方法? (D)A變量代換 B離散化 C 聚集 D 估計遺漏值 12. 假設12個銷售價格
17、記錄組已經排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內? (B)A 第一個 B 第二個 C 第三個 D 第四個 13.上題中,等寬劃分時(寬度為50),15又在哪個箱子里
18、? (A)A 第一個 B 第二個 C 第三個 D 第四個 14.下面哪個不屬于數據的屬性類型:(D)A 標稱 B 序數 C 區間 D相異
19、 15. 在上題中,屬于定量的屬性類型是:(C)A 標稱 B 序數 C區間 D 相異 16. 只有非零值才重要的二元屬性被稱作:( C )A 計數屬性
20、B 離散屬性 C非對稱的二元屬性 D 對稱屬性 17. 以下哪種方法不屬于特征選擇的標準方法: (D)A嵌入 B 過濾 C 包裝 D 抽樣
21、0; 18.下面不屬于創建新屬性的相關方法的是: (B)A特征提取 B特征修改 C映射數據到新的空間 D特征構造 19. 考慮值集1、2、3、4、5、90,其截斷均值(p=
22、20%)是 (C)A 2 B 3 C 3.5 D 5 20. 下面哪個屬于映射數據到新的空
23、間的方法? (A)A 傅立葉變換 B特征加權 C 漸進抽樣 D維歸約 21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)A 1比特 B 2.6比特 C 3.2比特 D 3.8比特
24、; 22. 假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:(D)A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16
25、,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為:(A)A 18.3 B 22.6 C 26.8 D 27.9 24. 考慮值集12 24 332 4 55 68 26,其四分位數極差是:(A)A 31 B 24
26、60; C 55 D 3 25. 一所大學內的各年紀人數分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數是: (A)A 一年級 B二
27、年級 C 三年級 D 四年級 26. 下列哪個不是專門用于可視化時間空間數據的技術: (B)A 等高線圖 B餅圖 C 曲面圖 D 矢量場圖 27. 在抽樣方法中,當合適的樣本容量很難確定
28、時,可以使用的抽樣方法是: (D)A 有放回的簡單隨機抽樣 B無放回的簡單隨機抽樣 C分層抽樣 D 漸進抽樣28. 數據倉庫是隨著時間變化的,下面的描述不正確的是 (C)A. 數據倉庫隨時間的變化不斷增加新的數據內容;B. 捕捉到的新數據會覆蓋原來的快照;C. 數據倉庫隨事件變化不斷刪去舊的數據內容;D. 數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合.29. 關于基本數據的元數據是指:(D)A. 基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;B. 基本元數據包括與企業相關的管理方面的數據和信息;C. 基本元
29、數據包括日志文件和簡歷執行處理的時序調度信息;D. 基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息.30. 下面關于數據粒度的描述不正確的是: (C)A. 粒度是指數據倉庫小數據單元的詳細程度和級別;B. 數據越詳細,粒度就越小,級別也就越高;C. 數據綜合度越高,粒度也就越大,級別也就越高;D. 粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.31. 有關數據倉庫的開發特點,不正確的描述是: (A)A. 數據倉庫開發要從數據出發;B. 數據倉庫使用的需求在開發出去就要明確;C. 數據倉庫的開發是一個不斷循環的過程,是啟發式的開發;D. 在數據倉庫環境中,并不存在操作型環
30、境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式32. 在有關數據倉庫測試,下列說法不正確的是: (D)A. 在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要包括單元測試和系統測試.B. 當數據倉庫的每個單獨組件完成后,就需要對他們進行單元測試.C. 系統的集成測試需要對數據倉庫的所有組件進行大量的功能測試和回歸測試.D. 在測試之前沒必要制定詳細的測試計劃.33. OLAP技術的核心是: (D)A. 在線性;B. 對用戶的快速響應;C. 互操作性.D. 多維分析;34. 關于OLAP的特性,下面正確的是: (D)(1)快速性 (2)可分析性
31、(3)多維性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 關于OLAP和OLTP的區別描述,不正確的是: (C)A. OLAP主要是關于如何理解聚集的大量不同的數據.它與OTAP應用程序不同.B. 與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.C. OLAP的特點在于事務量大,但事務內容比較簡單且重復率高.D. OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的.36. OLAM技術一般簡稱為”數
32、據聯機分析挖掘”,下面說法正確的是: (D)A. OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交互性;B. 由于OLAM的立方體和用于OLAP的立方體有本質的區別.C. 基于WEB的OLAM是WEB技術與OLAM技術的結合.D. OLAM服務器通過用戶圖形借口接收用戶的分析指令,在元數據的知道下,對超級立方體作一定的操作.37. 關于OLAP和OLTP的說法,下列不正確的是: (A)A. OLAP事務量大,但事務內容比較簡單且重復率高.B. OLAP的最終數據來源與OLTP不一樣.C. OLTP面對的是決策人員和高層管理人員.D. OLTP以應用為核心,是應用驅動的.38.
33、設X=1,2,3是頻繁項集,則可由X產生_(C)_個關聯規則。A、4 B、5 C、6 D、7 40. 概念分層圖是_(B)_圖。A、無向無環 B、有向無環 C、有向有環 D、無向有環41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是: (C)A、頻繁項集 頻繁閉項集 =最大頻繁項集B、頻繁項集 = 頻繁閉項集 最大頻繁項集C、頻繁項集 頻繁閉項集最大頻繁項集D、頻繁項集 = 頻繁閉項集 = 最大頻繁項集42. 考慮下面的頻繁3-項集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5
34、假定數據集中只有5個項,采用合并策略,由候選產生過程得到4-項集不包含(C)A、1,2,3,4 B、1,2,3,5 C、1,2,4,5 D、1,3,4,543.下面選項中t不是s的子序列的是 ( C )A、s=<2,4,3,5,6,8>t=<2,3,6,8>B、s=<2,4,3,5,6,8>t=<2,8>C、s=<1,2,3,4>t=<1,2>D、s=<2,4,2,4>t=<2,4>44. 在圖集合中發現一組公共子結構,這樣的任務稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻
35、繁數據項挖掘 D、頻繁模式挖掘45. 下列度量不具有反演性的是(D)A、 系數 B、幾率 C、Cohen度量 D、興趣因子46. 下列_(A)_不是將主觀信息加入到模式發現任務中的方法。A、與同一時期其他數據對比B、可視化C、基于模板的方法D、主觀興趣度量47. 下面購物籃能夠提取的3-項集的最大數量是多少(C)ID 購買項1 牛奶,啤酒,尿布2 面包,黃油,牛奶3 牛奶,尿布,餅干4 面包,黃油,餅干5 啤酒,餅干,尿布6 牛奶,尿布,面包,黃油7 面包,黃油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黃油10 啤酒,餅干A、1 B、2 C、3 D、448. 以下哪些算法是分類算法,A,DBS
36、CAN B,C4.5 C,K-Mean D,EM (B)49. 以下哪些分類方法可以較好地避免樣本的不平衡問題, A,KNN B,SVM C,Bayes D,神經網絡 (A) 50. 決策樹中不包含一下哪種結點,A,根結點(root node) B,內部結點(internal node) C,外部結點(external node) D,葉結點(leaf node) (C)51. 不純性度量中Gini計算公式為(其中c是類的個數) (A)A, B, C,
37、160; D, (A)53. 以下哪項關于決策樹的說法是錯誤的 (C)A. 冗余屬性不會對決策樹的準確率造成不利的影響 B. 子樹可能在決策樹中重復多次 C. 決策樹算法對于噪聲的干擾非常敏感 D. 尋找最佳決策樹是NP完全問題54. 在基于規則分類器的中,依據規則質量的某種度量對規則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規格來分類,這種方案稱為 (B)A. 基于類的排序方案 B. 基于規則的排序方案 C
38、. 基于度量的排序方案 D. 基于規格的排序方案。 55. 以下哪些算法是基于規則的分類器 (A) A. C4.5 B. KNN C. Na?ve Bayes D. ANN56. 如果規則集R中不存在兩條規則被同一條記錄觸發,則稱規則集R中的規則為(C);A, 無序規則 B,窮舉規則 C,互斥規則 D,有序規則57. 如果對屬性值的任一組合,R中都存在一條規則加以覆蓋,則稱規則集R中的規則為(B)A, 無序規則 B,窮舉規則 C,互斥規
39、則 D,有序規則58. 如果規則集中的規則按照優先級降序排列,則稱規則集是 (D)A, 無序規則 B,窮舉規則 C,互斥規則 D,有序規則59. 如果允許一條記錄觸發多條分類規則,把每條被觸發規則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為(A) A, 無序規則 B,窮舉規則 C,互斥規則 D,有序規則60. 考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如
40、果下一場比賽在隊1的主場進行隊1獲勝的概率為 (C)A,0.75 B,0.35 C,0.4678 D, 0.573861. 以下關于人工神經網絡(ANN)的描述錯誤的有 (A)A,神經網絡對訓練數據中的噪聲非常魯棒 B,可以處理冗余特征 C,訓練ANN是一個很耗時的過程 D,至少含有一個隱藏層的多層神經網絡62. 通過聚集多個分類器的預測來提高分類準確率的技術稱為 (A) A,組合(ensemble) B,聚集(aggregate) C,合并(combination) D,投票(
41、voting)63. 簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作( B ) A、層次聚類 B、劃分聚類 C、非互斥聚類 D、模糊聚類64. 在基本K均值算法里,當鄰近度函數采用( A )的時候,合適的質心是簇中各點的中位數。 A、曼哈頓距離 B、平方歐幾里德距離 C、余
42、弦距離 D、Bregman散度 65.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。 A、邊界點 B、質心 C、離群點 D、核心點66. BIRCH是一種( B )。 A、分類器 B、聚類算法
43、0; C、關聯分析算法 D、特征選擇算法67. 檢測一元正態分布中的離群點,屬于異常檢測中的基于( A )的離群點檢測。 A、統計方法 B、鄰近度 C、密度 D、聚類技術68.( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術。
44、0; A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Ward方法69.( D )將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,它是一種凝聚層次聚類技術。 A、MIN(單鏈) B、MAX(全鏈) C、組平均
45、160; D、Ward方法70. DBSCAN在最壞情況下的時間復雜度是( B )。 A、O(m) B、O(m2) C、O(log m) D、O(m*log m)71. 在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci , C),簇權值為mi ,那么它的類型是( C )。 A、基于圖的凝聚度
46、160; B、基于原型的凝聚度 C、基于原型的分離度 D、基于圖的凝聚度和分離度72. 關于K均值和DBSCAN的比較,以下說法不正確的是( A )。 A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。 B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。 C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。 D
47、、K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是DBSCAN會合并有重疊的簇。73. 以下是哪一個聚類算法的算法流程:構造k最近鄰圖。使用多層圖劃分算法劃分圖。repeat:合并關于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。until:不再有可以合并的簇。( C)。 A、MST B、OPOSSUM C、Chameleon D、JarvisPatrick(JP)74.
48、 考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應該選擇( D )的相似度計算方法。 A、平方歐幾里德距離 B、余弦距離 C、直接相似度 D、共享最近鄰75. 以下屬于可伸縮聚類算法的是(A )。A、CURE B、DENCLUE
49、; C、CLIQUE D、OPOSSUM76. 以下哪個聚類算法不是屬于基于原型的聚類( D )。 A、模糊c均值 B、EM算法 C、SOM D、CLIQUE77. 關于混合模型聚類算法的優缺點,下面說法正確的是( B )。 A、當簇只包含少量數據點,或者數據點近似協線性時,混合模型也能很好地處理。
50、 B、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。 C、混合模型很難發現不同大小和橢球形狀的簇。 D、混合模型在有噪聲和離群點時不會存在問題。78. 以下哪個聚類算法不屬于基于網格的聚類算法( D )。A、STING B、WaveCluster C、MAFIA D、BIRCH79. 一個對象的離群點得分是該對象周圍密度的逆。這是基于(
51、C )的離群點定義。 A概率 B、鄰近度 C、密度 D、聚類80. 下面關于JarvisPatrick(JP)聚類算法的說法不正確的是( D )。 A、JP聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇。 B、JP算法對高維數據效果良好,尤其擅長發現強相關對象的緊致簇。 C、JP聚類是基于SNN相似度的概念
52、。 D、JP聚類的基本時間復雜度為O(m)。二、 多選題1. 通過數據挖掘過程所推倒出的關系和摘要經常被稱為:(A B) A. 模型 B. 模式 C. 模范 D. 模具2 尋找數據集中的關系是為了尋找精確、方便并且有價值地總結了數據的某一特征的表示,這個過程包括了以下哪些步驟? (A B C D)A. 決定要使用的表示的特征和結構B. 決定如何量化和比較不同表示擬合數據的好壞C. 選擇一個算法過程使評分函數最優D.
53、決定用什么樣的數據管理原則以高效地實現算法。3. 數據挖掘的預測建模任務主要包括哪幾大類問題? (A B) A. 分類 B. 回歸 C. 模式發現 D. 模式匹配4. 數據挖掘算法的組件包括:(AB C D) A. 模型或模型結構 B. 評分函數 C. 優化和搜索方法 D. 數據管理策略5. 以下哪些學科和數據挖掘有密切聯系?(A D) A. 統計 B. 計算
54、機組成原理 C. 礦產挖掘 D. 人工智能6. 在現實世界的數據中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有: ()A忽略元組 C使用一個全局常量填充空缺值B使用屬性的平均值填充空缺值 D使用與給定元組屬同一類的所有樣本的平均值 E使用最可能的值填充空缺值7.下面哪些屬于可視化高維數據技術 ()A 矩陣 B 平行坐標系
55、; C星形坐標 D散布圖 E Chernoff臉8. 對于數據挖掘中的原始數據,存在的問題有: ()A 不一致 B重復 C不完整 D 含噪聲 E 維度高 9.下列屬于不同的有序數據的有:()A 時序數據 B 序列數據 C時間序列數據 D事務數據 E空間數據 10.下面屬于數據集的一般特性的有:( B C D)A 連續性
56、; B 維度 C稀疏性 D 分辨率 E 相異性11. 下面屬于維歸約常用的線性代數技術的有: (A C)A 主成分分析 B 特征提取 C 奇異值分解 D特征加權 E 離散化12. 下面列出的條目中,哪些是數據倉庫的基本特征: (ACD)A. 數據倉庫是面向主題的 B. 數據倉庫的數據是集成的 C. 數據倉庫的數據是相對穩定的&
57、#160; D. 數據倉庫的數據是反映歷史變化的 E. 數據倉庫是面向事務的13. 以下各項均是針對數據倉庫的不同說法,你認為正確的有(BCDE )。A數據倉庫就是數據庫B數據倉庫是一切商業智能系統的基礎C數據倉庫是面向業務的,支持聯機事務處理(OLTP)D數據倉庫支持決策而非事務處理E數據倉庫的主要目標就是幫助分析,做長期性的戰略制定14. 數據倉庫在技術上的工作過程是: (ABCD)A. 數據的抽取 B. 存儲和管
58、理 C. 數據的表現D. 數據倉庫設計 E. 數據的表現15. 聯機分析處理包括以下哪些基本分析功能? (BCD)A. 聚類 B. 切片 C. 轉軸 D. 切塊 E. 分類16. 利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物籃中產生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)ID 項集1 面包、牛奶2 面包、尿布、啤酒、雞蛋3 牛奶、尿布、啤酒、可樂4 面包、
59、牛奶、尿布、啤酒5 面包、牛奶、尿布、可樂A、啤酒、尿布 B、啤酒、面包 C、面包、尿布 D、啤酒、牛奶17. 下表是一個購物籃,假定支持度閾值為40%,其中_(A D)_是頻繁閉項集。TID 項1 abc2 abcd3 bce4 acde5 deA、abc B、adC、cd D、de18. Apriori算法的計算復雜度受_(ABCD)?_影響。A、支持度閥值 B、項數(維度)C、事務數 D、事務平均寬度19. 非頻繁模式_(AD)_A、其支持度小于閾值 B、都是不讓人感興趣的C、包含負模式和負相關模式 D、
60、對異常數據項敏感20. 以下屬于分類器評價或比較尺度的有: A,預測準確度 B,召回率 C,模型描述的簡潔度 D,計算復雜度 (ACD)21. 在評價不平衡類問題分類的度量方法有如下幾種,A,F1度量 B,召回率(recall) C,精度(precision) D,真正率(turepositive rate,TPR) (ABCD)22. 貝葉斯信念網絡(BBN)有如下哪些特點,A,構造網絡費時費力 B,對模型的過分問題非常魯棒 C,貝葉斯網絡不適合處理不完整的數據 D,網絡結構確定后,添加變量相當麻煩 (AB)23. 如下哪些不是最近鄰分類器的特
61、點,A,它使用具體的訓練實例進行預測,不必維護源自數據的模型 B,分類一個測試樣例開銷很大C,最近鄰分類器基于全局信息進行預測 D,可以生產任意形狀的決策邊界 (C)24. 如下那些不是基于規則分類器的特點,A,規則集的表達能力遠不如決策樹好 B,基于規則的分類器都對屬性空間進行直線劃分,并將類指派到每個劃分 C,無法被用來產生更易于解釋的描述性模型 D,非常適合處理類分布不平衡的數據集 (AC)25. 以下屬于聚類算法的是(ABD )。 A、K均值
62、B、DBSCAN C、Apriori D、Jarvis-Patrick(JP)26.( CD )都屬于簇有效性的監督度量。 A、輪廓系數 B、共性分類相關系數 C、熵 D、F度量27. 簇有效性的面向相似性的度量包括( BC )。 A、精度
63、 B、Rand統計量 C、Jaccard系數 D、召回率28.( ABCD )這些數據特性都是對聚類分析具有很強影響的。 A、高維性 B、規模 C、稀疏性 D、噪聲和離群點29. 在聚類分析當中,( AD )等技術可以處理任意形
64、狀的簇。 A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Chameleon30. ( AB )都屬于分裂的層次聚類算法。 A、二分K均值 B、MST C、Chameleon D、組平
65、均1. 數據挖掘的主要任務是從數據中發現潛在的規則,從而能更好的完成描述數據、預測數據等任務。 (對)2. 數據挖掘的目標不在于數據采集策略,而在于對于已經存在的數據進行模式的發掘。(對)3. 圖挖掘技術在社會網絡分析中扮演了重要的角色。(對)4. 模式為對數據集的全局性總結,它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區域做出描述。(錯)5. 尋找模式和規則主要是對數據進行干擾,使其符合某種規則以及模式。(錯)6. 離群點可以是合法的數據對象或者值。(對)7. 離散屬性總是具有有限個值。(錯)8. 噪聲和偽像是數據錯誤這一相同表述的兩種叫法。(錯)9. 用于分類的離散化方
66、法之間的根本區別在于是否使用類信息。(對)10. 特征提取技術并不依賴于特定的領域。(錯)11. 序列數據沒有時間戳。(對)12. 定量屬性可以是整數值或者是連續值。(對)13. 可視化技術對于分析的數據類型通常不是專用性的。(錯)14. DSS主要是基于數據倉庫.聯機數據分析和數據挖掘技術的應用。(對)15. OLAP技術側重于把數據庫中的數據進行分析、轉換成輔助決策信息,是繼數據庫技術發展之后迅猛發展起來的一種新技術。(對)16. 商業智能系統與一般交易系統之間在系統設計上的主要區別在于:后者把結構強加于商務之上,一旦系統設計完畢,其程序和規則不會輕易改變;而前者則是一個學習型系統,能自動
67、適應商務不斷變化的要求。(對)17. 數據倉庫中間層OLAP服務器只能采用關系型OLAP (錯)18數據倉庫系統的組成部分包括數據倉庫,倉庫管理,數據抽取,分析工具等四個部分. (錯)19. Web數據挖掘是通過數據庫仲的一些屬性來預測另一個屬性,它在驗證用戶提出的假設過程中提取信息. (錯)21. 關聯規則挖掘過程是發現滿足最小支持度的所有項集代表的規則。(錯)22. 利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數(對)。23. 先驗原理可以表述為:
68、如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。(錯24. 如果規則 不滿足置信度閾值,則形如的規則一定也不滿足置信度閾值,其中 是X的子集。(對)25. 具有較高的支持度的項集具有較高的置信度。(錯)26. 聚類(clustering)是這樣的過程:它找出描述并區分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。 (錯)27. 分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續數值。(對)28. 對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結果沒有影響。(對)29. Bayes法是一種在已知后驗概
69、率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。 (錯)30.分類模型的誤差大致分為兩種:訓練誤差(training error)和泛化誤差(generalization error). (對)31. 在決策樹中,隨著樹中結點數變得太大,即使模型的訓練誤差還在繼續減低,但是檢驗誤差開始增大,這是出現了模型擬合不足的問題。(錯)32. SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經常被稱為最小邊緣分類器(minimal margin classifier)
70、0; (錯)33. 在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差。(錯)34. 聚類分析可以看作是一種非監督的分類。(對)35. K均值是一種產生劃分聚類的基于密度的聚類算法,簇的個數由算法自動地確定。(錯36. 給定由兩次運行K均值產生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優。(錯)37. 基于鄰近度的離群點檢測方法不能處理具有不同密度區域的數據集。(對)38. 如果一個對象不強屬于任何簇,那么該對象是基于聚類的離群點。(對)39. 從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。(錯)40. DBSCAN是相對抗噪聲
71、的,并且能夠處理任意形狀和大小的簇。(對)普加搜索引擎面試題:一、基本問答題:1.冒泡和插入排序哪個快?快多少?一樣快(如果插入排序指的是直接插入排序的話)一樣快(如果插入排序指的是折半插入排序的話)一樣快(如果插入排序指的是二路插入排序的話)一樣快(如果插入排序指的是表插入排序的話)插入排序快(如果插入排序指的是希爾插入排序的話)理論上快O(n2) O(n1.3)。 2.請說明冒泡排序和插入排序的序列應用何種數據結構儲存更好?分別對應著STL中哪個Tempelate?冒泡排序用數組比較好,對應著template中的vector;插入排序用鏈表比較好,對應著template中的deq
72、ue。 3.在只有命令行的條件下,你喜歡怎樣調試程序?在linux平臺下下用gcc進行編譯,在windows平臺下用cl.exe進行編譯,用make工具根據目標文件上一次編譯的時間和所依賴的源文件的更新時間自動判斷應當編譯哪些源文件,提高程序調試的效率。 4.數據的邏輯存儲結構(如數組,隊列,樹等)對于軟件開發具有十分重要的影響,試對你所了解的各種存儲結構從運行速度、存儲效率和適用場合等方面進行簡要地分析。 運行速度存儲效率適用場合數組快高比較適合進行查找操作,還有像類似于矩陣等的操作鏈表較快較高比較適合增刪改頻繁操作,動態的分配內存隊列較快較高比較適合進行任務類等的調度棧一般較高比較適合遞歸類程序的改寫二叉樹(樹)較快一般一切具有層次關系的問題都可用樹來描述圖一般一般除了像最小生成樹、最短路徑、拓撲排序等經典用途。還被用于像神經網絡等人工智能領域等等。 5.什么是分布式數據庫?分布式數據庫系統是在集中式數據庫系統成熟技術的基礎上發展起來的,但不是簡單地把集中式數據庫分散地實現,它具有自己的性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB32/T 3891-2020美甲及手足護理服務規范
- DB32/T 3802-2020南美白對蝦肝腸胞蟲巢式聚合酶鏈式反應(PCR)檢測方法
- DB32/T 3544-2019臨床級人體組織來源間充質干細胞質量控制管理規范
- DB32/T 3520-2019早熟棉直播栽培技術規程
- DB32/T 1265-2020天目湖白茶加工技術規程
- DB31/T 994-2016危險化學品建設項目職業病危害與安全預評價導則
- DB31/T 978-2016同步注漿用干混砂漿應用技術規范
- DB31/T 949.1-2015文化旅游空間服務質量要求第1部分:商業體
- DB31/T 888-2015上海名牌(服務)評價通則
- DB31/T 868-2014企業質量信用評估機構服務規范
- 關稅系統崗位練兵關稅業務知識練習試題附答案
- 元素化合物的轉化關系網絡圖Word版
- 心肌病 教學講解課件
- 綠化改造零星工程合同范本(3篇)
- 三坐標測量儀點檢表
- 脛腓骨骨折護理課件
- 最新工商企業管理-工商企業管理畢業論文范文
- 監控錄像調取申請表
- 《屠呦呦》幻燈片課件
- InDesign-CC-2019排版技術案例教程全書電子教案完整版課件
- 清朝治理新疆地區系統性治理課件(16ppt+視頻)2022年新疆地方史讀本(中學版)
評論
0/150
提交評論