數據分析和數據挖掘作業

上傳人：新*** IP屬地：河北上傳時間：2024-07-01 格式：PDF 頁數：80 大小：4.44MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩75頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1.下列屬于數據挖掘任務的是（）

根據性別劃分公司的顧客

回

計算公司的總銷售額

預測一對骰子的結果

目

利用歷史記錄預測公司的未來股價

2.可以在不同維度合并數據，從而形成數據立方體的是（）

數據庫

回

數據源

國

數據倉庫

數據庫系統

3.目的是縮小數據的取值范圍，使其更適合于數據挖掘算法的需要，并且

能夠得到和原始數據相同的分析結果的是（）

數據清洗

回

數據集成

數據變換

回

數據歸約

4.下述四種方法哪一種不是常見的分類方法（）

決策樹

回

支持向量

K-Means

樸素貝葉斯分類

5.下列任務中，屬于數據挖掘技術在商務智能方面應用的是（）

欺詐檢測

回

垃圾郵件識別

根據因特網的搜索引擎查找特定的Web頁面

定向營銷

6.異常檢測的應用包括（）

網絡攻擊

預測某股票的未來價格

計算公司的總銷售額

根據性別劃分公司顧客

7.將原始數據進行集成、變換、維度規約、數值規約是哪個步驟的任務

頻繁模式挖掘

分類和預測

數據預處理

數據流挖掘

8.KDD是（）

數據挖掘與知識發現

領域知識發現

文檔知識發現

動態知識發現

9.下列有關離群點的分析錯誤的是（）

一般情況下離群點會被當作噪聲而丟棄

畫

離群點即是噪聲數據

在某些特殊應用中離群點有特殊的意義

信用卡在不常消費地區突然消費大量金額的現象屬于離群點分析范疇

10.下列關于模式識別的相關說法中錯誤的是（）

模式識別的本質是抽象出不同事物中的模式并由此對事物進行分類

回

醫療診斷屬于模式識別的研究內容之一

手機的指紋解鎖技術不屬于模式識別的應用

自然語言理解也包含模式識別問題

11.（）不屬于數據挖掘的應用領域。

商務智能

回

信息識別

搜索引擎

回

醫療診斷

12.目前數據分析和數據挖掘面臨的挑戰性問題不包括（）

數據類型的多樣化

回

高維度數據

離群點數據

分析與挖掘結果可視化

1.常見的機器學習方法有、、。

作答區

監督學習

正確答案:["監督學習”]

無監督學習

正確答案：[”無監督學習"]________________________________________________________________________

半監督學習

正確答案:[”半監督學習"]

2.是從大規模的數據中抽取或挖掘出感興趣的知識或模式的過程或方

法。

作答區

數據挖掘

正確答案:["數據挖掘」

3.是指在數據集中頻繁出現的模式。

作答區

頻繁模式

正確答案:["頻繁模式"]

4.是指全局或局部范圍內偏離一般水平的觀測對象。

作答區

離群點

正確答案:["離群點"]

5.是數據倉庫系統的主要應用。

作答區

聯機分析處理

正確答案:[”聯機分析處理”]

6.是通過建立模型預測離散的標簽，而則是通過建立連續值模型

推斷新的數據的某個數值型屬性。

作答區

分類

正確答案:["分類"]

回歸

正確答案:["回歸”]

7.數據庫是面向的設計，數據倉庫是面向設計的。

作答區

事務

111

正確答案:[”事務"]

主題

了2

正確答案:["主題”]

8.數據挖掘主要側重解決四類問題:和預測（定量、定

性）。

作答區

分類

正確答案:「'分類"]

聚類

了2

正確答案:["聚類"]

關聯

下3

正確答案:「關聯」

9.數據分析是指采用適當的方法對收集到的數據進行分析、概括和總

結。

作答區

統計分析

《II

正確答案:["統計分析"]

10.是一個目標類數據的一般特性或特性的匯總。

作答區

數據特征化

〃?IF

正確答案:["特征化"，"數據特征化」

1.無監督學習可以在沒有標記的數據集上進行學習。（T）

2.聚類就是把一些對象劃分為多個組或者聚簇，從而使同組內對象間比較相

似而不同組對象間差異較大。（T）

3.事務數據庫的每個記錄代表一個事務。（T）

4.數據倉庫和數據庫其實是相同的，都是數據或信息的存儲系統。（）F

5.區分是將目標類數據對象的一般特性與一個或多個對比類對象的一般特性

進行比較。（）T

6.離群點因偏離一般水平而不需要考慮和研究。（）F

7.聚類過程的輸入對象有與之關聯的目標信息。（）F

8.數據挖掘的主要任務是從數據中發現潛在的規則，從而能更好的完成描述

數據、預測數據等任務。（）T

9.數據挖掘的目標不在于數據采集策略，而在于對于已經存在的數據進行模

式的發掘。（）T

10.數據倉庫一般存儲在線交易數據，數據庫存儲的一般是歷史數據。

（）F

11.數據分析是指采用適當的統計分析方法對收集到的數據進行分析、概括

和總結，對數據進行恰當的描述，并提取出有用的信息的過程。（）T

12.數據分析的定義：數據分析就是對數據進行分析。專業的說法，數據分

析是指根據分析目的，用適當的統計分析方法及工具，對收集來的數據進行

處理與分析，提取有價值的信息，發揮數據的作用。（）T

13.數據庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據

集合，用于支持管理決策。（）F

1.下面哪個不屬于數據的屬性類型（）。

標稱

回

序數

區間

回

相異

2.屬于定量的屬性類型是（）。

標稱

回

序數

國

區間

相異

3.一所大學內的各年紀人數分別為：一年級200人，二年級160人，三年

級130人，四年級110人。則年級屬性的眾數是（）。

一年級

回

二年級

三年級

四年級

4.假設屬性income的最大最小值分別是12000元和98000元。利用最大

最小規范化的方法將屬性的值映射到0至1的范圍內。對屬性income的7360

0元將被轉化為（）。

0.821

回

1.224

?1.458

回

0.716

5.考慮數據集{12243324556826},其四分位數極差是（）。

同

回

6.光年所屬的屬性類型為（）。

標稱屬性

回

序數屬性

區間標度屬性

向

比率標度屬性

8.某班數學期末考成績分組數據如下，則數據的中位數區間是（）。

分數人數

0至59分3

60至69分10

70至79分18

80至89分11

90至100分8

60至69分

畫

70至79分

80至89分

90至100分

9.軍銜所屬的屬性類型為()。

標稱屬性

畫

序數屬性

二元屬性

數值屬性

11.計算p1(2,1,4,10)和p2(3,0,3,8)兩個對象之間的曼哈頓距離

()0

回

國

12.用AM和PM表示的時間的屬性類型是()。

標稱

序數

區間

回

二元

1.屬性可以分為、、和四類。

作答區

標稱屬性

標稱屬性1

dIJ

正確答案標稱屬性”，"標稱"]

二元屬性

二元屬性72

d_l

正確答案:["二元屬性“，"二元"]

序數屬性

正確答案:["序數屬性"，"序數"]

數值屬性

ill

正確答案:["數值屬性"，"數值"]

2.中心趨勢度量包括和

作答區

均值

dI了?

正確答案:["均值"]

中列數

ill了2

正確答案:["眾數"]

中位數

中位數了3

正確答案:[”中位數]

眾數

眾數4

ill

正確答案:["中列數"]

11.只有非零值才重要的二元屬性被稱作

作答區

非對稱二元屬性

非對稱二元屬性1

dI/

正確答案:[”非對稱二元屬性"，"非對稱二元"]

人的血型屬于標稱屬性。T

2.酒店的星級屬于數值屬性。F

離散屬性總是具有有限個值。F

5.標稱屬性的值提供了足夠的信息用于區分對象。T

6.數值屬性的值提供足夠的信息確定對象的順序。F

7.歐幾里得距離、曼哈頓距離、閔可夫斯基距離和切比雪夫距離均滿足非

負性、同一性和三角不等式。T

8.余弦相似性利用向量空間中兩個向量夾角的余弦值來衡量兩個個體間的

差異。余弦值越接近0,夾角越大，向量之間匹配越大。余弦值越接近1,

夾角越小，向量之間匹配越小。F

9.二元屬性的相異性有兩種，一種是對稱的二元相異性，另一種是非對稱

的二元相異性。T

4.計算由不對稱的二元變量描述的對象間的相異度可以使用

Jaccard系數；計算用分類變量描述的對象間的相異度可以采用屬性

值匹配的方法（屬性值匹配，相似度為1,否則為0）；T

1.下面屬于維歸約常用的線性代數技術的有（）

主成分分析

回

特征提取；

特征加權

離散化

2.將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的

任務（）

頻繁模式挖掘

回

分類和預測

數據預處理

回

數據流挖掘

4.數據清理不包括以下哪些處理（）

缺失值的處理

回

噪聲的處理

重復數據的處理

不一致數據的處理

5.數據規范化方法包括（）

數據歸約

回

數據泛化

數據集成

回

最小最大規范化

1.下列數據變換類型及方法正確的是（）

數據平滑：去噪，將連續數據離散化，增加粒度

同

數據聚集：對數值屬性進行監督或無監督離散化

特征構造：構造出新的屬性

回

數據規范化：使數據按照比例縮放，落入特定區域

2.數據變換的類型包括（）

數據預處理

目

數據泛化

數據離散化

特征構造

3.數據歸約技術包括（）

維歸約

日

數量歸約

數據壓縮

數據清理

4.下面哪些屬于數據預處理的方法（）

變量代換

目

離散化

聚集

估計遺漏值

5.在現實世界的數據中，元組在某些屬性上缺少值是常有的。描述處理該

問題的各方法正確的有（）

忽略元組

從數據中挑選一個數據填寫

使用屬性的平均值填充空缺值

使用與給定元組屬同一類的所有樣本的平均值

6.數據清理的原則包括（）

相異性原則

目

連續性原則

唯一性原則

國

空值原則

2.高質量數據的要求有、、。

作答區

準確性

dI才

正確答案:["準確性"]

完整性

<1I

正確答案:["完整性"]

一致性

了3

正確答案:["一致性"]

3.數據預處理的技術手段包括

作答區

數據清理

VII

正確答案:[”數據清理」

數據集成

數據集成)2

?|I

正確答案:["數據集成"]

數據歸約

2Ujd

正確答案:["數據變換"]

數據變換

dI74

正確答案:["數據歸約"]

6.在現實世界的數據中，元組在某些屬性上的缺失值是常有的。處理該問

題的常用方法有、、。

作答區

刪除數據對象或屬性

ill

正確答案:[”刪除數據對象或屬性"]

估計遺漏值

估計遺漏值了2

111

正確答案:[”估計遺漏值”]

忽略遺漏值

忽略遺漏值&對數據進行偏差檢測的二j3

正確答案:["忽略遺漏值"]

8.對數據進行偏差檢測的3個原則分別是

作答區

唯一性原則

唯?性原則

正確答案:「唯一性原則"]

連續性原則

連續性原則32

正確答案連續性原則”]

空值原則

正確答案:["空值原則”]

數據歸約技術包括

作答區

維歸約

正確答案:["維歸約"]

數量歸約

“I了2

正確答案:["數量歸約"]

數據壓縮

正確答案:["數據壓縮"]

在使用分箱法實現特征離散化時，可以用每個箱中的或

替換箱中所有的值。

作答區

平均值

<1I

正確答案:["中位數"，"中值」

中位數

,1I

正確答案:[”平均值"，"平均數”]

12.數據清理一般需要對和進行處理。

作答區

缺失值

正確答案:["缺失值"]

噪聲數據

ill

正確答案:[“噪聲"，”噪聲數據"]

我們要進行數據預處理，是因為原始數據大多都是“

作答區

臟數據

<1I

正確答案:[”臟數據"]

14.四種處理缺失數據的方法是

作答區

直接刪除缺失屬性的記錄

直接刪除缺失屬性的記錄1

正確答案:['猥接刪除畛屬性的空"]

人工填寫

ill

正確答案:["人工填寫"]

使用全局常量填充缺失值

使用全局常量填充缺失值3

?|I『

正確答案：[“使用全局常精填充缺失值」

使用屬性的中心趨勢度量值填充缺失值

正確答案:["使用屬性的中心趨勢度量值填充缺失值”]

15.數據平滑的方法包括、和

作答區

分箱

正確答案“分箱」

回歸

正確答案:歸"]

聚類

<1I_d

正確答案:["聚類”]

噪聲是指被測量的變量產生的錯誤或誤差。F

數據規約技術可以得到數據集的規約表示，雖然小，但仍大致保持原數據

的完整性T

數據變換是通過平滑聚集、數據概化、規范化等方式將數據轉換成適用于

數據挖掘的形式。T

數據預處理的任務包括數據清理、數據集成、數據規約和數據泛化。F

唯一性原則是指一個屬性的每個值都是唯一的，不能和這個屬性的其他值

相同。T

數據變換策略主要包括光滑、聚集、數據泛化、規范化、屬性構造和離散

化。T

每個屬性的最大值和最小值之間沒有缺失值既滿足連續性原則。F

數據挖掘所處理的數據必須具有準確性、完整性、一致性、時效性、可信

性和可解釋性。F

數據規約就是指對數據集進行簡化表示。T

數據集成有助于減少結果數據集的冗余和不一致，可以提高集成之后的挖

掘過程的準確性和速度。T

在確定數據中的離群點時，一般不必檢查整個數據集T

數據倉庫是隨著時間變化的，下面的描述不正確的是（）

捕捉到的新數據會覆蓋原來的快照

回

數據倉庫隨時間的變化不斷增加新的數據內容

國

數據倉庫隨著事件變化不斷刪去舊的數據內容

數據倉庫中的綜合數據會隨著時間的變化不斷地進行重新綜合

關于基本數據的元數據是指（）

基本元數據包括與企業相關的管理方面的數據和信息

回

基本元數據包括日志文件和簡歷執行處理的時序調度信息

基本元數據包括數據源，數據倉庫和應用程序等結構相關的信息

回

基本元數據包括關于裝載和更新處理，分析處理以及管理方面的信息

下面關于數據粒度的描述不正確的是（）

0數據越詳細，粒度就越小，級別也就越高

n粒度是指數據倉庫小數據單元的詳細程度和級別

Q數據綜合度越高，粒度也就越大，級別也就越高

回粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量

有關數據倉庫的開發特點，不正確的描述是（）

Q數據倉庫開發要從數據出發

同數據倉庫使用的需求在開發時就要明確

?數據倉庫的開發是一個不斷循環的過程，是啟發式的開發

回在數據倉庫環境中，并不存在操作型環境中所固定的和較確切的處理

流，數據倉庫中數據分析和處理更靈活，且沒有固定的模式

在有關數據倉庫測試，下列說法不正確的是（）

0在完成數據倉庫的實施過程中，需要對數據倉庫進行各種測試

目在數據倉庫進行測試之前一般不必要制定非常詳細的測試計劃

口系統測試需要對數據倉庫的組件進行大量的功能測試和回歸測試

回當數據倉庫的每個單獨組件完成后，就需要對他們進行單元測試

OLAP技術的核心是（）

在線性

回

快速響應

互操作性

向

多維分析

關于OLAP和OLTP的說法，下列不正確的是（）

?OLAP管理大量歷史數據，OLTP僅管理當前數據

目OLAP主要用于事務和查詢處理，而OLTP用于數據分析

?OLAP中綜合提煉的數據主要來自OLTP所依賴的底層數據庫

叵|OLAP數據較之OLTP數據要進行更多的數據維護或預處理的操作

數據倉庫設計的三級數據模型不包含（）

0概念模型

同邏輯模型

國關系模型

回物理模型

改變數據立方體維次序的操作是（）

切片

回

切塊

上卷

回

旋轉

在給定的數據立方體的一個維度上進行的選擇操作為（）

切片

下列選項中關于粒度描述錯誤的是：

粒度是指數據倉庫的數據單位中保存數據細化或綜合程度的級別；

畫

粒度影不響存放在數據倉庫中的數據量的大小

粒度影響數據倉庫所能回答查詢問題的細節程度；

粒度組織數據的方式有：①簡單堆積結構；②輪轉綜合結構；③簡單直接結

構；④連續結構。

簡述數據倉庫設計的三級模型及其基本內容,不正確的是。

概念模型設計：對問題域內事務進行描述，是在較高的抽象層次上的設計,

其主要內容包括：界定系統邊界和確定主要的主題域；

回

邏輯模型設計：對概念模型細化，定義實體屬性及其關系，主要內容包括:

分析主題域、確定粒度層次劃分、確定數據分割策略、定義關系模式、定義記

錄系統；

物理數據模型設計：在數據庫中建立表及索引，主要內容包括確定數據存

儲結構、確定數據存放位置、確定存儲分配以及確定索引策略等。

三種模型設計時主要考慮的因素有I/O存取時間、空間利用率和維護代價

等。

關于OLAP的特性，下面正確的是（）

集成性

目

快速性

多維性

回

可分析性

數據模型是數據倉庫建設的基礎，一個完整、靈活、穩定的數據模型對數據倉

庫項目的成功起到的重要作用有（）

Q利于數據的整合

目消除數據倉庫的冗余數據

@排除數據描述的不一致性

目為整個系統建設提供導航圖

根據使用情況的不同，元數據可以分為（）

靜態元數據

畫

技術元數據

業務元數據

動態元數據

關于數據倉庫的邏輯模型，正確的說法有（）

是數據倉庫設計中的核心基礎

日

對概念數據模型的分解和細化

對物理模型設計和實現具有指導作用

回

為全局服務，集成全方位數據形成統一藍圖

關于OLAP和OLTP的區別描述，正確的是（）

QOLAP是信息處理，OLTP是操作處理

同.OLAP面向底層管理人員，OLTP面向高層決策人員

因OLAP管理大量歷史數據，OLTP主要關注當前數據

回OLAP數據是細節性數據，OLTP數據則是綜合性數據

OLAP按照數據存儲格式劃分，實現方式有、和HOLAP三種

作答區

ROLAP

ROLAP7

正確答案：["ROLAP"]

MOLAP

MOI.AP

正確答案:["MOLAP”]

根據使用情況的不同，元數據可以分為和業務元數據；根據數據狀態

的區別又可分為和動態元數據。

作答區

技術元數據

正確答案:[”技術元數據”]

靜態元數據

了2

正確答案:[”靜態元數據”]

數據倉庫按照設計順序，依次分為、和三個設計步驟

作答區

概念模型設計

正確答案:["概念模型設計"]

邏輯模型設計

邏輯模型設計2

?|I『

正確答案:[”邏輯模型設計”]

物理模型設計

ill

正確答案"物理模型設計"]

OLAP技術側重于把數據庫中的數據進行分析、轉換成輔助決策信息，是

繼數據庫技術發展之后迅猛發展起來的一種新技術T

數據倉庫中間層OLAP服務器只能采用關系型OLAP。F

數據倉庫系統的組成部分包括數據倉庫，倉庫管理，數據抽取，分析工具

等四個部分。F

數據倉庫測試工作中主要包括單元測試和系統測試。T

改變數據立方體維度的操作稱為下鉆。F

數據倉庫實際的三級模型中的概念模型不是對軟件實際的描述。T

數據倉庫就是一個面向什么的數據集合？

主題的

集成的

非易失的

國

時變

數據倉庫體系結構通常采用一種三層體系結構，底層、中間層、頂層分別通

常為什么？

OLAP服務器

數據倉庫服務器

前端工具

OLAP操作

回歸分析中使用的距離是點到直線的垂直坐標距離，最小二乘準則是指

()O

使犬(Yt-R)達到最小值

回

使墨國-年達到最小值

使maxYt-R達到最小值

國

使濟(丫國)2達到最小值

回歸分析的步驟為()。

①進行相關分析②建立預測模型③確定變量④確定預測值⑤計

算預測誤差

①③④⑤②

同

③①⑤②④

③②①⑤④

③⑤①②④

下列變量之間的關系是函數關系的是（）。

已知二次函數y=ax2+bx+c,其中a,c是已知常數，取b為自變量，因變

量是這個函數的判別式A=b2—4ac。

光照時間和果樹畝產量

口

降雪量和交通事故發生率

每畝施用肥料量和糧食產量

對于回歸分析，下列說法錯誤的是（）。

在回歸分析中，變量間的關系若是非確定性關系，那么因變量不能由自變量

唯一確定

同

線性相關系數可以是正的，也可以是負的

.回歸分析中，如果旌=1,說明x與y之間完全相關

回

樣本相關系數re（-1,1）

某地區調查了2~9歲兒童的身高，由此建立的身高y（cm）與年齡x（歲）

的回歸模型為9=8.25x+60.13,下列敘述正確的是（）。

該地區一個兒童的身高為142.63cm

囪

該地區2~9歲的兒童每年的身高約增加8.25cm

該地區9歲兒童的平均身高是134.38cm

回

利用這個模型可以準確地預測該地區每個2~9歲兒童的身高

已知對一組觀察值做出散點圖后確定具有線性相關關系，若對于y=bx+a,

求得b=0.5Lx=61.75",y=38.14,則線性回歸方程為（）。

y=0.51x+6.65

回

y=6.65x+0.51

y=0.51x+42.30

y=42.30x+0.51

反映由模型中解釋變量所解釋的那部分離差大小的是（）。

總離差平方和

畫

回歸平方和

殘差平方和

可決系數

總離差平方和TSS、殘差平方和RSS與回歸平方和ESS三者的關系是

（）0

TSS>RSS+ESS

目

TSS=RSS+ESS

TSSvRSS+ESS

TSS2=RSS2+ESS2

決定系數取的取值范圍是（）。

0</?2<1

回歸分析中定義的（）。

解釋變量和被解釋變量都是隨機變量

目

解釋變量為非隨機變量，被解釋變量為隨機變量

解釋變量和被解釋變量都為非隨機變量

回

解釋變量為隨機變量，被解釋變量為非隨機變量

最大或然準則是按從模型中得到既得的n組樣本觀測值的什么最大的準則確

定樣本回歸方程（）。

離差平方和

回

均值

概率

方差

已知某農場通過試驗取得早稻收獲量與春季降雨量和春季溫度的數據如下，

則早稻收獲量對春季降雨量和春季溫度的二元線性回歸方程為（）。

收獲量y(kg/hm3)降雨量xl(mm)溫度x2(℃)

2250256

3450338

45004510

675010513

720011014

750011516

825012017

y=327.672+22.386X1-0.591x2

回

沖0.591+22.386x1+327.672x2

目

y=22.386-0.591X1+327.672x2

y=-0.591+22.386X1+327.672x2

為研究某市家庭收入與月平均生活支出的關系，該市統計部門隨機調查了1

。個家庭，得數據如下，則回歸直線方程為()。

家庭編號12345678910

%(收入)千元0.81.11.31.51.51.82.02.22.42.8

匕.(支出)千元0.71.01.21.01.31.51.31.72.02.5

y=-0.0043x+0.0043

同

y=0.8136x-0.0043

y=0.8136x+0.0043

S-=-0.8136x+0.0043

在回歸分析中，檢驗線性相關顯著性常用的三種檢驗方法，包含（）。

相關系數顯著性檢驗法

同

t檢驗法

F檢驗法（即方差檢驗法）

X2檢驗法

回歸方程9=L5x-15，則下列說法不正確的有（）。

y=1.5x-15

畫

15是回歸系數a

□

1.5是回歸系數a

x=10時，y=0

下列關系中具有相關關系的是（）。

人的年齡與他擁有的財富之間的關系

回

曲線上的點與該點的坐標之間的關系

蘋果的產量與氣候之間的關系

畫

森林中的同一種樹木，其斷面直徑與高度之間的關系

下列變量中，屬于正相關的是（）。

收入增加，儲蓄額增加

國

產量增加，生產費用增加

收入增加，支出增加

價格下降，消費增加

回歸分析按照涉及變量的多少，分為:

作答區

一元回歸分析

<1I

正確答案?元回歸分析"]

多元回歸分析

了2

正確答案:[”多元回歸分析”]

若線性回歸方程中的回歸系數b=0,則相關系數r為；

作答區

正確答案:["0"]

某化工廠為預測產品的回收率y,需要研究它和原料有效成分含量x之間的相關關系，現

取8對觀測值，計算得Ryj228.QxH78,工行y,=1849,則其線性回歸方程為

（系數保留兩位小數）

作答區

y=11.47+2.62x

y=l1.47+2.62x-

_d_|

正確答案:["y=2.62x+11.47","y=11.47+2.62X"]

下一題

使用F檢驗對多元線性回歸方程進行線性關系的顯著性檢驗，所求F值越

大，說明線性關系越：

作答區

顯著

正確答案:["顯著”]

在使用決定系數R2對回歸方程進行擬合優度檢驗時，R2越大表示回歸方

程的擬合程度越,R2越小表示回歸方程的擬合程度越0

作答區

正確答案:[“好」

了2

正確答案:["差”]

.是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方

作答區

回歸分析

正確答案:["回歸分析"]

F檢驗運用服從F分布的統計量或方差比作為統計檢驗，通過度量回歸方程的線性

關系是否顯著

作答區

顯著性水平

正確答案:["顯著性水平"，"顯著性水平檢驗"]

下一題

是指分類器/回歸器正確地預測新的或先前未見過的數據的屬性值/類

標號的能力

作答區

分類準確率

分類準確率1

<|IJj

正確答案:["準確率"，"分類準確率"]

當一些變量的值確定以后，另一些變量的值也隨之完全確定的關系，這些

變量間的關系完全是已知的，變量間的關系可以用函數關系表示，我們稱之為—

作答區

確定性關系

ill

正確答案:["確定性關系"]

變量之間有一定的依賴關系，變量之間雖然互相影響和制約，但由于受到無法估計和控制

的因素的影響，使變量間的關系呈現不確定性，當一些變量的值確定以后，另一些變量值

雖然隨之變化，卻不能完全確定，這時，變量間的關系就可以精確地用函數表示，即不能

由一個或若干變量的值精確地確定另一個變量的值，我們稱這樣的關系為

作答區

非確定性關系

正確答案:「‘非確定性關系"]

下一題

在回歸分析中：被解釋變量y是、解釋變量x是

作答區

隨機變量

正確答案:["隨機變量”,"因變量"]

非隨機變量

正確答案:[“非隨機變量"，"自變量"]

下一題

回歸分析通常用于挖掘關聯規則F

某塊農田糧食的產量與施肥量之間的關系為不確定性關系T

多元線性回歸是研究處理兩個變量之間關系的最簡單模型F

回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分

析方法T

時序預測與回歸預測一樣，也是用已知的數據預測未來的值，但這些數據

的區別是變量所處的時間不同F

回歸分析按照自變量和因變量之間的關系類型，可分為線性回歸分析和非

線性回歸分析T

一元線性回歸模型包含一個解釋變量和兩個被解釋變量F

用總平方和表示因變量的n個觀察值與其均值的誤差的總和T

應用回歸預測法時，即使變量之間不存在相關關系，也可以對這些變量應

用回歸預測法F

多元線性回歸模型表示的是多個自變量與一個因變量之間的關系T

SVM通過什么實現線性不可分割問題

特征降維

回

特征篩選

基尼系數

回

核函數

1.下列幾種數據挖掘功能中被廣泛的用于購物籃分析的是（）

A.關聯分析;

回

B.分類和預測；

目

C.聚類分析；

回

D.演變分析

2.某超市研究銷售紀錄數據后發現，買啤酒的人很大概率也會購買尿布,

這種屬于數據挖掘的哪類問題（）

A.關聯規則發現；

回

B.聚類；

C.分類；

D.自然語言處理；

4.置信度（confidence）是衡量哪種興趣度度量的指標（）

A.簡潔性；

目

B.確定性；

目

C.實用性；

回

D.新穎性；

5.關聯規則的支持度公式為()

A.support(A=>B)=P(AAB)；

回

B.support(A=>B)=P(B|A)；

C.support(A=>B)=P(AUB)；

D.support(A=>B)=P(A|B)；

6.下列指標中，能夠度量一個規則的強度，同時衡量兩個集合之間的獨立

性的是()

A.提升度；

回

B.杠桿度；

C.IS度量；

血

D.確信度；

7.規則0TA和A-0的置信度是()

A.50%；

回

B.75%；

C.90%；

國

D.100%；

8.令C1,C2和C3分別是規則｛p｝一｛q｝,｛p｝一｛q,r｝,｛p,r｝一｛q｝的置信度。如果

假定C1,C2和C3有不同的值，置信度最低的規則是（）

A.C1；

目

B.C2；

目

C.C3；

D.C2和C3；

11.如果XWY,且Y中至少有一項不在X中，那么丫是X的（）

A.頻繁項集；

畫

B.真超項集；

C.閉頻繁項集；

D.極大頻繁項集；

12.下列關于Aphori算法的分析中，錯誤的是（）

A.Apriori算法基于支持度的剪枝技術，用來控制候選項集的指數增長;

回

B.Apriori算法包括候選集生成和向下封閉檢測兩個階段；

C.Apriori算法會掃描數據庫2次；

回

D.Apriori算法使用逐層搜索的迭代方法；

13.下表所示的購物籃事務數據集中能夠提取的3-項集的最大數量是（）

事務ID購買項

1｛牛奶，啤酒，尿布｝

2｛面包，黃油，牛奶｝

3｛牛奶，尿布，餅「｝

4｛面包,黃油，餅干｝

5｛啤酒，餅干，尿布｝

6｛牛奶，尿布，面包，黃油｝

7｛面包，黃油，尿布｝

8｛啤酒，尿布｝

9｛牛奶，尿布，面包，黃油｝

10｛啤酒，餅干｝

D.20；

15.下列不屬于Aphori算法的缺點的是（）

A.Apriori算法分為兩個階段挖掘頻繁項集；

B.Apriori算法產生候選項目集時沒有排除無用的候選項集；

C.Apriori算法在每一步產生候選項目集時循環產生的組合過多；

D.在掃描大型數據庫時，Apriori算法會大大增加計算機系統I/O開銷;

2.下表是一個購物籃，假定支持度閾值為40%,其中哪幾個是頻繁閉項集（）

TID項

1abc

2abed

3bee

4acde

5de

A.abc；

B.ad；

C.cd；

D.de；

正確答案

4.以下關于非頻繁模式說法，正確的是（）

A.其支持度小于閾值；

回

B,都是不讓人感興趣的;

C.其支持度大于閾值;

D.對異常數據項敏感；

6.下列關于FP-growth算法優缺點的表述中，正確的有（）

A.相比于Apriori算法，FP-growth算法運行速度要快一個數量級;

B.FP-growth算法在建立FP-tree時占用空間較小;

C.FP-growth算法無須多次掃描數據庫，節省了運行時間;

D.FP-growth算法處理產生的條件樹時會占用很多資源;

Aprior算法包括和兩個基本步驟。

作答區

正確答案:["連接]

正確答案:[”剪枝"]

2.關聯規則的經典算法包括和，其中的效率更高。

作答區

Apriori

ill

正確答案:["Apriori"]

FP-growth

正確答案:["FP-growth"]

FP-growth

正確答案:["FP-growth"]

關聯規則的置信度公式為confidence(A=>B)=

作答區

P(B\A)

d_J

正確答案:["P(B|A)"]

同時滿足和的規則稱之為強關聯規則。

作答區

最小支持度

正確答案:[”最小支持度閾值"]

最小置信度

了2

正確答案:[”最小置信度閾值"]

如果一個項集的直接超集都不具有和它相同的支持度計數，則稱其為:.

作答區

閉頻繁項集

閉頻繁項集>J

正確答案:[“閉項集」

下一題

在挖掘閉模式算法中，直接搜索閉頻繁項集，并對結果進行剪枝是最常用

的方法，其中剪枝的策略包括和

作答區

項合并

正確答案：[”項合并"]

子項集剪枝

“了?項I集剪枝2

正確答案:["子項集剪枝"]

不包含任何考察項集的事務稱為:

作答區

零事務

正確答案:「零事務"]

頻繁出現在數據集中的模式稱為;

作答區

頻繁模式

正確答案:["頻繁模式"]

關聯規則挖掘任務主要分為和兩個子任務。

作答區

頻繁項集產生

正確答案:["頻繁項集的產生,,]

關聯規則產生

正確答案:[”關聯規則的產生"]

大型數據庫中的關聯規則挖掘包含找出所有和由產生兩個

過程。

作答區

頻繁項集

頻繁項集1

正確答案:["頻繁項集”]

頻繁項集

頻繁項集2

<1I_LJ

正確答案:["頻繁項集”]

強關聯規則

強關聯規則3

正確答案:[”強關聯規則"]

FP-growth算法的基本思想是用FP-growth形成頻繁集。

作答區

樹

正確答案:["遞歸增長"]

計算關聯規則｛牛奶｝=>｛咖啡｝的支持度和置信度：（答案保留小數

點后兩位）

購買咖啡不購買咖啡行和

購買牛奶20005002500

不購買牛奶100015002500

列和300020005000

作答區

0.40

正確答案:["0.40"]

0.80

0.802

正確答案:「0.66”]

從上題的數據中計算牛奶與咖啡之間的提升度和杠桿度:.（答案

保留小數點后一位）

作答區

0.8

ill

正確答案

-0.1

正確答案:["0.1"]

關聯規則挖掘過程是發現滿足最小支持度的所有項集代表的規則。F

利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數。T

先驗原理可以表述為：如果一個項集是頻繁的，那包含它的所有項集也是頻繁

的。F

先驗原理可以表述為：如果一個項集是頻繁的，那包含它的所有非空子集也是

頻繁的。T

具有較高的支持度的項集具有較高的置信度。F

如果兩個項集的提升度的值小于1,則說明兩個項集正相關。F

兩個項集的全置信度越大，說明兩個項集的關系越緊密，反之則關系越疏遠。

極大頻繁項集的直接超集都不是頻繁的。T

可信度是對關聯規則的準確度的衡量。T

Apriori算法是一種典型的關聯規則挖掘算法。T

關聯規則是形如X=＞丫的蘊含式，X和丫滿足：X和丫是I的真子集，并且X

和丫的交集為空集。T

設最小支持度閾值為30%,最小置信度閾值為70%,如果一個項集的支持度為

50%,則該項集是頻繁項集。T

下表給出了一個關于動物類別的訓練數據。數據集包含5個屬性：warm_bl

ooded、feathers、fur、swims、lays_eggso若樣本按warm_blooded戈U分，

對應的焙為（）

序號warmbloodedfeathersfurswimslayseggs

111001

200011

31100I

411001

510010

610100

A.0.809；

下面的例子被分為3類:{Short,Tall,Medium},Height屬性被劃分為

(0,1.6),(1.6,1.7),(1.7,1.8),(1.8,1.9),(1.9,2.0),

(2.0,8),根據下表，對于t=<Adam,M,1.95m>用貝葉斯分類方法進行分

類，則最終結果為()

No.NameGenderHeightOutput

1KristinaF1.6mShort

2JimM2mTall

3MaggieF1.9mMedium

4MarthaF1.88mShort

5StephanieF1.7mMedium

6BobM1.85mShort

7KathyF1.6mShort

8DaveM1.7mShort

9WorthM2.2mTall

10StevenM2.1mTall

11DebbieF1.8mMedium

12ToddM1.95mMedium

13KimF1.9mMedium

14AmyF1.8mMedium

15WynetteF1.75mMedium

A.Short；

B.Tall；

下列是有關于是否購買電腦的數據集，其中學歷，是否結婚，收入為特征,

表中最后一列類別代表是否購買電腦，則數據集的信息端為（）

ID學歷是否結婚收入類別

1專科否中是

2專科是低否

3專科是中是

4本科否高是

5本科否中否

6本科否低否

7本科是中是

8研究生是高是

9研究生是中否

10研究生否高是

A.0.254；

回

B.0.376；

C.0.971；

下面的數據集包含兩個屬性X和丫，兩個類標號"+"和"一"。每個屬性取三個

不同的值：0,1或2。"+"類的概念是丫=1,"-"類的概念是X=0或X=2。則

由表構建的決策樹的F1值（對"+”類定義）是（）。

實份數

000100

1000

200100

0110100

11100

2110100

020100

1200

220100

A.0.33；

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

數據分析和數據挖掘作業

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

數據分析和數據挖掘作業

文檔簡介

溫馨提示

最新文檔

評論

相關文檔