




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據分析與可視化數據分析與可視化1. 什么是數據分析?數據分析是基于商業目的,有目的的進行收集、整理、加工和分析數據,提煉有價信息的一個過程。其過程概括起來主要包括: 明確分析目的與框架、數據收集、數據處理、數據分析、數據展現和撰寫報告等 6 個階段。1、明確分析目的與框架一個分析項目,你的數據對象是誰?商業目的是什么?要解決什么業務問題?數據分析師對這些都要了然于心。 基于商業的理解, 整理分析框架和分析思路。例如,減少新客戶的流失、優化活動效果、 提高客戶響應率等等。 不同的項目對數據的要求,使用的分析手段也是不一樣的。2、數據收集數據收集是按照確定的數據分析和框架內容,有目的的收集、 整
2、合相關數據的一個過程, 它是數據分析的一個基礎。3、數據處理數據處理是指對收集到的數據進行加工、整理,以便開展數據分析, 它是數據分析前必不可少的階段。這個過程是數據分析整個過程中最占據時間的,也在一定程度上取決于數據倉庫的搭建和數據質量的保證。數據處理主要包括數據清洗、 數據轉化等處理方法。4、數據分析數據分析是指通過分析手段、 方法和技巧對準備好的數據進行探索、 分析,從中發現因果關系、內部聯系和業務規律,為商業目提供決策參考。到了這個階段,要能駕馭數據、開展數據分析,就要涉及到工具和方法的使用。 其一要熟悉常規數據分析方法,最基本的要了解例如方差、 回歸、因子、聚類、分類、時間序列等多元
3、和數據分析方法的原理、使用范圍、優缺點和結果的解釋;其二是熟悉 1+1 種數據分析工具, Excel 是最常見,一般的數據分析我們可以通過 Excel 完成,后而要熟悉一個專業的分析軟件, 如數據分析工具 SPSS/SAS/R/Matlab 等,便于進行一些專業的統計分析、數據建模等。5、數據展現一般情況下,數據分析的結果都是通過圖、 表的方式來呈現,俗話說:字不如表,表不如圖。借助數據展現手段, 能更直觀的讓數據分析師表述想要呈現的信息、觀點和建議。常用的圖表包括餅圖、折線圖、柱形圖 / 條形圖、散點圖、雷達圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6 、撰寫報告最后階段,就是撰寫數據分析
4、報告, 這是對整個數據分析成果的一個呈現。通過分析報告,把數據分析的目的、 過程、結果及方案完整呈現出來,以供商業目的提供參考。一份好的數據分析報告, 首先需要有一個好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。 結構清晰、主次分明可以使閱讀者正確理解報告內容; 圖文并茂,可以令數據更加生動活潑, 提高視覺沖擊力, 有助于閱讀者更形象、直觀地看清楚問題和結論, 從而產生思考。另外,數據分析報告需要有明確的結論、 建議和解決方案, 不僅僅是找出問題, 后者是更重要的,否則稱不上好的分析, 同時也失去了報告的意義,數據的初衷就是為解決一個商業目的才進行的分析,不能舍本求末。2. 數據
5、分析常用的方法有哪些?他們多用來分析哪些類型的數據?通過分析可以得到怎樣的結果和結論?怎樣得到保證其信度和效度?常用數據分析方法:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析;數據分析常用的圖表方法: 柏拉圖 ( 排列圖 ) 、直 方 圖 (Histogram) 、 散 點 圖 (scatter diagram) 、魚骨圖( Ishikawa )、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。數據分析統計工具: SPSS、minitab 、JMP。常用數據分析方法 :1、聚類分析( Cluster Analysis)聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析
6、過程。 聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。 聚類分析是一種探索性的分析, 在分類的過程中, 人們不必事先給出一個分類的標準, 聚類分析能夠從樣本數據出發,自動進行分類。 聚類分析所使用方法的不同,常常會得到不同的結論。 不同研究者對于同一組數據進行聚類分析, 所得到的聚類數未必一致。2、因子分析( Factor Analysis)因子分析是指研究從變量群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。因子分析的方法約有 10 多種,如重心法、影像分析法,最大似然解、最小平方法、
7、阿爾發抽因法、拉奧典型抽因法等等。 這些方法本質上大都屬近似方法,是以相關系數矩陣為基礎的,所不同的是相關系數矩陣對角線上的值, 采用不同的共同性 2 估值。在社會學研究中,因子分析常采用以主成分分析為基礎的反覆法。3、相關分析( Correlation Analysis)相關分析( correlation analysis),相關分析是研究現象之間是否存在某種依存關系, 并對具體有依存關系的現象探討其相關方向以及相關程度。相關關系是一種非確定性的關系, 例如,以 X 和 Y 分別記一個人的身高和體重, 或分別記每公頃施肥量與每公頃小麥產量,則X 與 Y顯然有關系,而又沒有確切到可由其中的一個
8、去精確地決定另一個的程度,這就是相關關系。4、對應分析( Correspondence Analysis)對應分析 (Correspondence analysis)也稱關聯分析、 R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間的聯系。可以揭示同一變量的各個類別之間的差異, 以及不同變量各個類別之間的對應關系。 對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。5、回歸分析研究一個隨機變量 Y 對另一個 (X) 或一組(X1,X2, ,Xk)變量的相依關系的統計分析方法。回歸分析( regression analysis) 是確定兩
9、種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。 運用十分廣泛, 回歸分析按照涉及的自變量的多少, 可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。6、方差分析 (ANOVA/Analysis of Variance)又稱“變異數分析”或“F 檢驗”,是 R.A.Fisher 發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。由于各種因素的影響,研究所得的數據呈現波動狀。 造成波動的原因可分成兩類,一是不可控的隨機因素, 另一是研究中施加的對結果形成影響的可控因素。 方差分析是從觀測變量的方差入手, 研究諸多控制變量中哪些變量是
10、對觀測變量有顯著影響的變量。數據分析常用的圖表方法有:柏拉圖 ( 排列圖 )排列圖是分析和尋找影響質量主原因素的一種工具,其形式用雙直角坐標圖, 左邊縱坐標表示頻數(如件數金額等) ,右邊縱坐標表示頻率(如百分比表示)。分折線表示累積頻率,橫坐標表示影響質量的各項因素, 按影響程度的大小(即出現頻數多少)從左向右排列。通過對排列圖的觀察分析可抓住影響質量的主原因素。直方圖將一個變量的不同等級的相對頻數用矩形塊標繪的圖表 ( 每一矩形的面積對應于頻數 ) 。直方圖 (Histogram) 又稱柱狀圖、質量分布圖。是一種統計報告圖, 由一系列高度不等的縱向條紋或線段表示數據分布的情況。 一般用橫軸
11、表示數據類型,縱軸表示分布情況。散點圖 (scatter diagram)散點圖表示因變量隨自變量而變化的大致趨勢,據此可以選擇合適的函數對數據點進行擬合。用兩組數據構成多個坐標點,考察坐標點的分布,判斷兩變量之間是否存在某種關聯或總結坐標點的分布模式。魚骨圖( Ishikawa )魚骨圖是一種發現問題 “根本原因”的方法,它也可以稱之為 “因果圖”。其特點是簡捷實用,深入直觀。它看上去有些象魚骨, 問題或缺陷(即后果)標在 " 魚頭 " 外。FMEAFMEA是一種可靠性設計的重要方法。它實際上是 FMA(故障模式分析)和 FEA(故障影響分析)的組合。它對各種可能的風險進
12、行評價、分析,以便在現有技術的基礎上消除這些風險或將這些風險減小到可接受的水平。數據分析統計工具:SPSS:SPSS是世界上最早采用圖形菜單驅動界面的統計軟件, 它最突出的特點就是操作界面極為友好, 輸出結果美觀漂亮。 它將幾乎所有的功能都以統一、規范的界面展現出來,使用Windows的窗口方式展示各種管理和分析數據方法的功能,對話框展示出各種功能選擇項。 用戶只要掌握一定的 Windows操作技能,粗通統計分析原理,就可以使用該軟件為特定的科研工作服務。minitab : MINITAB 功能菜單包括:假設檢驗(參數檢驗和非參數檢驗) ,回歸分析(一元回歸和多元回歸、線性回歸和非線性回歸)
13、,方差分析(單因子、多因子、一般線性模型等) ,時間序列分析,圖表(散點圖、點圖、矩陣圖、直方圖、莖葉圖、箱線圖、概率圖、概率分布圖、邊際圖、矩陣圖、單值圖、餅圖、區間圖、Pareto 、 Fishbone 、運行圖等)、蒙特卡羅模擬和仿真、SPC(Statistical Process Control -統計過程控制 ) 、可靠性分析(分布擬合、檢驗計劃、加速壽命測試等)、MSA(交叉、嵌套、量具運行圖、類型 I 量具研究等)等。JMP:JMP的算法源于 SAS,特別強調以統計方法的實際應用為導向, 交互性、可視化能力強,使用方便,尤其適合非統計專業背景的數據分析人員使用,在同類軟件中有較大
14、的優勢。 JMP的應用領域包括業務可視化、 探索性數據分析、 六西格瑪及持續改善(可視化六西格瑪、 質量管理、流程優化)、試驗設計、生存及可靠性、統計分析與建模、交互式數據挖掘、分析程序開發等。JMP是六西格瑪軟件的鼻祖,當年摩托羅拉開始推六西格瑪的時候, 用的就是 JMP軟件,目前有非常多的全球頂尖企業采用 JMP 作為六西格瑪軟件,包括陶氏化學、惠而浦、鐵姆肯、招商銀行、美國銀行、中國石化等等。1描述性統計分析包括樣本基本資料的描述, 作各變量的次數分配及百分比分析, 以了解樣本的分布情況。 此外,以平均數和標準差來描述市場導向、 競爭優勢、組織績效等各個構面, 以了解樣本企業的管理人員對
15、這些相關變量的感知, 并利用 t 檢驗及相關分析對背景變量所造成的影響做檢驗。2Cronbacha 信度系數分析信度是指測驗結果的一致性、 穩定性及可靠性,一般多以內部一致性 (consistency) 來加以表示該測驗信度的高低。 信度系數愈高即表示該測驗的結果愈一致、 穩定與可靠。 針對各研究變量的衡量題項進行 Cronbacha 信度分析,以了解衡量構面的內部一致性。 一般來說,Cronbach a 僅大于 07 為高信度,低于 035 為低信度(Cuieford ,1965) ,0 5 為最低可以接受的信度水準 (Nunnally ,1978) 。3 探 索 性 因 素 分 析 (ex
16、ploratory factor analysis) 和 驗 訌 性 因 素 分 析 (confirmatory factor analysis)用以測試各構面衡量題項的聚合效度(convergent validity) 與 區 別 效 度 (discriminant validity) 。因為僅有信度是不夠的,可信度高的測量, 可能是完全無效或是某些程度上無效。所以我們必須對效度進行檢驗。效度是指工具是否能測出在設計時想測出的結果。收斂效度的檢驗根據各個項目和所衡量的概念的因素的負荷量來決定; 而區別效度的檢驗是根據檢驗性因素分析計算理論上相關概念的相關系數,檢定相關系數的95信賴區間是否包
17、含 10,若不包含 10,則可確認為具有區別效度 (Anderson ,1987) 。4結構方程模型分析 (structural equations modeling)由于結構方程模型結合了因素分析 (factor analysis) 和路徑分析 (path analysis) ,并納入計量經濟學的聯立方程式, 可同時處理多個因變量,容許自變量和因變量含測量誤差, 可同時估計因子結構和因子關系。 容許更大彈性的測量模型,可估計整個模型的擬合程度 (Bollen 和Long,1993) ,因而適用于整體模型的因果關系。在模型參數的估計上,采用最大似然估計法 (MaximumLikelihood
18、,ML);在模型的適合度檢驗上,以基本的擬合標準 (preliminary fitcriteria)、整體模型擬合優度(overall modelfit)以 及 模 型 內 在 結 構 擬 合 優 度 (fitofinternalstructureof model)(Bagozzi和 Yi ,1988) 三個方面的各項指標作為判定的標準。在評價整體模式適配標準方面,本研究采用x2( 卡方 ) df( 自 由 度 ) 值 、 擬 合 優 度 指 數(goodness of f :iJt in dex,GFI) 、平均殘差平方根 (root meansquare :residual ,RMSR)、
19、 近 似 誤 差 均 方 根 (root-mean square-error-of-approximation , RMSEA)等指標;模型內在結構擬合優度則參考 Bagozzi 和Yi(1988) 的標準,考察所估計的參數是否都到達顯著水平。一、信度分析信度( Reliability )即可靠性,是指采用同一方法對同一對象進行調查時, 問卷調查結果的穩定性和一致性,即測量工具(問卷或量表)能否穩定地測量所測的事物或變量。 信度指標多以相關系數表示,具體評價方法大致可分為三類:穩定系數(跨時間的一致性) ,等值系數(跨形式的一致性) 和內在一致性系數 (跨項目的一致性)。信度分析的方法主要有以
20、下四種:大部分的信度指標都以相關系數來表示, 即用同一被試樣本所得的兩組資料的相關作為測量一致性的指標, 稱作信度系數, 主要分為四大類:1. 重測信度是指用同樣的測量工具, 對同一組被測者隔一定時間重復測量,考察兩次測量結果的相關程度,可以直接采用相關分析, 得到的相關系數即為重測信度系數。 也可以對兩次重復測試結果做兩相關樣本差異的統計檢驗。2. 復本信度是指讓同一組被測者一次填寫兩份平行問卷, 計算兩份數據的相關系數, 復本信度要求兩份問卷除了在問題表述不同之外,其余方面要完全一致,實際操作比較困難。3. 內部一致性信度是指測驗內部所有題目間的一致性程度。 這里的一致性是指題目測量目的的
21、一致, 而不是題目描述或形式的一致,主要方法有:<1>分半信度是指將一份問卷分成兩部分, 計算這兩部分的相關系數,即分半信度系數, 以此來衡量整份問卷的信度<2>克朗巴哈信度是最常用的測量內部一致性信度的方法, 計算出的克朗巴哈系數是所有可能分半信度的均值,取值在 0-1 之間,系數越高一致性越好, 常用在量表的信度分析K 為量表做包含的總題目數 si2 為量表題項的方差總和 s2 為量表題項加總后方差 <3> 庫德 - 理查森信度計算出的 KR20系數是克朗巴哈系數的一個特例,用于計算二分類變量的量表4. 評分者信度用來考察評分者對于問卷評分的信度, 有兩
22、種方法:<1>隨機抽取一些問卷,由兩位評分者評分,然后根據每份問卷的分數計算相關系數<2>一位評分者兩次或兩次以上進行評分,然后計算這幾次評分的 Kendall 和諧系數或 Kappa 系數對信度系數要注意三點:1. 在不同的情況下, 對不同樣本, 采用不同方法會得到不同的信度系數, 因此一個測驗可能不止一個信度系數。2. 信度系數只是對測量分數不一致程度的估計,并沒有指出不一致的原因。3. 獲得較高的信度系數并不是測量追求的最終目標,它只是邁向目標的一步, 是使測驗有效的一個必要條件。5. 提高信度的方法1. 適當延長問卷長度2. 問卷難度適中3. 問卷內容盡量同質4
23、. 測量時間充分5. 測量程序要統一二、效度分析效度是指測量工具能夠準確測量出所要測量特性的程度, 除受隨機誤差影響外, 還受系統誤差的影響。效度越高表示測量真實性越高,由于真實值往往未知, 所以我們對于效度的評價也不可能有絕對肯定的答案,但是可以用指標來評價,對于一個標準的測量來說, 效度比信度更為重要。效度的性質:1. 效度具有相對性, 任何測驗的效度都是針對一定的目標而言2. 效度具有連續性 ?測驗效度通常用相關系數表示,它只有程度上的不同,不是“全有”或“全無”的區別。效度的評估方法:效度分為四大類:標準效度, 內容效度、結構效度、區分效度1. 標準效度:人為指定一種測量結果作為 “金
24、標準”,考察其他待測結果與其是否一致2. 內容效度:是一種定性評價標準, 主要通過經驗判斷進行,評價測量指標 ( 問卷內容 ) 的含義是否能準確反映真實情況, 通常用專家評價的方法。3. 結構效度:是評價量表效度常用的指標, 是指測量結果體現出來的某種結構與測量值之間的對應程度,常使用因子分析。4. 區分效度:如果測量的結果能區分不同的測量結果,就認為該測量具有區分效度, 例如如果測量結果能區分 A/B 兩類人群,那么對這兩類人群做 t 檢驗或方差分析, 比較差異是否具有統計學意義,以此判斷測量是否具有區分效度。信度與效度的關系:1. 可信的測量未必有效, 而有效的測量必定可信。2. 沒有信度
25、就不可能有效度, 沒有效度,信度也就毫無意義情況 1:過于分散,既沒有效度也沒有信度情況 2:點很集中,雖然有一致性,但是沒有命中中心,有信度但是無效度情況 3:即有信度也有效度3. 影響數據分析的結果因素有哪些?舉例說明?預期結果分析( 1)描述性模式:該方法通過挖掘歷史和當前數據,分析過去展現情況來決定接下來的計劃步驟。描述性模式能確定許多不同客戶或產品之間的關系,來決定需要采取什么方法向前發展。幾乎所有的報表,如:銷售、市場、操作以及財務都適用這樣的模式進行事后分析, 來提出這些問題:發什么什么?多少?頻率如何?什么地方?何時?問題關鍵是什么?應該采取怎樣的行動?( 2)預測模式:分析過
26、去可以知道客戶可能會有的操作, 這樣可以預測單一用戶的操作。 他可以陳述這樣的問題: 將會發生什么?如果這個趨勢持續會怎樣?如果 ., 下一次會怎樣?( 3)規范模式:又叫做決定模式。這個模式闡述了所有的決定因素之間的關系, 來預測決定可能帶來的結果。 我們可以預測這樣的問題: 怎樣才能達到最好的效果?怎樣應對變數?客戶可能感興趣的其他商品是什么?雖然預測分析在現在數據分析中凸顯, 但是他還是經常以描述模式出現在傳統商業智能領域。一個例子看去年的銷售收入, 再為下一年指定目標。回顧以前的數據,指定未來的目標,這就是數年來商業的標準模式。更加復雜的預測、規范模式現在正在商業中扮演更加重要的角色,
27、這是因為硬件成本的下降,大量的數據隨之而來, 特別是非結構化和半結構化數據。深入理解這些模式間的關系對于正確分析預測數據至關重要。 就像所有的項目, 剛開始我們都要明確他的商業目標目的一樣。一旦有明確的業務目標目的,任何模式或者這三個模式都可以用在 BI 系統中,為達到最終目標目的服務。重復篩選 (Rinse-and-Repeat )我們不能忽略掉預測數據給我們帶來的誤區。大多數情況下, 100%精準的數據分析師不可能的,原因如下:1、歷史數據不能準確預測未來2、預測模式中可能會有不定因素3、操作各種模式的時候,可能會有偏頗以及不符合實際的預測當實踐各個模式的時候, 可能的錯誤區域應該被記錄。
28、通常表現為預測分析系統質量提高, 或者說第三方因素對其的影響下降。 因此,不斷優化數據分析預測模式非常有必要。模式部署周期,不斷優化,不斷操作實踐,這樣可以保證他在分析預測中以最高精度運行。4. 數據統計,數據分析,數據挖掘,數據處理,知識發現,大數據處理等, 這些概念之間的區別和聯系?數據統計:數據統計,是互聯網傳媒行業或其他操作流程的數據統計的統稱,用于歷史資料、科學實驗、檢驗、統計等領域。以便精準快速的查找與分類。知識發現:從數據中鑒別出有效模式的非平凡過程,該模式是新的、 可能有用的和最終可理解的。知識發現是指在積累了大量數據后, 利用各種數據挖掘算法來分析數據庫中存儲的數據,從中識別
29、出有效的、 新穎的、潛在有用的及最終可以理解的知識。 我們可以理解為, 知識發現就是從數據中發現有用知識的整個過程, 即把數據轉化為知識、把知識轉化為決策的一個多次循環反復的高級處理過程。數據挖掘:數據挖掘又叫數據開采, 數據采掘,分為基于數據庫的數據挖掘、 基于應用數據的挖掘、基于信息集合的挖掘等多種概念。 數據挖掘的定義雖然表達方式不同, 但本質都是一樣的,我們認為數據挖掘是指從各種數據庫或觀察的數據集合中提取人們事先未知的、 隱含的、潛在有用的、感興趣的概念、規則、規律、模式等形式的知識,用以支持用戶的決策。數據挖掘和知識發現都可以看作是一門交叉性學科,它們都涉及到機器學習、模式識別、統
30、計學、數據可視化、 高性能計算機和專家系統等多個領域,特別是都可以被看成是數據庫理論和機器學習的交叉科學。 兩個術語在定義上有一定的重合度,內涵也大致相同, 都是從數據中挖掘或發現隱藏的知識 ; 它們的研究對象、 方法和結果的表現形式等方面基本上都是相同的。因此,有些人認為,數據挖掘與知識發現只是叫法不一樣,其含義是相同的。而且,在現今的文獻中,有許多場合, 如技術綜述等, 這兩個術語仍然不加區分地使用著。數據挖掘和知識發現有一定的區別。 關于數據挖掘和知識發現的區別有不同的表述, 典型的表述有兩種 : 知識發現是數據挖掘的特例, 即把用于挖掘的數據集限制在數據庫這種數據組織形式上,因此數據挖
31、掘可以看作是知識發現在挖掘對象的延伸和擴展。 數據挖掘是知識發現過程中的一個特定步驟。 知識發現是從數據庫中發現知識的全部過程 而數據挖掘則是此全部過程的一個特定的關鍵步驟。 從知識發現的含義可以得知,知識發現一般可包括以下步驟 : 數據清理,消除噪聲和不一致數據 ; 數據集成,多種數據源可以組合在一起 ; 數據選擇,從數據庫中檢索與分析任務相關的數據 ;數據變換, 通過匯總、聚集操作等方式將數據統一變換成適合挖掘的形式;數據挖掘,使用智能方法提取數據模式;模式評估,根據某種興趣度量, 識別表示知識的真正有趣的模式 ;知識表示,使用可視化和知識表示技術,向用戶提供挖掘的知識。從這7個步驟,可以
32、看出,數據挖掘只是知識發現整個過程中的一個特定步驟,它用專門算法從數據中提取數據模式,是知識發現過程中重要的環節。而知識發現是一個高級的復雜的處理過程,它還包括前期處理和后期評估, 即是一個應用了數據挖倔算法和評價解釋模式的循環反復過程,它們之間相互影響、反復調整。數據分析:數據分析只是在已定的假設, 先驗約束上處理原有計算方法, 統計方法,將數據分析轉化為信息, 而這些信息需要進一步的獲得認知,轉化為有效的預測和決策, 這時就需要數據挖掘,數據挖掘與數據分析兩者緊密相連, 具有循環遞歸的關系, 數據分析結果需要進一步進行數據挖掘才能指導決策, 而數據挖掘進行價值評估的過程也需要調整先驗約束而
33、再次進行數據分析。而兩者的具體區別在于:(其實數據分析的范圍廣, 包含了數據挖掘, 在這里區別主要是指統計分析)? 數據量上:數據分析的數據量可能并不大,而數據挖掘的數據量極大。? 約束上:數據分析是從一個假設出發,需要自行建立方程或模型來與假設吻合,而數據挖掘不需要假設,可以自動建立方程。? 對象上:數據分析往往是針對數字化的數據,而數據挖掘能夠采用不同類型的數據,比如聲音,文本等。? 結果上:數據分析對結果進行解釋,呈現出有效信息,數據挖掘的結果不容易解釋,對信息進行價值評估,著眼于預測未來,并提出決策性建議。數據分析是把數據變成信息的工具, 數據挖掘是把信息變成認知的工具, 如果我們想要
34、從數據中提取一定的規律 (即認知)往往需要數據分析和數據挖掘結合使用。5. 第 (4) 題中所列出的概念有哪些數學模型?( 寫出這些模型的形式化描述 ) ,那些是新近的模型,以教育 ( 教學、學習 ) 為例,可以分析和挖掘的數據模型?數據分析的模型:(1.)PEST 分析模型 (2.)5W2H 分析模型 (3.) 邏輯樹分析模型 (4.)4P 營銷理論 (5). 用戶行為模型數據分析模型的形式化描述:(1.)PEST 分析模型主要針對宏觀市場環境進行分析,從政治、經濟、社會以及技術四個維度對產品或服務是否適合進入市場進行數據化的分析,最終得到結論, 輔助判斷產品或服務是否滿足大環境。 (2.)
35、5W2H 分析模型的應用場景較廣,可用于對用戶行為進行分析以及產品業務分析。(3.) 邏輯樹分析模型主要針對已知問題進行分析,通過對已知問題的細化分析,通過分析結論找到問題的最優解決方案。(4.)4P營銷理論模型主要用于公司或其中某一個產品線的整體運營情況分析, 通過分析結論, 輔助決策近期運營計劃與方案。 (5.) 用戶行為分析模型應用場景比較單一,完全針對用戶的行為進行研究分析。數據統計的數學模型:多變量統計分析主要用于數據分類和綜合評價。綜合評價是區劃和規劃的基礎。從人類認識的角度來看有精確的和模糊的兩種類型,因為絕大多數地理現象難以用精確的定量關系劃分和表示 ,因此模糊的模型更為實用,
36、 結果也往往更接近實際,模糊評價一般經過四個過程:(1) 評價因子的選擇與簡化 ;(2) 多因子重要性指標 ( 權重 ) 的確定 ;(3) 因子內各類別對評價目標的隸屬度確定 ;(4) 選用某種方法進行多因子綜合。1. 主成分分析地理問題往往涉及大量相互關聯的自然和社會要素,眾多的要素常常給模型的構造帶來很大困難,為使用戶易于理解和解決現有存儲容量不足的問題,有必要減少某些數據而保留最必要的信息。主成分分析是通過數理統計分析, 求得各要素間線性關系的實質上有意義的表達式, 將眾多要素的信息壓縮表達為若干具有代表性的合成變量,這就克服了變量選擇時的冗余和相關, 然后選擇信息最豐富的少數因子進行各
37、種聚類分析,構造應用模型。2. 層次分析法 (AHP)Hierarahy Analysis 是 T.L.Saaty 等在 70 年代提出和廣泛應用的 , 是系統分析的數學工具之一,它把人的思維過程層次化、數量化,并用數學方法為分析、 決策、預報或控制提供定量的依據。AHP 方法把相互關聯的要素按隸屬關系分為若干層次,請有經驗的專家對各層次各因素的相對重要性給出定量指標, 利用數學方法綜合專家意見給出各層次各要素的相對重要性權值, 作為綜合分析的基礎。例如要比較 n 個因素 y=yl ,y2, , yn 對目標 Z 的影響,確定它們在 z 中的比重,每次取兩個因素 yi 和 yJ,用 aij 表
38、示 yi 與 yJ 對 Z 的影響之比,全部比較結果可用矩陣 A=(aij)n*n 表示, A 叫成對比矩陣,它應滿足:aij>0,aij=1/aij (i,j=1,2,.n)使上式成立的矩陣稱互反陣,必有aij=l。3. 系統聚類分析聚類分析的主要依據是把相似的樣本歸為一類,而把差異大的樣本區分開來。 在由 m個變量組成為 m 維的空間中可以用多種方法定義樣本之間的相似性和差異性統計量。4. 判別分析判別分析是根據表明事物特點的變量值和它們所屬的類求出判別函數, 根據判別函數對未知所屬類別的事物進行分類的一種分析方法, 與聚類分析不同,它需要已知一系列反映事物特性的數值變量值及其變量值
39、。判別分析就是在已知研究對象分為若干類型 ( 組別 ) 并已經取得各種類型的一批已知樣品的觀測數據基礎上, 根據某些準則, 建立起盡可能把屬于不同類型的數據區分開來的判別函數,然后用它們來判別未知類型的樣品應該屬于哪一類。根據判別的組數, 判別分析可以分為兩組判別分析和多組判別分析 ; 根據判別函數的形式,判別分析可以分為線性判別和非線性判別 ; 根據判別時處理變量的方法不同, 判別分析可以分為逐步判別、序貫判別等 ; 根據判別標準的不同,判別分析有距離判別、 Fisher 判別、 Bayes 判別等。數據挖掘的數學模型:可分為四大類( 1. )分類與預測,決策樹、神經網絡、回歸、時間序列(2
40、. )聚類,K-means,快速聚類,系統聚類( 3. )關聯, apriori 算法等( 4. )異常值處理。以教育 ( 教學、學習 ) 為例,可以分析和挖掘的數據模型?基于教育數據挖掘的網絡學習過程監管研究為例進行論述(1. )教育數據挖掘及其應用。教育數據挖掘是數據挖掘技術在教育領域的具體應用。根據國際教育數據挖掘工作組網站的定義,教育數據挖掘是指運用不斷發展的方法和技術,探索特定的教育環境中的數據類型, 挖掘出有價值的信息,以幫助教師更好地理解學生,并改善他們所學習的環境,為教育者、學習者、管理者等教育工作者提供服務。 教育數據挖掘的主要目標包括: 構建學習者模型, 預測學習發展趨勢;
41、分析已有教學內容、教學模型,提出改進優化建議; 針對各種教育軟件系統, 評估其有效性;構建教育領域模型, 促進有效學習的產生。教育數據挖掘的數據來源可以來自于網絡學習系統或者教育辦公軟件等, 也可以來自于傳統學習課堂或傳統測試結果等。 數據屬性既可以是個人信息(人口學信息) ,也可以是學習過程信息。教育數據挖掘過程包括數據獲取與預處理、數據分析和結果解釋三個階段。 教育數據挖掘的模型主要可分為描述性模型和預測性模型兩類。描述性模型用于模式的描述, 為決策制定提供參考意見;而預測性模型主要用于基于數據的預測(如預測學生成績或課程通過情況等) 。(2. )網絡學習過程監管的教育數據挖掘模型根據網絡
42、學習的特殊屬性及教育數據挖掘流程,本研究構建了如圖 1 所示的網絡學習過程監管的教育數據挖掘模型。 數據源主要來自網絡學習平臺數據庫,以及教務管理平臺數據庫中的學生課程考試成績、 個人信息等數據。 由于數據來源的多樣化, 因此在完成數據采集之后, 必須對數據進行預處理, 包括去除冗余數據、 處理缺失數據、數值轉換等。數據預處理完成后, 進入教育數據挖掘的核心環節選擇挖掘方法分析數據并得出結果。 針對網絡學習平臺的學習過程監管, 使用統計分析與可視化方法了解學習者的網絡學習時間分布、偏好頁面等;使用關聯規則了解學習者的網絡學習屬性與學業成績之間的關聯; 使用聚類分析對學習者分類,教師可以依據分類
43、結果對各類學生進行不同形式的監管, 也可根據分類結果給予相應的網絡學習效果評價。 最后,將教育數據挖掘的結果應用到網絡學習過程的監管中, 學生進行新一輪的網絡學習, 產生新的網絡學習數據, 對產生的新數據繼續進行分析。 如此不斷迭代, 對網絡學習過程進行調整和優化, 使其朝著研究性學習和自主性學習的目標實現可持續發展。6. 大數據的本質特征是什么?大數據是指按照一定的組織結構連接起來的數據,是非常簡單而且直接的事物,但是從現象上分析,大數據所呈現出來的狀態復雜多樣,這是因為現象是由觀察角度決定的. 大數據的結構是一個多層次、交織關聯的復雜系統結構,數據是分布在節點上的構成物質, 數據之間的關聯
44、關系是由節點的位置決定的, 而不是由數據本身來決定。也就是說,不同的數據位于同一個節點時,就可以獲得相同的關聯關系。(1.) 使用所有的數據運用用戶行為觀察等大數據出現前的分析方法,通常是將調查對象范圍縮小至幾個人。 這是因為,整理所有目標用戶的數據實在太費時間,所以采取了從總用戶群中, 爭取不產生偏差地抽取一部分作為調查對象, 并僅僅根據那幾個人的數據進行分析。 而使用大數據技術, 能夠通過發達的數據抽選和分析技術, 完全可以做到對所有的數據進行分析,以提高數據的正確性。(2.)不拘泥于單個數據的精確度如果我們連續扔骰子, 偶爾會連續好幾次都扔出同樣的數字。 但是如果無限增加扔骰子的次數,每
45、個數字出現的概率都將越來越接近六分之一。同樣的,在大數據領域,通過觀察數量龐大的數據,更容易提高整體而言的數據的精準度。因此,可以不拘泥于個別數據的精確度, 而迅速地進階到數據分析的步驟。 (不過這種情況當然不包括人為的篡改等由于外部因素扭曲了數據的情況)(3.)不過分強調因果關系企業在考慮服務方針時, 會綜合考慮現狀、 問題、改善措施、實施后果等要素之間的相互關系,在此基礎上建立假設。 但是大數據能夠通過觀察海量的數據,發現人所注意不到的相互關聯。7. 怎樣使用并行計算的方法 (模型)實現并行數據的處理與分析?面向大數據處理的并行計算模型及性能優化:( 1. )p-DOT模型分析p-DOT
46、模型在設計時將 BPS模型作為基礎,模型的基本組成是一系列 iteration ,該模型主要由三個層次組成:首先, D-layer ,也就是數據層,整個系統的結構呈現出分布式, 各個數據節點上存儲數據集。其次, O-layer ,也就是計算層,假設 q 為計算的一個階段, 那么該階段內的所有節點會同時進行獨立計算, 所有節點只需要處理自己對應的數據, 這些數據中包括最初輸入的數據,也包括計算中生成的中間數據, 這樣實現了并發計算, 得到的中間結果直接存儲在模型中。最后, T-layer ,也就是通信層,在 q 這一階段內,通信操作子會自動傳遞模型中的消息,傳遞過程遵循點對點的原則, 因為 q
47、階段中的所有節點在經過計算以后都會產生一個中間結果,在通信操作子的作用下, 這些中間結果會被一一傳遞到 q1 階段內。也就是說,一個階段的輸出數據會直接被作為下一個階段的輸入數據,如果不存在下一個階段或者是兩個相鄰階段之間不存在通信, 則這些數據會被作為最終結果輸出并存儲。在并行計算模型下, 應用大數據和應用高性能之間并不矛盾, 因此并行計算模型具有普適性的特征,前者為后者提供模式支持,反過來,后者也為前者提供運算能力上的支持。 另外,在并行計算模型下,系統的擴展性和容錯性明顯提升,在不改變任務效率的前提下,數據規模以及機器數量之間的關系就能夠描述出系統的擴展性,而即使系統中的一些組件出現故障
48、,系統整體運行也不會受到影響, 體現出較好的容錯性。 p-DOT模型雖然是在 DOT模型的基礎上發展起來的,但是其絕對不會是后者的簡單擴展或者延伸,而是具備更加強大的功能:一是p-DOT模型可以涵蓋 DOT以及 BSP模型的處理范式,應用范圍比較廣; 二是將該模型作為依據能夠構造出時間成本函數, 如果在某個環境負載下大數據運算任務已經確定, 我們就可以根據該函數計算出整個運算過程所需要的機器數量 (這里將最短運行時間作為計算標準);三是該并行計算模型是可以擴展的,模型也自帶容錯功能, 具有一定的普適性。( 2. )2.1 D-layer 的優化要想實現容錯性, 要對系統中的數據進行備份,因為操
49、作人員出現失誤或者是系統自身存在問題,數據有可能大面積丟失, 這時備份數據就會發揮作用。 一般情況下, 系統中比較重要的數據會至少制作三個備份, 這些備份數據會被存儲在不同場所,一旦系統數據層出現問題就會利用這些數據進行回存。對于數據復本可以這樣布局:一是每個數據塊中的每個復本只能存儲在對應節點上;二是如果集群中機架數量比較多, 每個機架中可以存儲一個數據塊中的一個復本或者是兩個復本。從以上布局策略中我們可以看出,數據復本的存儲與原始數據一樣, 都是存儲在數據節點上, 呈現出分散性存儲的特征, 這種存儲方式是實現大數據容錯性的基礎。2.2O-layer的優化隨著信息技術的發展以及工業規模的擴大
50、,人們對大數據任務性能提出了更高的要求, 為了實現提高性能的目標, 一般計算機程序會對系統的橫向擴展提供支持。 隨著計算機多核技術的普及,系統的并行處理能力明顯增強, 計算密度明顯提高,對多核硬件資源的利用效率明顯提升。傳統并行計算模型主要依靠進程間的通信, 而優化后的模型則主要依靠線程間的通信, 由于后者明顯小于前者,因此在利用多核技術進行并行計算時,能夠在不增大通信開銷的基礎上明顯提升計算性能。2.3T-layer的優化為了提升計算模型的通信性能, 需要對大數據進行深度學習,具體原因如下:首先,無論使用哪種算法, 都需要不斷更新模型, 從分布式平臺的角度來說,每一次迭代都代表一次全局通信,
51、而一部分模型的迭代次數又非常多, 同時模型中包含大量位移參數以及權重, 例如模型 Alex Net 的基礎是卷積神經網絡,其迭代次數可以達到 45 萬,耗費系統大量通信開銷。其次,如果分布式平臺上本身就有很多機器, 那么迭代過程就需要將機器的運行或者計算作為基礎, 就是說要想完成一次迭代, 平臺上所有的機器都要逐一進行計算,計算完成以后還需要對參數進行同步。這種迭代模式容易受到短板效應的制約, 算法通信開銷并不取決于計算速度最快的機器,而是取決于最慢的機器。為了避免短板效應, 在對并行計算模型進行優化時,可以采用同步策略, 對于計算速度較慢的機器進行加速,提升迭代類任務的通信性能。8. 什么是
52、數據可視化?有哪些可視化方法?有哪些可視化工具?數據可視化技術包含以下幾個基本概念: 借助于圖形化的手段, 清晰、快捷有效的傳達與溝通信息。從用戶的角度, 數據可視化可以讓用戶快速抓住要點信息, 讓關鍵的數據點從人類的眼睛快速通往心靈深處。 數據可視化一般會具備以下幾個特點:準確性、創新性 和 簡潔性。數據空間:是由 n 維屬性和 m個元素組成的數據集所構成的多維信息空間;數據開發:是指利用一定的算法和工具對數據進行定量的推演和計算;數據分析:指對多維數據進行切片、塊、旋轉等動作剖析數據, 從而能多角度多側面觀察數據;數據可視化:是指將大型數據集中的數據以圖形圖像形式表示, 并利用數據分析和開
53、發工具發現其中未知信息的處理過程。數據可視化已經提出了許多方法, 這些方法根據其可視化的原理不同可以劃分為基于幾何的技術、面向像素技術、基于圖標的技術、基于層次的技術、基于圖像的技術和分布式技術等等。常用的可視化的方法:(1)、面積 &尺寸可視化對同一類圖形(例如柱狀、圓環和蜘蛛圖等)的長度、高度或面積加以區別, 來清晰的表達不同指標對應的指標值之間的對比。 這種方法會讓瀏覽者對數據及其之間的對比一目了然。 制作這類數據可視化圖形時, 要用數學公式計算, 來表達準確的尺度和比例。例如:a: 天貓的店鋪動態評分 b: 聯邦預算圖 c: 公司黃頁 - 企業能力模型蜘蛛圖( 2)、顏色可視化
54、通過顏色的深淺來表達指標值的強弱和大小,是數據可視化設計的常用方法,用戶一眼看上去便可整體的看出哪一部分指標的數據值更突出。例如: a: 點擊頻次熱力圖 b: 年度失業率統計 c: 手機用戶城市分布(3)、圖形可視化在我們設計指標及數據時, 使用有對應實際含義的圖形來結合呈現, 會使數據圖表更加生動的被展現,更便于用戶理解圖表要表達的主題。例如:a: iOS 手機及平板分布 b: 人人網用戶的網購調查(4)、地域空間可視化當指標數據要表達的主題跟地域有關聯時,我們一般會選擇用地圖為大背景。 這樣用戶可以直觀的了解整體的數據情況, 同時也可以根據地理位置快速的定位到某一地區來查看詳細數據。(5)、概念可視化通過將抽象的指標數據轉換成我們熟悉的容易感知的數據時,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中學安全教育考試題及答案
- 新疆昌吉回族自治州木壘縣中2024-2025學年高二下生物期末質量跟蹤監視模擬試題含解析
- 天津市薊州區2024-2025學年數學高二下期末調研試題含解析
- 城市更新項目廠房土地購置及開發合作合同
- 休閑農業場地外包租賃合同范本
- 農業銀行信用的借款合同(6篇)
- 愛崗敬業個人先進事跡(3篇)
- 員工配車公司管理制度
- 公路實施方案的試題及答案
- 公路工程定額分析試題及答案
- 軟件系統操作手冊模板
- 樓頂發光字制作安裝合同
- 中德材料中英文對照
- 個人租房合同協議書電子版免費下載7篇
- 帶電流互感器三相四線有功電表的接線演示文稿
- 2023年高考全國甲卷數學(理)試卷【含答案】
- 2023年安徽ACM省賽試題
- 2023深圳一模數學試卷及答案
- (完整版)METS醫護英語水平考試
- 車險查勘定損中級培訓水淹車處理指引及定損培訓
- GB/T 25695-2010建筑施工機械與設備旋挖鉆機成孔施工通用規程
評論
0/150
提交評論