




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
了解和管理數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)類型數(shù)據(jù)統(tǒng)計特征數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)質(zhì)量主數(shù)據(jù)管理數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)一般定義為指互相之間存在著一種或者多種關(guān)系的數(shù)據(jù)元素的集合和該集合中數(shù)據(jù)元素之間的關(guān)系組成。不同的學(xué)者在不同的論述場景里也給出了一些其它定義,比如SartajSahni在其《數(shù)據(jù)結(jié)構(gòu)、算法與應(yīng)用》一書中定義數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)對象,以及存在于該對象的實例和組成實例的數(shù)據(jù)元素之間的各種聯(lián)系,這些聯(lián)系可以通過定義相關(guān)的函數(shù)來給出;CliffordA.Shaffer在《數(shù)據(jù)結(jié)構(gòu)與算法分析》一書中定義是數(shù)據(jù)結(jié)構(gòu)是抽象數(shù)據(jù)類型(AbstractDataType,ADT)的物理實現(xiàn);RobertL.Kruse在《數(shù)據(jù)結(jié)構(gòu)與程序設(shè)計》一書中將一個數(shù)據(jù)結(jié)構(gòu)的設(shè)計過程分成抽象層、數(shù)據(jù)結(jié)構(gòu)層和實現(xiàn)層,其中抽象層是指抽象數(shù)據(jù)類型層,它討論數(shù)據(jù)的邏輯結(jié)構(gòu)及其運算,數(shù)據(jù)結(jié)構(gòu)層和實現(xiàn)層討論一個數(shù)據(jù)結(jié)構(gòu)的表示和在計算機內(nèi)的存儲細節(jié)以及運算的實現(xiàn)。在數(shù)據(jù)挖掘中,尤其是大多數(shù)情況下的結(jié)構(gòu)化數(shù)據(jù)的挖掘中,數(shù)據(jù)結(jié)構(gòu)可以具體指代同一類的數(shù)據(jù)元素,各元素之間有相互關(guān)系。絕大部分的數(shù)據(jù)挖掘算法可以使用一種非常簡單的數(shù)據(jù)格式,我們稱它為寬表。寬表將客戶相關(guān)的信息都記錄在一行上,以便進行分析。其特征:每個客戶一條記錄,極多的屬性(字段、列、變量、指標),幾百個指標是很常見的,有時指標達3000以上。數(shù)據(jù)類型從數(shù)據(jù)的測量尺度來看,數(shù)據(jù)可以分為四種類型:(1)名義分類數(shù)據(jù),取值是定性的,表現(xiàn)為互不相容的類別或?qū)傩裕瑳]有順序和大小的差異,如客戶類型、性別(男、女)、本地網(wǎng)(是、否)等。(2)有序分類數(shù)據(jù),各類別之間有程度的差異,但不能進行算術(shù)運算,如收入的低、中和高。(3)定距數(shù)值數(shù)據(jù),可以計算兩個取值之差,但不能做其它類型的算術(shù)運算,如日期和時間的間隔。(4)定比數(shù)值數(shù)據(jù),支持各種類型算術(shù)運算的數(shù)據(jù),如話務(wù)量、收入等。數(shù)據(jù)類型數(shù)據(jù)通常以字符串或數(shù)字的形成出現(xiàn),但數(shù)據(jù)的形式未必能說明數(shù)據(jù)的類型。許多編碼都包含數(shù)字,但這些數(shù)字之間并沒有順序,更不能進行四則運算。有時數(shù)據(jù)是以字符串的形式存儲,但它們之間是有順序的,如代表客戶等級的鉆、金和銀。上述的四種類型的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),還有文本、圖片、聲音和視頻等數(shù)據(jù),它們屬于非結(jié)構(gòu)化數(shù)據(jù),還以電信行業(yè)數(shù)據(jù)舉例,譬如用戶姓名、地址、投訴內(nèi)容等。數(shù)據(jù)挖掘算法不能直接處理非結(jié)構(gòu)化數(shù)據(jù),需要首先將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。另外還有事務(wù)數(shù)據(jù)、數(shù)據(jù)矩陣、各類有序數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、多媒體數(shù)據(jù)(圖形圖像、音頻視頻)等。數(shù)據(jù)統(tǒng)計特征數(shù)據(jù)統(tǒng)計特征,指運用統(tǒng)計學(xué)的方法進行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,為數(shù)據(jù)挖掘過程中的數(shù)據(jù)質(zhì)量檢查、變量篩選和變量預(yù)處理提供依據(jù)。數(shù)據(jù)統(tǒng)計特征(1)——單一分類變量對單一分類變量探索的最基本統(tǒng)計方法是通過柱形圖或者條形圖描述變量中不同類別出現(xiàn)的次數(shù)或頻率分布。通過變量的頻數(shù)分析,我們可以回答:一個分類變量取值個數(shù)是多還是少?用戶是集中在某幾個類別還是分散在各個類別?是否某些類別的用戶數(shù)與經(jīng)驗不符?通過回答這些問題,我們可能會發(fā)現(xiàn)潛在的數(shù)據(jù)質(zhì)量問題,也為建模前的變量預(yù)處理提供思路。例如一個分類變量取值很多,但大多數(shù)類別的用戶數(shù)較少,此時建議將用戶數(shù)較少的類別進行合并,以便更能滿足數(shù)據(jù)挖掘算法的需要。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量單一數(shù)值變量探索的最常用方法是計算變量的一組描述統(tǒng)計量,如描述數(shù)據(jù)集中趨勢的統(tǒng)計量:均值、中位數(shù)和分位數(shù)等;描述數(shù)據(jù)離散程度的統(tǒng)計量:極差、方差、標準差和離散系數(shù)等;探索單一數(shù)值變量的分布:箱線圖和直方圖。當然了,總量是最常用的分析變量,即直接對一組數(shù)據(jù)計數(shù)或者求和,譬如某區(qū)域的總用戶數(shù)、某區(qū)域的總收入、總話務(wù)量等。總量反應(yīng)了總體情況,在環(huán)境相似情況下,通常還用總量進行比較分析,譬如人口規(guī)模、經(jīng)濟環(huán)境基本相近的兩個區(qū)域,進行收入量、用戶總量的比較分析等。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量(1)描述數(shù)據(jù)集中趨勢的統(tǒng)計量均值:一組數(shù)據(jù)的平均值,它是對較細粒度的數(shù)據(jù)進行匯總得到的較粗粒度的數(shù)據(jù)。如電信XX省份移動用戶的平均ARPU值,它可以讓人們對該省份移動用戶價值的高低有個基本的認識。中位數(shù):將數(shù)據(jù)按從小到大的順序排列起來,形成一個數(shù)列,居于數(shù)列中間位置的那個數(shù)據(jù),即50%位置的那個數(shù)據(jù)。中位數(shù)跟均值相比,它不容易受極端值的影響。分位數(shù):中位數(shù)是分位數(shù)的一種,分位數(shù)是指處于第n%位置的數(shù),常用的分位數(shù)有四分位數(shù)、十分位數(shù)、百分位數(shù)。如ARPU值最高的前10%的用戶就是百分位數(shù)的一個應(yīng)用。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量(2)描述數(shù)據(jù)離散程度的統(tǒng)計量極差:數(shù)據(jù)中的最大值與最小值之差,只考慮數(shù)據(jù)中的兩個值,容易受極端值的影響。方差:衡量一組數(shù)據(jù)偏離其平均值的波動程度,如用戶最近幾個月的ARPU值波動大小,就可以用方差來衡量。方差一般代表信息量的多少,如果一個變量的方差越小(極端情況只取一個值),那么它包含的信息量就越少,它對挖掘的作用就越小。標準差:方差的平方根,它是使用更頻繁的波動度量指標,它與數(shù)據(jù)有相同的量綱。離散系數(shù)(變異系數(shù)):一組數(shù)據(jù)的標準差與均值之比,是衡量數(shù)據(jù)離散程度的相對指標。它的優(yōu)點是不受數(shù)據(jù)量綱的影響,可以對不同量綱的數(shù)據(jù)波動程度進行比較,離散系數(shù)越大表明數(shù)據(jù)的波動越大。如可以用離散系數(shù)比較用戶話務(wù)量和ARPU的波動大小。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量(3)探索單一數(shù)值變量的分布數(shù)值變量的描述統(tǒng)計量只能從總體上描述一組數(shù)據(jù),但是不能充分地描述一組數(shù)據(jù)的細節(jié),兩個平均值和方差完全相同的變量,它們的分布可能差別較大。這里介紹兩種探索數(shù)值變量分布的方法:箱線圖和直方圖。箱線圖:箱線圖類似于股票的K線圖,它是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值、第一四分位數(shù)(Q1)、中位數(shù)、第三四分位數(shù)(Q3)與最大值來描述數(shù)據(jù)的一種圖示方法。它可以粗略地觀察數(shù)據(jù)分布的對稱性,分布的分散程度,是否有極端值等信息,特別地可以用于對幾組數(shù)據(jù)分布的比較。直方圖:將數(shù)值變量離散化,以變量的取值區(qū)間為橫坐標、區(qū)間頻數(shù)或頻率為縱坐標而作的連續(xù)排列的柱形圖,用于評估數(shù)值變量取值的分布情況,類似于分類變量的柱形圖。數(shù)據(jù)統(tǒng)計特征(3)——多個變量的關(guān)系對于多個分類變量,可以通過構(gòu)造多維表的形式觀察它們的關(guān)系,對于多個數(shù)值變量,可以通過計算變量之間的相關(guān)系數(shù)來判斷它們之間相關(guān)程度的大小。二維表是把其中一個分類變量作為行,另一個分類變量作為列,行和列交叉所形成的單元格用兩類別出現(xiàn)的頻數(shù)或頻率填充而形成的交叉表格。通過二維表如何判斷兩個分類變量之間的關(guān)系,一種方法是通過觀察可視化的圖形,但是要展現(xiàn)整個表格的內(nèi)容是有困難的,我們可以有重點的觀察。數(shù)據(jù)統(tǒng)計特征(3)——多個變量的關(guān)系相關(guān)系數(shù):另一個非常重要的統(tǒng)計概念,是考察一個數(shù)值變量的變化與另一個數(shù)值變量的變化關(guān)聯(lián)程度大小的度量。如用戶的話務(wù)量和ARPU就存在相關(guān)關(guān)系,一般話務(wù)量越高的用戶,ARPU也會越高。相關(guān)系數(shù)變化范圍在-1和1之間,相關(guān)系數(shù)為0表明兩個變量不相關(guān);相關(guān)系數(shù)大于零表明兩個變量存在正向相關(guān)關(guān)系,且數(shù)值越大,相關(guān)性越強,為1意味著當一個變量變化時,另一個變量將完全按同方向變化;相關(guān)系數(shù)小于零表明兩個變量存在反向相關(guān)關(guān)系,且數(shù)值越大,相關(guān)性越強,為-1意味著當一個變量變化時,另一個變量將完全按反方向變化。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是為了使數(shù)據(jù)符合模型算法的要求,并且為了顯著提高模型的效果和穩(wěn)定性,對數(shù)據(jù)做的一系列預(yù)處理工作。對單個數(shù)值型變量,常用的轉(zhuǎn)換方法有變量離散化、變量歸一化、變量標準化(Z-Score變換)和數(shù)學(xué)變換等。對單個分類型變量,常用的轉(zhuǎn)換方法有分類變量數(shù)值化和分類變量類別規(guī)整等。對多個數(shù)值型變量,介紹通過主成分分析或因子分析進行變量降維的轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換(1)——單個數(shù)值變量變量離散化(Binning)是指將連續(xù)的數(shù)值變量轉(zhuǎn)換為離散的區(qū)間或類別變量,也稱作分箱或分檔,常用的離散化方法還有等寬離散化、等頻離散化和有監(jiān)督的離散化(如決策樹根據(jù)信息增益對變量進行劃分)。變量歸一化(Normalization)指使轉(zhuǎn)換后的數(shù)值落在特定的區(qū)間內(nèi),比如說,通過減去最小值并且除以整個區(qū)間范圍。歸一化不影響數(shù)據(jù)的排列順序,但它消除了數(shù)據(jù)量綱的影響,使得具有不同量綱的數(shù)據(jù)具有可比性。數(shù)據(jù)標準化(Standardizing)指將數(shù)據(jù)減去平均值并且除以標準差,它可以衡量數(shù)據(jù)非正態(tài)分布的程度。數(shù)學(xué)變換:由于某些模型的使用條件對數(shù)據(jù)的分布有一定的要求,而實際的數(shù)據(jù)往往不能滿足這些要求,因此就需要對原始變量進行適當?shù)臄?shù)學(xué)變換以滿足模型的要求。常用的數(shù)學(xué)變換有對數(shù)變換、指數(shù)變換、倒數(shù)變換和Logit變換等。數(shù)據(jù)轉(zhuǎn)換(2)——單個分類變量分類變量數(shù)值化:生成指示變量是分類變量數(shù)值化最常用的方法,它對某些要求輸入變量必須是數(shù)值變量的模型(如Logistic回歸和神經(jīng)網(wǎng)絡(luò))是一種有效的處理方法,它把變量的每個取值生成一個是否的指示變量。分類變量類別規(guī)整:對分類變量的類別重新梳理和調(diào)整,如類別合并和概念分層。類別合并是對類別數(shù)量較多的變量進行類別合并,行成具有少數(shù)幾個類別的變量,合并的原則包括使各類別用戶數(shù)大致相同(如將用戶數(shù)都較少的類別合并),或者各類別的目標變量差異較大(如將流失率都較高的類別合并)。概念分層指用較高層次的類別代替原有的類別,如用較高層次的產(chǎn)品分類代替較低層次的產(chǎn)品分類。類別合并可以避免模型的過度擬合,概念分層可以讓新生成的變量更有業(yè)務(wù)含義或?qū)δ繕说挠绊懜语@著。數(shù)據(jù)轉(zhuǎn)換(3)——多變量降維
當數(shù)值變量很多并且存在較強相關(guān)性時,會對模型構(gòu)建造成不利的影響,一種有效的處理方法就是變量降維。變量降維指在不損失變量大量信息的前提下,將眾多相關(guān)性較強的變量變成少數(shù)幾個不相關(guān)的因素。變量降維常用方法是主成分分析和因子分析,它們經(jīng)常作為聚類分析和多元回歸分析的中間過程,達到同時減少變量個數(shù)和消除變量相關(guān)性的目的。數(shù)據(jù)質(zhì)量對企業(yè)而言,數(shù)據(jù)質(zhì)量的重要性不言而喻。六步法是Informatica公司為幫助指導(dǎo)數(shù)據(jù)質(zhì)量控制而設(shè)計的,從初始的數(shù)據(jù)探查到持續(xù)監(jiān)測以及持續(xù)進行的數(shù)據(jù)優(yōu)化。探查數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和異常建立數(shù)據(jù)質(zhì)量度量并明確目標設(shè)計和實施數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則將數(shù)據(jù)質(zhì)量規(guī)則構(gòu)建到數(shù)據(jù)集成過程中檢查異常并完善規(guī)則對照目標,監(jiān)測數(shù)據(jù)質(zhì)量主數(shù)據(jù)管理主數(shù)據(jù)管理(MasterDataManagement,MDM)是將主數(shù)據(jù)作為企業(yè)的記錄系統(tǒng)進行創(chuàng)建和維護的方式。實施MDM的目的在于確保主數(shù)據(jù)具有準確性、一致性和完整性,并且能夠在內(nèi)部或外部業(yè)務(wù)流程、應(yīng)用程序或用戶使用的環(huán)境中周而復(fù)始地流轉(zhuǎn)。主數(shù)據(jù)管理解決方案可能包括以下一些特性:在企業(yè)層面上整合了現(xiàn)有縱向結(jié)構(gòu)中的客戶信息以及其它知識和深層次信息;共享所有系統(tǒng)中的數(shù)據(jù),使之成為一系列以客戶為中心的業(yè)務(wù)流程和服務(wù);實現(xiàn)對于客戶、產(chǎn)品和供應(yīng)商都通用的主數(shù)據(jù)形式,加速數(shù)據(jù)輸入、檢索和分析;支持數(shù)據(jù)的多用戶管理,包括限制某些用戶添加、更新或查看維護主數(shù)據(jù)的流程的能力;集成產(chǎn)品信息管理、客戶關(guān)系管理、客戶數(shù)據(jù)集成以及可對主數(shù)據(jù)進行分析的其它解決方案。主數(shù)據(jù)管理下面是評估MDM產(chǎn)品時需要的考慮的關(guān)鍵要求。第1項要求:在單一MDM系統(tǒng)內(nèi)為多個業(yè)務(wù)數(shù)據(jù)實體提供支持第2項要求:確保以平臺方法實施MDM第3項要求:為復(fù)雜的關(guān)系和層級結(jié)構(gòu)提供支持第4項要求:自動生成面向服務(wù)的體系架構(gòu)(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 3D打印在數(shù)字化工廠中的協(xié)同制造研究-洞察及研究
- 軟件開發(fā)月度工作計劃
- 琿春市事業(yè)單位招聘筆試真題2024
- 大連理工大學(xué)青年人才培養(yǎng)計劃
- 湖南食品藥品職業(yè)學(xué)院《醫(yī)學(xué)信息系統(tǒng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 杭州電子科技大學(xué)《計算力學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 海南大學(xué)《醫(yī)務(wù)監(jiān)督》2023-2024學(xué)年第二學(xué)期期末試卷
- 冀中職業(yè)學(xué)院《計算機輔助園林設(shè)計(CAD、Photo)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東輕工職業(yè)學(xué)院《中外聲樂藝術(shù)作品賞析》2023-2024學(xué)年第二學(xué)期期末試卷
- 武漢設(shè)計工程學(xué)院《公共關(guān)系與禮儀》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025山東“才聚齊魯成就未來”水發(fā)集團高校畢業(yè)招聘241人筆試參考題庫附帶答案詳解
- 2025中考數(shù)學(xué)押題預(yù)測 (廣西卷)(試卷+答案詳解)
- 2024年度江蘇省數(shù)據(jù)集團有限公司社會招聘筆試參考題庫附帶答案詳解
- GB/T 45355-2025無壓埋地排污、排水用聚乙烯(PE)管道系統(tǒng)
- 《愛蓮說》對比閱讀-2024-2025中考語文文言文閱讀專項訓(xùn)練(含答案)
- DZ∕T 0214-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 銅、鉛、鋅、銀、鎳、鉬(正式版)
- GB 4806.7-2016食品安全國家標準食品接觸用塑料材料及制品
- 中班繪本《跑跑鎮(zhèn)》微課件
- 基于崗位拓展模型和KPI的主基二元考核績效體系的構(gòu)建
- 初三英語畢業(yè)考試補考試卷
- 消防安全工作臺賬表格匯總
評論
0/150
提交評論