



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
探索性數據分析(EDA)及其應用所謂探究性數據分析(ExploratoryDataAnalysis,以下簡稱EDA),是指對已有的數據(特殊是調查或觀看得來的原始數據)在盡量少的先驗假定下進行探究,通過作圖、制表、方程擬合、計算特征量等手段探究數據的結構和規律的一種數據分析方法。特殊是當我們對這些數據中的信息沒有足夠的閱歷,不知道該用何種傳統統計方法進行分析時,探究性數據分析就會特別有效。探究性數據分析在上世紀六十年月被提出,其方法由美國聞名統計學家約翰·圖基(JohnTukey)命名。
EDA的消失主要是在對數據進行初步分析時,往往還無法進行常規的統計分析。這時候,假如分析者先對數據進行探究性分析,辨析數據的模式與特點,并把它們有序地發掘出來,就能夠敏捷地選擇和調整合適的分析模型,并揭示數據相對于常見模型的種種偏離。在此基礎上再采納以顯著性檢驗和置信區間估量為主的統計分析技術,就可以科學地評估所觀看到的模式或效應的詳細狀況。
所以概括起來說,分析數據可以分為探究和驗證兩個階段。探究階段強調敏捷探求線索和證據,發覺數據中隱蔽的有價值的信息,而驗證階段則著重評估這些證據,相對精確地討論一些詳細狀況。在驗證階段,常用的主要方法是傳統的統計學方法,在探究階段,主要的方法就是EDA,下面我們重點對EDA做進一步的說明。
EDA的特點有三個:一是在分析思路上讓數據說話,不強調對數據的整理。傳統統計方法通常是先假定一個模型,例如數據聽從某個分布(特殊常見的是正態分布),然后使用適合此模型的方法進行擬合、分析及猜測。但實際上,多數數據(尤其是試驗數據)并不能保證滿意假定的理論分布。因此,傳統方法的統計結果經常并不令人滿足,使用上受到很大的局限。EDA則可以從原始數據動身,深化探究數據的內在規律,而不是從某種假定動身,套用理論結論,拘泥于模型的假設。
二是EDA分析方法敏捷,而不是拘泥于傳統的統計方法。傳統的統計方法以概率論為基礎,使用有嚴格理論依據的假設檢驗、置信區間等處理工具。EDA處理數據的方式則敏捷多樣,分析方法的選擇完全從數據動身,敏捷對待,敏捷處理,什么方法可以達到探究和發覺的目的就使用什么方法。這里特殊強調的是EDA更看重的是方法的穩健性、耐抗性,而不刻意追求概率意義上的精確性。
三是EDA分析工具簡潔直觀,更易于普及。傳統的統計方法都比較抽象和淺顯,一般人難于把握,EDA則更強調直觀及數據可視化,更強調方法的多樣性及敏捷性,使分析者能一目了然地看出數據中隱含的有價值的信息,顯示出其遵循的普遍規律及與眾不同的突出特點,促進發覺規律,得到啟迪,滿意分析者的多方面要求,這也是EDA對于數據分析的的主要貢獻。
值得一提的是,正由于EDA更強調直觀及圖形顯示,所以它采納了許多創新的可視化技術,目前這些可視化技術已經有了很好的實現載體,目前最為主流的探究性數據分析軟件是以圖形效果好、交互性強、易學易用著稱的統計發覺軟件JMP。即使不具備統計學基礎的分析者也能在JMP的關心下,輕松地發覺數據、擬合以及殘差的規律,獲得意想不到的發覺,為后續的分析啟發思路、指明方向。
下面,用一個典型的小案例來說明EDA的實際應用。
我們為了對全球經濟的進展趨勢和世界頂級公司的經營狀況做一些討論,可以從公共網站上下載數據(如/lists中的福布斯2000強名單),用JMP略作整理之后可以得到如表一所示的數據表,其中包含了上榜公司的名稱、所屬行業、所屬國家、上榜年份、上榜排名、市場價值、資產額、銷售額、利潤額等9個變量,總計14000條記錄(每年2000條,從2022年至2022年共7個年度)。現在的問題是:數據有了,其中究竟隱蔽著怎樣的有價值的信息呢?我們又如何發覺這些信息呢?
有人說:既然是連續型數據,又包含時間變量,應當用時間序列方法進行分析!的確,時間序列可以告知我們變量隨時間的變化,然而實際中我們所盼望和可以得到的有價值的信息,往往遠不止“隨時間變化”這么簡潔,更何況,需要分析這些商業數據的用戶經常并不清晰什么是“時間序列分析”方法。
還有人說:用一些傳統的圖形工具,比如折線圖、柱狀圖、餅圖等等來分析,不就可以進行數據探究了嗎?這種方法好像是可行的,但這些數據中有不少類別變量,他們的分類水平許多(例如年份跨越7年,行業分為30個,國家有75個之多,公司名稱更是多達3505個),這樣一來,光作圖可能就讓我們筋疲力盡了,“數據探究”又從何談起?
什么方法才能很好地探究這些數據,從中發覺我們所期望的、甚至意想不到的重要信息呢?我們應當從哪里著手分析才能找到這些信息呢?我們來嘗試運用現代EDA中的可視化技術“泡泡圖”來邊看邊想。在JMP軟件的關心下,我們可以很快得到類似圖一的圖形,其中的橫軸代表公司的市值,縱軸代表公司的銷售額,泡泡的大小代表公司的利潤額,泡泡的顏色代表公司所屬的行業。最有意義的是,全部的泡泡并不是靜止不動的,它們的位置、大小等都會隨著年度的變化而動態變化。
這樣一來,我們就可以直觀地發覺一些明顯的數據特征。就拿這兩家知名公司來說。我們會發覺通用電氣GeneralElectric的經營業績比較穩定,而埃克森美孚ExxonMobil就相對顯得大起大落一些。雖然兩者有明顯不同,但自2022年起,市場價值均有顯著的回落,這應當與當時席卷全球的經濟危機有關。
有人在發覺這些特征后會迸出一些新的想法:通用電氣、埃克森美孚都是美國的企業,中國企業的表現又如何的呢?我們可以在使用“泡泡圖”的同時,在JMP中調用“數據篩選”功能就可以得到類似圖三的界面。
從中可以清楚地觀看到,自2022年以來的7年間,共有392個次的中國企業登上了福布斯排行榜。雖然在數量上、市值、銷售額等經營指標上與世界頂級企業有肯定差距,但以中石油PetroChina、中石化SinopecChinaPetroleum等位代表的一批國有大型企業進展速度很快,令世界矚目。
實際上,探究性數據分析還遠遠不止這些。分析人士完全可以在數據分析的初期不受太多理論條件的束縛,充分綻開想象的翅膀,多角度、多層面地對現有數據的規律進行可視化的探究,新的線索往往就會自然而然地消失了,為下一步的統計建模與猜測等精細化分析奠定良好的基礎。
總之,探究性數據分析強調敏捷地探求線索和證據,重在發覺數據中可能隱蔽著的有價值的信息,比如數據的分布模式、變化趨勢,可能的交互影響,特別變化等等,而傳統的統計方法則側重于評估已經發覺的證
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023-2024學年江蘇省淮安市高二下學期6月期末調研測試數學試題(解析版)
- 2025屆湖北省十堰市高三三模語文試題(解析版)
- 2024-2025學年山西省呂梁市高一上學期期末調研測試語文試題(解析版)
- 電影解說營銷號合作協議
- 骨科醫學生職業生涯規劃
- 塑料制品中環己烷1,2-二甲酸二異壬基酯(DINCH)含量和遷移量的測定編制說明
- 骨代謝紊亂和相關元素的生物化學檢驗
- 作業安全規程管理制度
- 供水企業現場管理制度
- 供水公司用電管理制度
- 統編版(2025版)七年級下冊道德與法治期末復習知識點背誦提綱詳細版
- 護理文件書寫導致的糾紛
- 2024年全國職業院校技能大賽高職組(研學旅行賽項)考試題庫(含答案)
- A3精益報告書培訓
- 管理英語4-008-國開機考復習資料
- 標準菌株管理
- 2024年冷庫安全管理制度(2篇)
- 天涯海角景區開發規劃
- 【MOOC】中國稅法:案例·原理·方法-暨南大學 中國大學慕課MOOC答案
- 《中醫藥標準化》課件
- 【MOOC】CC++程序設計-同濟大學 中國大學慕課MOOC答案
評論
0/150
提交評論