大數據時代統計學面臨的機遇與挑戰_第1頁
大數據時代統計學面臨的機遇與挑戰_第2頁
大數據時代統計學面臨的機遇與挑戰_第3頁
大數據時代統計學面臨的機遇與挑戰_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據時代統計學面臨的機遇與挑戰 當今時代,一方面人們在主動地獲取數據。 各個科學領域都 在大量地獲取數據,自然科學領域收集著從宏觀的天文數據到微 觀的基因數據,經濟、金融和人文社會科學收集著大量的觀察和 調查數據。另一方面人們在被動地囤積數據。 隨著計算機互聯網、 搜索引擎、電子商務、多種傳感器和多媒體技術的發展和廣泛使 用,各種形式的數據如江河流水般地涌來。當今數據的獲取和規 模發生了根本的變化,統計學面臨著新的機遇和挑戰, 需要在方 法論上有所突破。 一、大數據及其目的 狹義地講,大數據是一個大樣本和高維變量的數據集合。針 對樣本大的問題,統計學可以采用抽樣減少樣本量,達到需要的 精度。

2、目前大數據的環境包括了:數據流環境:數據快速不斷涌 來,現有存儲設備和計算能力難以應付這種洪水般的數據流;磁 盤存儲環境:數據已不能完全存儲在內存中,需要硬盤存儲;分 布存儲環境:數據分布存儲在多個計算機中;多線條環境:數據 存儲在一個計算機中,多個處理器共享內存。 大數據的目的是將數據轉化為知識,探索數據的產生機制, 進行預測和制定政策。把信息轉變為有用的知識還需漫長的時 間。“預測”不同于“制定政策”。一個兒童的鞋子越大,可以 預測他掌握的詞匯量越多; 但是,制定政策強制他穿大鞋子并不 能提高他的詞匯量。 二、大數據帶來的變革 大數據給我們的時代帶來了變革。目前,人們習慣于根據 “研究問題

3、”來驅動“收集數據”。今后,大數據到處可得,人 們將會用“數據”驅動“研究問題”。 就像我們出遠門前常常查 詢目的地的天氣、 交通和賓館那樣, 未來人們在研究和決策前將 會通過查詢數據做決定。 目前已經有科學家開始使用軟件搜索和 匯總已發表論文中的成果。 大數據中包含有各種不同目的的數據 集,綜合利用它們可以做出原來目的之外的意外成果。例如,將 醫院病歷數據與信用卡消費數據結合, 我們能發現食品與健康的 相關關系,指導人們進行健康飲食。假若再加上手機和GPS等數 據,還能隨時對人們進行體檢,指導健身,減少猝死,幫助醫生 診斷疾病等,應用大數據可以設想的用途不計其數。 三、大數據的處理、抽樣與分

4、析 (一)數據的預處理 大數據的預處理包括數據清洗、 不完全數據填補、 數據糾偏 與矯正。利用隨機抽樣數據矯正雜亂的、非標準的數據源。統計 機構的數據是經過嚴格抽樣設計獲取的, 具有總體的代表性和系 統誤差小的優勢, 但是數據獲取和更新的周期長, 盡管調查項目 有代表性, 但難以無所不包。 而互聯網數據的獲取速度快、 量大、 項目繁細, 但是難以避免數據獲取的偏倚性。 將統計機構的數據 作為金標準和框架對互聯網數據進行矯正, 將互聯網數據作為補 充資源對統計機構的數據進行實時更新, 也許是解決問題的一個 思路。 (二)大數據環境的抽樣 大數據的抽樣方法有待研究。“樣本”不必使用所有“數 據”,

5、不管鍋有多大,只要充分攪勻,品嘗一小勺就知道其滋味。 針對大數據流環境,需要探索從源源不斷的數據流中抽取足以滿 足統計目的和精度的樣本。 需要研究新的適應性、序貫性和動態 的抽樣方法。根據已獲得的樣本逐步調整感興趣的調查項目和抽 樣對象,使得最近頻繁出現的熱門數據, 也是感興趣的數據進入 樣本。建立數據流的緩沖區,記錄新發生數據的頻數,動態調整 不在樣本中的數據進入樣本的概率。 (三)大數據的分析與整合 針對大數據的高維問題,需要研究降維和分解的方法。 探討 壓縮大數據的方法,直接對壓縮的數據核進行傳輸、 運算和操作。 除了常規的統計分析方法,包括高維矩陣、降維方法、變量選擇 之外,需要研究大

6、數據的實時分析、 數據流算法。不用保存數據, 僅掃描一遍數據的數據流算法, 考慮計算機內存和外存的數據傳 送問題、分布數據和并行計算的方法。如何無信息損失或無統計 信息損失地分解大數據集,獨立并行地在分布計算機環境進行推 斷,各個計算機的中間計算結果能相互聯系溝通,構造全局統計 結果。研究多個數據資源的融合算法。 研究利用數據流尋找模型 變化時間點的動態變化模型。 四、結束語 一個新生事物的出現將必定導致傳統觀念和技術的革命。數 碼照相機的出現導致傳統相片膠卷和影像業的已近消亡。如果大 數據包含了所有父親和兒子的身高數據,只要計算給定的父親身 高下所有兒子的平均身高就可以預測其兒子身高了。模型

7、不再重 要,當年統計學最得意的回歸預測方法將被淘汰。大數據的到來 將對傳統的統計方法進行考驗。統計學會不會象科學哲學那樣, 只佩戴著歷史的光環,而不再主導和引領人們分析和利用大數據 資源。現在其他學科和行業涌入大數據的熱潮,如果統計學不抓 緊參與的話,將面臨著被邊緣化的危險。 現今統計學的目標是通 過獲取數據和分析數據發現真理(總體的參數和性質),統計方 法和理論對數據有過高的要求。 而大數據充滿了各種隨機的、 非 隨機的誤差和偏倚,不能滿足這些苛刻的要求。 按照波普的科學 劃界準則,只要我們能從大數據中提煉出具有可證偽的結論,那 么這個結論還是科學的, 可以用于知識積累。這些可證偽的大數 據結論可作為進一步科學研究的假說,以數據驅動研究。我們在 看到大數據給統計學帶來了機遇的同時,也應該看到現在的統計 方法普遍只適用于全部數據放在單

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論