統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第1頁(yè)
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第2頁(yè)
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第3頁(yè)
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第4頁(yè)
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

統(tǒng)計(jì)面臨的挑戰(zhàn).pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1 統(tǒng)計(jì)面臨的挑戰(zhàn)統(tǒng)計(jì)面臨的挑戰(zhàn) 吳喜之 2 科學(xué)與統(tǒng)計(jì)科學(xué)與統(tǒng)計(jì) 3 統(tǒng)計(jì)的地位統(tǒng)計(jì)的地位 統(tǒng)計(jì)在人類生活的各個(gè)方面所起 的 統(tǒng)計(jì)在人類生活的各個(gè)方面所起 的重大作用重大作用無(wú)可置疑無(wú)可置疑 當(dāng)然 當(dāng)然 很多人不知道這一點(diǎn)很多人不知道這一點(diǎn) 還有一個(gè)問(wèn)題 什么是真正的統(tǒng) 計(jì) 還有一個(gè)問(wèn)題 什么是真正的統(tǒng) 計(jì) 4 統(tǒng)計(jì)的地位統(tǒng)計(jì)的地位 在美國(guó)統(tǒng)計(jì)早已經(jīng)取代計(jì)算機(jī) 成為 在美國(guó)統(tǒng)計(jì)早已經(jīng)取代計(jì)算機(jī) 成為最容易最容易找工作的專業(yè)找工作的專業(yè) 美國(guó)普通公眾對(duì)統(tǒng)計(jì)有著美國(guó)普通公眾對(duì)統(tǒng)計(jì)有著過(guò)分過(guò)分的 崇拜 的 崇拜 而中國(guó)數(shù)學(xué)類學(xué)生赴美留學(xué)的而中國(guó)數(shù)學(xué)類學(xué)生赴美留學(xué)的首 選專業(yè) 首 選專業(yè)也是統(tǒng)計(jì)也是統(tǒng)計(jì) 在美國(guó) 大量學(xué)物理 計(jì)算機(jī) 電子等專業(yè)的人 在美國(guó) 大量學(xué)物理 計(jì)算機(jī) 電子等專業(yè)的人改行學(xué)統(tǒng)計(jì)改行學(xué)統(tǒng)計(jì) 5 那么 什么是統(tǒng)計(jì)呢 那么 什么是統(tǒng)計(jì)呢 6 STATISTICS the science of collecting analyzing presenting and interpreting data 7 統(tǒng)計(jì)統(tǒng)計(jì) 統(tǒng)計(jì)方法就是科學(xué)的方法 統(tǒng)計(jì)方法就是科學(xué)的方法 什么是科學(xué)和科學(xué)的方法呢 什么是科學(xué)和科學(xué)的方法呢 面對(duì)需要 收集數(shù)據(jù) 根據(jù)數(shù) 據(jù)建立模型 利用模型做預(yù)測(cè)或 得到其它結(jié)論 模型則根據(jù)新的 信息進(jìn)行更新 面對(duì)需要 收集數(shù)據(jù) 根據(jù)數(shù) 據(jù)建立模型 利用模型做預(yù)測(cè)或 得到其它結(jié)論 模型則根據(jù)新的 信息進(jìn)行更新 8 科學(xué)的方法科學(xué)的方法 對(duì)世界的認(rèn)識(shí)源于獲得的信息或數(shù)據(jù)信息或數(shù)據(jù) 總結(jié)信息時(shí)會(huì)形成模型模型 假說(shuō)或理論 模型會(huì)指導(dǎo)指導(dǎo)進(jìn)一步的探索 直到 遇到這些模型無(wú)法無(wú)法解釋的現(xiàn)象 這就 導(dǎo)致對(duì)這些模型的更新和替代 這就是科學(xué)的方法 用科學(xué)方法進(jìn)行 的探索才叫科學(xué) 用科學(xué)方法進(jìn)行 的探索才叫科學(xué) 9 例 天文學(xué)例 天文學(xué) 公元2世紀(jì)托勒玫宇宙地心說(shuō) 1543年哥白尼闡明了日心說(shuō) 開(kāi)普勒發(fā)現(xiàn)行星運(yùn)動(dòng)原理 伽利略把 望遠(yuǎn)鏡用于天文觀測(cè) 牛頓又建立了 運(yùn)動(dòng)和萬(wàn)有引力定律 賴特在1750年 提出宇宙是由眾多星系構(gòu)成 18世紀(jì) 末 赫歇爾首先進(jìn)行了巡天觀測(cè) 奠 定了現(xiàn)代恒星天文學(xué)的基礎(chǔ) 10 例例 牛頓 愛(ài)因斯坦牛頓 愛(ài)因斯坦 牛頓建立了運(yùn)動(dòng)定律和萬(wàn)有引力定律 可解釋 相當(dāng)大部分人們周圍所觀測(cè)到的現(xiàn)象 后來(lái)在亞原子尺度上 在行星觀測(cè)中出現(xiàn)牛頓 的慣性定律或萬(wàn)有引力定律無(wú)法解釋的現(xiàn)象 這就導(dǎo)致了愛(ài)因斯坦狹義和廣義相對(duì)論的產(chǎn)生 又出現(xiàn)和相對(duì)論矛盾的現(xiàn)象 將會(huì)促進(jìn)對(duì)相對(duì) 論的修正 11 科學(xué)方法的步驟科學(xué)方法的步驟 科學(xué)方法是科學(xué)方法是目前已知的目前已知的篩去謊言和錯(cuò)覺(jué)的最好 方式 科學(xué)方法的步驟可做如下大致的描述 篩去謊言和錯(cuò)覺(jué)的最好 方式 科學(xué)方法的步驟可做如下大致的描述 1 觀測(cè)宇宙的某些方面 觀測(cè)宇宙的某些方面 2 發(fā)明或提出可以解釋這些觀測(cè)的假說(shuō)或假設(shè) 它必須和觀測(cè)結(jié)果是相容的 發(fā)明或提出可以解釋這些觀測(cè)的假說(shuō)或假設(shè) 它必須和觀測(cè)結(jié)果是相容的 3 利用該假說(shuō)進(jìn)行預(yù)測(cè) 利用該假說(shuō)進(jìn)行預(yù)測(cè) 4 用實(shí)驗(yàn)來(lái)檢驗(yàn)這些預(yù)測(cè)用實(shí)驗(yàn)來(lái)檢驗(yàn)這些預(yù)測(cè) 證偽 證偽 或者做進(jìn)一 步觀測(cè)并根據(jù)結(jié)果修正假說(shuō) 或者做進(jìn)一 步觀測(cè)并根據(jù)結(jié)果修正假說(shuō) 5 重復(fù)第重復(fù)第3 4步直到在理論和實(shí)驗(yàn)或觀測(cè)中沒(méi)有 矛盾為止 步直到在理論和實(shí)驗(yàn)或觀測(cè)中沒(méi)有 矛盾為止 12 理論理論 能夠說(shuō)明很多現(xiàn)象的假說(shuō)可稱為理論 但任何理論都不能達(dá)到絕對(duì)的真理 科學(xué)理論都應(yīng)該是可證偽的 falsifiable 應(yīng)該 存在某種實(shí)驗(yàn)或可能的發(fā)現(xiàn)可能證明理論是不 對(duì)的 科學(xué)是在證偽中發(fā)展的 基于不能重復(fù)觀測(cè)或重復(fù)實(shí)驗(yàn)的現(xiàn)象而產(chǎn) 生的許多說(shuō)法 都不是科學(xué) 最多是信仰 神的存在是無(wú)法證偽的 宗教不是科學(xué) 而是 信仰 13 科學(xué)是靠證據(jù)說(shuō)話科學(xué)是靠證據(jù)說(shuō)話 理論適用與否靠實(shí)驗(yàn)或觀測(cè) 不能靠辯論 古希臘的偉大哲學(xué)家亞里士多德用各種理由 辯論說(shuō)男人和女人的牙齒數(shù)目不同 基于含糊不清或者不適當(dāng)?shù)那疤岬倪壿嬐评?是沒(méi)有多大意義的 14 科學(xué)研究必需是毫無(wú)偏見(jiàn)的 科學(xué)的結(jié)論應(yīng)該科學(xué)的結(jié)論應(yīng)該獨(dú)立于研究人員的文 化背景 社會(huì)背景 種族 習(xí)慣 宗 教和政治信仰等因素 獨(dú)立于研究人員的文 化背景 社會(huì)背景 種族 習(xí)慣 宗 教和政治信仰等因素 15 科學(xué)領(lǐng)域的造假科學(xué)領(lǐng)域的造假 存在制造假的研究結(jié)果的現(xiàn)象 但除非造假者的結(jié)論沒(méi)有多大 意義 總是會(huì)被人發(fā)現(xiàn)的 除非造假者的結(jié)論沒(méi)有多大 意義 總是會(huì)被人發(fā)現(xiàn)的 如1989美國(guó)猶他大學(xué)的彭斯 和英國(guó)南安普敦大學(xué)的弗萊什 曼冷核聚變冷核聚變以及韓國(guó)科學(xué)家黃 禹錫克隆胚胎干細(xì)胞的例子 黃 禹錫克隆胚胎干細(xì)胞的例子 16 權(quán)力 宗教和意識(shí)形態(tài)對(duì)科學(xué)造成嚴(yán)重干擾權(quán)力 宗教和意識(shí)形態(tài)對(duì)科學(xué)造成嚴(yán)重干擾 擁護(hù)哥白尼的 天體運(yùn)行論 的布魯諾被羅馬教廷以 異端分子和異端分子的老師 的罪名 于1600年2月 17日被燒死在羅馬鮮花廣場(chǎng) 加利略由支持日心說(shuō)于1633年被羅馬天主教廷判決 軟禁 他在軟禁中度過(guò)余生 結(jié)果使得地中海地區(qū) 的科學(xué)傳統(tǒng)完全停止了 17 權(quán)力 宗教和意識(shí)形態(tài)科學(xué)造成嚴(yán)重干擾權(quán)力 宗教和意識(shí)形態(tài)科學(xué)造成嚴(yán)重干擾 在1930 60年代 蘇聯(lián)的全蘇列寧農(nóng)業(yè)科學(xué) 院院長(zhǎng)李森科把孟德?tīng)柡湍柛z傳學(xué)斥為 資產(chǎn)階級(jí)的異端邪說(shuō) 并在斯大林的支持下 對(duì)蘇聯(lián)的研究基因的學(xué)者實(shí)行人身迫害 此 事也對(duì)中國(guó)遺傳學(xué)界產(chǎn)生了惡劣影響 18 統(tǒng)計(jì)學(xué)是所有學(xué)科的工具統(tǒng)計(jì)學(xué)是所有學(xué)科的工具 統(tǒng)計(jì)學(xué)方法是科學(xué)的方法統(tǒng)計(jì)學(xué)方法是科學(xué)的方法 19 統(tǒng)計(jì)應(yīng)該是一門(mén)科學(xué)統(tǒng)計(jì)應(yīng)該是一門(mén)科學(xué) 由于歷史和國(guó)情 在很長(zhǎng)一段時(shí)期中 這里所說(shuō)的 統(tǒng)計(jì)學(xué)在蘇聯(lián)和在我國(guó)被官方認(rèn)為是資本主義的 同時(shí)我國(guó)一些與 由于歷史和國(guó)情 在很長(zhǎng)一段時(shí)期中 這里所說(shuō)的 統(tǒng)計(jì)學(xué)在蘇聯(lián)和在我國(guó)被官方認(rèn)為是資本主義的 同時(shí)我國(guó)一些與 官方觀點(diǎn)官方觀點(diǎn) 不一致的統(tǒng)計(jì)學(xué)家受到 持續(xù)的批判 比如中國(guó)人民大學(xué)留美教授戴世光 不一致的統(tǒng)計(jì)學(xué)家受到 持續(xù)的批判 比如中國(guó)人民大學(xué)留美教授戴世光 20 統(tǒng)計(jì)的應(yīng)用統(tǒng)計(jì)的應(yīng)用 統(tǒng)計(jì)學(xué)與各個(gè)學(xué)科的數(shù)據(jù)都打交道 統(tǒng)計(jì)學(xué)實(shí)際上已經(jīng) 應(yīng)用于所有領(lǐng)域 作為例子 它們包括 統(tǒng)計(jì)學(xué)與各個(gè)學(xué)科的數(shù)據(jù)都打交道 統(tǒng)計(jì)學(xué)實(shí)際上已經(jīng) 應(yīng)用于所有領(lǐng)域 作為例子 它們包括 精算 農(nóng)業(yè) 動(dòng)物學(xué) 人類學(xué) 考古學(xué) 審計(jì)學(xué) 晶體學(xué) 人口統(tǒng)計(jì) 學(xué) 牙醫(yī)學(xué) 生態(tài)學(xué) 經(jīng)濟(jì)計(jì)量學(xué) 教育學(xué) 選舉預(yù)測(cè) 和策劃 工程 流行病學(xué) 金融 水產(chǎn)漁業(yè)研究 遺傳 學(xué) 地理學(xué) 地質(zhì)學(xué) 歷史研究 人類遺傳學(xué) 水文 學(xué) 工業(yè) 法律 語(yǔ)言學(xué) 文學(xué) 勞動(dòng)力計(jì)劃 管理科 學(xué) 市場(chǎng)營(yíng)銷學(xué) 醫(yī)學(xué)診斷 氣象學(xué) 軍事科學(xué) 核材 料安全管理 眼科學(xué) 制藥學(xué) 物理學(xué) 政治學(xué) 心理 學(xué) 心理物理學(xué) 質(zhì)量控制 宗教研究 社會(huì)學(xué) 調(diào)查 抽樣 分類學(xué) 氣象改善 遙感 搏采 精算 農(nóng)業(yè) 動(dòng)物學(xué) 人類學(xué) 考古學(xué) 審計(jì)學(xué) 晶體學(xué) 人口統(tǒng)計(jì) 學(xué) 牙醫(yī)學(xué) 生態(tài)學(xué) 經(jīng)濟(jì)計(jì)量學(xué) 教育學(xué) 選舉預(yù)測(cè) 和策劃 工程 流行病學(xué) 金融 水產(chǎn)漁業(yè)研究 遺傳 學(xué) 地理學(xué) 地質(zhì)學(xué) 歷史研究 人類遺傳學(xué) 水文 學(xué) 工業(yè) 法律 語(yǔ)言學(xué) 文學(xué) 勞動(dòng)力計(jì)劃 管理科 學(xué) 市場(chǎng)營(yíng)銷學(xué) 醫(yī)學(xué)診斷 氣象學(xué) 軍事科學(xué) 核材 料安全管理 眼科學(xué) 制藥學(xué) 物理學(xué) 政治學(xué) 心理 學(xué) 心理物理學(xué) 質(zhì)量控制 宗教研究 社會(huì)學(xué) 調(diào)查 抽樣 分類學(xué) 氣象改善 遙感 搏采 等等 等等 21 當(dāng)今 當(dāng)今 任何領(lǐng)域任何領(lǐng)域的研究結(jié)果 如果沒(méi)有 根據(jù)數(shù)據(jù)所作出的結(jié)論 很難被認(rèn)可的 的研究結(jié)果 如果沒(méi)有 根據(jù)數(shù)據(jù)所作出的結(jié)論 很難被認(rèn)可的 22 中國(guó)統(tǒng)計(jì)中的偽科學(xué)中國(guó)統(tǒng)計(jì)中的偽科學(xué) 中國(guó)統(tǒng)計(jì)過(guò)去 現(xiàn)在 分為 統(tǒng) 計(jì)學(xué) 中國(guó)統(tǒng)計(jì)過(guò)去 現(xiàn)在 分為 統(tǒng) 計(jì)學(xué) 文科的 列寧主義 統(tǒng) 計(jì) 即現(xiàn)在所謂 文科的 列寧主義 統(tǒng) 計(jì) 即現(xiàn)在所謂 社會(huì)經(jīng)濟(jì)統(tǒng)計(jì) 學(xué) 社會(huì)經(jīng)濟(jì)統(tǒng)計(jì) 學(xué) 和 數(shù)理統(tǒng)計(jì) 國(guó)際意義 上的統(tǒng)計(jì) 和 數(shù)理統(tǒng)計(jì) 國(guó)際意義 上的統(tǒng)計(jì) 23 由于國(guó)情 國(guó)人對(duì)統(tǒng)計(jì)的尊重遠(yuǎn)遠(yuǎn) 不如任何其他國(guó)家的人 可能北朝 鮮除外 往往誤解統(tǒng)計(jì)學(xué) 由于國(guó)情 國(guó)人對(duì)統(tǒng)計(jì)的尊重遠(yuǎn)遠(yuǎn) 不如任何其他國(guó)家的人 可能北朝 鮮除外 往往誤解統(tǒng)計(jì)學(xué) 根據(jù)前蘇聯(lián)傳統(tǒng) 國(guó)內(nèi)一些學(xué)者把 統(tǒng)計(jì)稱為是經(jīng)濟(jì)學(xué)科的一部分 根據(jù)前蘇聯(lián)傳統(tǒng) 國(guó)內(nèi)一些學(xué)者把 統(tǒng)計(jì)稱為是經(jīng)濟(jì)學(xué)科的一部分 這種經(jīng)濟(jì)學(xué)中的蘇聯(lián)式統(tǒng)計(jì)學(xué)的數(shù) 學(xué)水平低于小學(xué)數(shù)學(xué)水平 這種經(jīng)濟(jì)學(xué)中的蘇聯(lián)式統(tǒng)計(jì)學(xué)的數(shù) 學(xué)水平低于小學(xué)數(shù)學(xué)水平 與現(xiàn)代經(jīng)濟(jì)學(xué)所需的大量的統(tǒng)計(jì)和 數(shù)學(xué)形成鮮明對(duì)照 與現(xiàn)代經(jīng)濟(jì)學(xué)所需的大量的統(tǒng)計(jì)和 數(shù)學(xué)形成鮮明對(duì)照 24 前蘇聯(lián)式的 統(tǒng)計(jì)學(xué) 目前即使在俄國(guó)也無(wú)人 問(wèn)津 前蘇聯(lián)式的 統(tǒng)計(jì)學(xué) 目前即使在俄國(guó)也無(wú)人 問(wèn)津 但其八股形式在中國(guó)仍 然流行 而且存在于在 官方的統(tǒng)一考試中 但其八股形式在中國(guó)仍 然流行 而且存在于在 官方的統(tǒng)一考試中 25 什么是什么是有用有用的統(tǒng)計(jì) 的統(tǒng)計(jì) 有用 有用 在市場(chǎng)經(jīng)濟(jì)下找得到工作在市場(chǎng)經(jīng)濟(jì)下找得到工作 26 數(shù)學(xué)的重要性數(shù)學(xué)的重要性 真正嚴(yán)格的邏輯真正嚴(yán)格的邏輯僅存在于數(shù)學(xué)之中 只能夠從學(xué)習(xí)數(shù)學(xué)中獲得 僅存在于數(shù)學(xué)之中 只能夠從學(xué)習(xí)數(shù)學(xué)中獲得 數(shù)學(xué)的邏輯服務(wù)于現(xiàn)代理性社會(huì)的所 有方面 數(shù)學(xué)的邏輯服務(wù)于現(xiàn)代理性社會(huì)的所 有方面 27 統(tǒng)計(jì)和數(shù)學(xué)的思維方式差異統(tǒng)計(jì)和數(shù)學(xué)的思維方式差異 數(shù)學(xué)思維是以演繹為主數(shù)學(xué)思維是以演繹為主 統(tǒng)計(jì)思維是以歸納為主 兼有演繹 統(tǒng)計(jì)思維是以歸納為主 兼有演繹 28 統(tǒng)計(jì)主要需要統(tǒng)計(jì)主要需要 數(shù)學(xué) 數(shù)學(xué) 計(jì)算機(jī)及研究對(duì) 象領(lǐng)域的知識(shí) 計(jì)算機(jī)及研究對(duì) 象領(lǐng)域的知識(shí) 加上想象力 通常的邏 輯推理和常識(shí)判斷的能 力 加上想象力 通常的邏 輯推理和常識(shí)判斷的能 力 29 統(tǒng)計(jì)面對(duì)的挑戰(zhàn)統(tǒng)計(jì)面對(duì)的挑戰(zhàn) 30 統(tǒng)計(jì)所研究的對(duì)象中的許 多關(guān)系 很難被諸如物理 定律那樣的理論明確描 述 被認(rèn)為具有某種隨機(jī) 性 類似于黑匣子 統(tǒng)計(jì)所研究的對(duì)象中的許 多關(guān)系 很難被諸如物理 定律那樣的理論明確描 述 被認(rèn)為具有某種隨機(jī) 性 類似于黑匣子 31 一般來(lái)說(shuō)統(tǒng)計(jì)數(shù)據(jù)分析有兩個(gè)目的 一個(gè)是能夠由輸入數(shù)據(jù)x來(lái)預(yù)測(cè)y 而另一個(gè)為解釋這個(gè)聯(lián)系輸入變量和輸出 變量的 自然 部分 即所謂的 黑匣子 自然自然yx 記輸入的數(shù)據(jù)為x 而輸出為y 那么根據(jù)x產(chǎn)生 出y的過(guò)程則可以用如下圖形描述 32 eo Breiman January 27 1928 July 7 2005 was a distinguished statistician at the niversity of California Berkeley He was the recipient of numerous honors and wards and was a member of the United States National Academy of Science 33 按照Breiman 2001 1 的說(shuō)法 統(tǒng)計(jì)有兩個(gè)文 化 一個(gè)是數(shù)據(jù)建模數(shù)據(jù)建模文化 data modeling culture 它在黑匣子中假定一個(gè)隨機(jī)產(chǎn)生數(shù) 據(jù)的模型 最典型的包括線性回歸模型 logistic回歸模型和Cox模型等等 這里對(duì)模型是否適當(dāng)采用諸如擬合優(yōu)度檢驗(yàn)和 殘差分析等方法來(lái)確定 而模型通常為下面的 函數(shù)形式 響應(yīng)變量 f 預(yù)測(cè)變量 參數(shù) 隨機(jī)噪聲 或 Y f X 34 而B(niǎo)reiman所說(shuō)的另一種為算法建模算法建模 文化 algorithmic modeling culture 它也是找一個(gè)函數(shù)f x 來(lái)預(yù)測(cè)y 只不過(guò)這里的函數(shù)不局限于一些明確 表達(dá)的數(shù)學(xué)公式 而是一個(gè)算法 這里主要關(guān)心的是預(yù)測(cè) 而黑匣子到 底是什么 能夠解釋就解釋 但并不 強(qiáng)求 35 典型的算法包含決策樹(shù) 關(guān)聯(lián)規(guī)則 隨機(jī)森林 支持向量機(jī)等等 這里對(duì)模型是否適當(dāng) 則采用預(yù)測(cè)精 度來(lái)衡量 Breiman認(rèn)為 專注于數(shù)據(jù)模型會(huì)產(chǎn) 生無(wú)關(guān)的理論以及有問(wèn)題的結(jié)論 使 得統(tǒng)計(jì)學(xué)家遠(yuǎn)離適當(dāng)?shù)乃惴P?不 去研究嶄新的實(shí)際問(wèn)題 36 多數(shù)專業(yè)統(tǒng)計(jì)學(xué)家屬于數(shù)學(xué)出身 他們認(rèn)為 數(shù)理統(tǒng)計(jì)學(xué)只是從數(shù)量表現(xiàn)的 層面上來(lái)分析問(wèn)題 完全不觸及問(wèn)題的專 業(yè)內(nèi)涵 在這個(gè)意義上 數(shù)理統(tǒng)計(jì)方法是一個(gè)中 立性的工具 這 中立 的含義是 它既不 在任何問(wèn)題上有何主張 也不維護(hù)任何利 益或在任何學(xué)科中堅(jiān)持任何學(xué)理 作為一個(gè)工具 誰(shuí)都可以使用 如果誰(shuí)不 同意這種方法 可以不使用 1 37 對(duì)于統(tǒng)計(jì)方法或統(tǒng)計(jì)模型本身的這種 在各學(xué)科中的 中立性 是普遍同意的 但是 任何統(tǒng)計(jì)方法的發(fā)展 任何模 型的建立都有其應(yīng)用背景 統(tǒng)計(jì)學(xué)家的研究 就其本質(zhì)來(lái)說(shuō) 是 不可能獨(dú)立于這些領(lǐng)域的具體目標(biāo) 除非他們所做的工作是統(tǒng)計(jì)推斷中間 的一個(gè)局部數(shù)學(xué)環(huán)節(jié)的演繹式推導(dǎo) 38 按照Breiman 數(shù)據(jù)建模文化包含了 目前統(tǒng)計(jì)課程所涉及的大部份統(tǒng)計(jì)模 型 建立這些模型需要一些在實(shí)際中不一 定能夠滿足的數(shù)學(xué)假定 在模型選擇 對(duì)結(jié)果的解釋和預(yù)測(cè)等 方面有很多不明確或不清楚的地方 這些模型的使用對(duì)于非統(tǒng)計(jì)領(lǐng)域的人 員來(lái)說(shuō)并不方便 39 而算法建模文化 則針對(duì)實(shí)際課題的 問(wèn)題 選擇一些方法 利用計(jì)算機(jī)來(lái) 根據(jù)訓(xùn)練樣本建模 人們用對(duì)測(cè)試樣本的預(yù)測(cè)精度來(lái)判斷 這些模型是否適用 由于沒(méi)有多少中間的人為干預(yù) Breiman覺(jué)得 這種文化是其他領(lǐng)域 的工作者容易掌握的 40 第一 統(tǒng)計(jì)學(xué)的方法都是在應(yīng)用的推動(dòng)下產(chǎn)生 的 如果沒(méi)有應(yīng)用 它們不會(huì)出現(xiàn) 其次 如果以應(yīng)用為目的而產(chǎn)生的統(tǒng)計(jì)方法不能 滿足應(yīng)用的要求 再漂亮的數(shù)學(xué)表達(dá)也不能保證 其存在 第三 統(tǒng)計(jì)中的數(shù)學(xué)本身不能形成一個(gè)完整的邏 輯體系 貝葉斯統(tǒng)計(jì)可能被認(rèn)為是例外 其中 有大量的人為或主觀因素在起作用 這是不符合 純粹數(shù)學(xué)的本質(zhì)的 如果脫離應(yīng)用背景而把統(tǒng)計(jì)作為純粹數(shù) 學(xué)的一部分 統(tǒng)計(jì)學(xué)沒(méi)有存在的必要 如果脫離應(yīng)用背景而把統(tǒng)計(jì)作為純粹數(shù) 學(xué)的一部分 統(tǒng)計(jì)學(xué)沒(méi)有存在的必要 41 統(tǒng)計(jì)應(yīng)用最初是由政府的需要而產(chǎn)生 的 但目前統(tǒng)計(jì)的方法和理論基礎(chǔ)是 由一批數(shù)學(xué)家奠定的 很多人認(rèn)為統(tǒng)計(jì)學(xué)是 數(shù)學(xué)的一個(gè)分支 這當(dāng)然不僅涉及統(tǒng)計(jì)和數(shù)學(xué)的定義 而且涉及統(tǒng)計(jì)的性質(zhì)和應(yīng)用背景 統(tǒng)計(jì)從數(shù)學(xué)繼承了什么 統(tǒng)計(jì)從數(shù)學(xué)繼承了什么 42 由于統(tǒng)計(jì)發(fā)展歷史中的數(shù)學(xué)背景 上個(gè)世 紀(jì)中期基本定型的數(shù)理統(tǒng)計(jì)教科書(shū)充滿了 數(shù)學(xué)味極強(qiáng)的定義 引理 定理 推論 以及貫串其中的純粹數(shù)學(xué)推導(dǎo)和證明 數(shù)學(xué)是一個(gè) 是非明確 的理想世界 它自我 形成嚴(yán)格的封閉邏輯體系 只要邏輯正 確 數(shù)學(xué)研究最多得不出結(jié)果 但不會(huì)犯 錯(cuò)誤 這也是以演繹為主的數(shù)學(xué)魅力之所在 數(shù) 學(xué)教科書(shū)沒(méi)有負(fù)面的內(nèi)容 數(shù)學(xué)的邏輯完 全是客觀的 43 但以歸納為主要思維方式的統(tǒng)計(jì)是描述現(xiàn) 實(shí)世界的 是為各領(lǐng)域服務(wù)的 統(tǒng)計(jì)需要建立各種數(shù)學(xué)模型來(lái)近似現(xiàn)實(shí)世 界 但任何數(shù)學(xué)模型都不可能精確地描述 現(xiàn)實(shí)世界或自然 正如沒(méi)有科學(xué)理論能夠 等于真理一樣 數(shù)學(xué)是不能證偽的 而統(tǒng)計(jì)和其他科學(xué)的 理論一樣 必須是可以證偽的 44 基本上由數(shù)學(xué)老師教授的數(shù)理統(tǒng)計(jì)課程多 是按照純粹數(shù)學(xué)的模式設(shè)計(jì)的 對(duì)于背后的基于數(shù)據(jù)的統(tǒng)計(jì)思想介紹得不 很充分 也不強(qiáng)調(diào)這些充滿假定的數(shù)學(xué)模 型都是對(duì)現(xiàn)實(shí)世界的不同程度的簡(jiǎn)化 很 少教科書(shū)指出違背這些假定的后果 幾乎沒(méi)有人告訴學(xué)生 所有統(tǒng)計(jì)教科書(shū)中 對(duì)數(shù)據(jù) 或其總體 的數(shù)學(xué)假定都是無(wú)法 用數(shù)據(jù)驗(yàn)證的 數(shù)學(xué)化的統(tǒng)計(jì)教科書(shū)極少提到統(tǒng)計(jì)應(yīng)用中 一系列決策的主觀性和任意性 45 所有模型都僅僅是對(duì)現(xiàn)實(shí)世界的某種近似 模型存在的一個(gè)必要條件是它們必須能夠 被人們解出來(lái) 無(wú)論是近似的 或者是精 確的 任何可得到的結(jié)論由于模型的近似性而必 然是近似的 而這些結(jié)果到底和現(xiàn)實(shí)世界有多么近似 可能永遠(yuǎn)不清楚 傳統(tǒng)的數(shù)據(jù)建模在應(yīng)用中所遇到的問(wèn)題傳統(tǒng)的數(shù)據(jù)建模在應(yīng)用中所遇到的問(wèn)題 46 衡量模型是否合適或者統(tǒng)計(jì)結(jié)果是否合理 的傳統(tǒng)方法包括各種擬合優(yōu)度檢驗(yàn) 準(zhǔn) 則 以及殘差分析等等 當(dāng)然還采用無(wú)偏 性等大樣本或總體概念 正如Efron 2001 1 指出的 二十世紀(jì)的統(tǒng) 計(jì)可標(biāo)以 100年的無(wú)偏性 大多數(shù)我們的 統(tǒng)計(jì)理論和實(shí)踐是圍著無(wú)偏或幾乎無(wú)偏估 計(jì) 特別是MLES 和基于這樣估計(jì)的檢驗(yàn) 轉(zhuǎn)的 47 然而 要使用這些判別方法 必須對(duì)模型和產(chǎn)生 數(shù)據(jù)的總體做出一些假定 諸如模型的數(shù)學(xué)形式 誤差的結(jié)構(gòu)和分布的假定 這些假定是基于經(jīng)驗(yàn) 數(shù)據(jù)的特征 或數(shù)學(xué)上的方便 然而 Bickel et al 2001 2 表明除非備選假設(shè)有 明確的方向 擬合優(yōu)度檢驗(yàn)的效率很低 而殘差分析也是不可靠的 它在變量數(shù)目多的時(shí) 候無(wú)法揭示欠缺的擬合 不同的殘差分析方法會(huì) 導(dǎo)致不同的結(jié)論 48 雖然擬合優(yōu)度檢驗(yàn)和殘差分析可能會(huì)誤 導(dǎo) 但是正如Breiman 2001 3 所說(shuō) 近年來(lái)在JASA發(fā)表的關(guān)于數(shù)據(jù)的應(yīng)用文章 連這些方法也很少利用 似乎和獨(dú)創(chuàng)性的統(tǒng)計(jì)模型相比 模型擬合 好壞是次要的 只欣賞模型本身 而忽略實(shí)際應(yīng)用背景是 危險(xiǎn)的 當(dāng)結(jié)論僅僅描述模型的機(jī)制而不 反映模型應(yīng)該反映的現(xiàn)實(shí)世界時(shí) 結(jié)論必 然是錯(cuò)誤的 49 Mostelling Tukey 1977 4 在討論回歸的 謬誤時(shí)說(shuō) 整個(gè)按部就班的回歸領(lǐng)域充滿 著智力的 統(tǒng)計(jì)的 計(jì)算的和主題的困難 很難想象我們面對(duì)著從包含未知的物理 化學(xué) 生物或社會(huì)機(jī)制的復(fù)雜系統(tǒng)中產(chǎn)生 的未受控制的觀測(cè)數(shù)據(jù)背后的機(jī)制能夠被 一些統(tǒng)計(jì)學(xué)家主觀選擇的參數(shù)模型來(lái)充分 解釋 而從這樣模型得到的結(jié)論不能由擬 合優(yōu)度檢驗(yàn)和殘差分析來(lái)證實(shí) 50 傳統(tǒng)統(tǒng)計(jì)方法的另一個(gè)問(wèn)題是數(shù)據(jù)建模的 結(jié)果的多重性 也就是說(shuō) 若干模型都顯 著 但它們對(duì)現(xiàn)實(shí)世界有不同的描述 這些不同 但又都 顯著 的模型對(duì)黑匣子的 解釋各異 Mountain Hsiao 1989 1 表明 很難構(gòu) 造一個(gè)能夠包含所有競(jìng)爭(zhēng)模型的復(fù)雜模型 而且 鑒于利用有限的樣本所建立的依賴 于漸近理論的各種檢驗(yàn)的合法性和效率 所導(dǎo)致的結(jié)論是靠不住的 51 和傳統(tǒng)的所謂數(shù)據(jù)建模文化不同 Breiman所定義的算法建模文化則多數(shù) 由沒(méi)有傳統(tǒng)統(tǒng)計(jì)背景的研究人員所發(fā) 展 早在1980年代 算法建模在心理計(jì)量 學(xué) 社會(huì)科學(xué) 醫(yī)學(xué)中就有不同程度 的應(yīng)用 但最有影響的是80年代中期 出現(xiàn)的神經(jīng)網(wǎng)絡(luò)和決策樹(shù) 算法建模算法建模 52 這些方法的目的是提高預(yù)測(cè)的精度 最初的研究人員由年輕的計(jì)算機(jī)科學(xué) 家 物理學(xué)家 工程師和少數(shù)統(tǒng)計(jì)學(xué) 家 他們?cè)跀?shù)據(jù)模型無(wú)法使用的復(fù)雜預(yù)測(cè) 問(wèn)題上試驗(yàn)他們的新的方法 這些問(wèn)題包括語(yǔ)言識(shí)別 圖象識(shí)別 非線性時(shí)間序列預(yù)測(cè) 筆跡識(shí)別 以 及金融市場(chǎng)的預(yù)測(cè) 53 算法建模的勢(shì)力迅速擴(kuò)展 并且產(chǎn)生了數(shù) 千篇文章 最初的算法建模的研究人員多數(shù)沒(méi)有傳統(tǒng) 統(tǒng)計(jì)訓(xùn)練 或者不受傳統(tǒng)統(tǒng)計(jì)的約束 現(xiàn) 在也有一些著名的統(tǒng)計(jì)學(xué)家加入了他們的 行列 他們的問(wèn)題除了傳統(tǒng)統(tǒng)計(jì)無(wú)法用武的領(lǐng) 域 比如處理由遙感衛(wèi)星 互聯(lián)網(wǎng) 光學(xué) 和射電天文望遠(yuǎn)鏡 基因研究等產(chǎn)生的海 量數(shù)據(jù)之外 也進(jìn)入了傳統(tǒng)的數(shù)據(jù)建模的 領(lǐng)地 54 目前的算法建模方法對(duì)于模型的評(píng)價(jià)主要 是預(yù)測(cè)精度 比如利用試驗(yàn)數(shù)據(jù)集來(lái)對(duì)訓(xùn) 練數(shù)據(jù)集所建立的模型進(jìn)行交叉驗(yàn)證 他們的方法也逐步改進(jìn) 比如支持向量機(jī) 就比早期的神經(jīng)網(wǎng)絡(luò)更有效 助推法 boosting 或其改進(jìn)型進(jìn)行分類和回歸的 方法也在不斷改進(jìn) 這些方法許多在機(jī)器學(xué)習(xí) 人工智能或數(shù) 據(jù)挖掘等各種名稱下產(chǎn)生和發(fā)展 55 算法建模和傳統(tǒng)統(tǒng)計(jì)不僅僅區(qū)別于前面所 說(shuō)的著重于預(yù)測(cè)精度和適用于海量數(shù)據(jù) 它還有其他一些優(yōu)點(diǎn) 比如在基因數(shù)據(jù)中 變量個(gè)數(shù)可以達(dá)到 4682個(gè) 而樣本量?jī)H有81個(gè) 參見(jiàn)Dudoit et al 2000 1 這樣巨大的變量和觀測(cè)值數(shù)目的比例是傳 統(tǒng)統(tǒng)計(jì)不可想象的 比如 Diaconis Efron 1983 2 年曾經(jīng)說(shuō)過(guò) 統(tǒng)計(jì)經(jīng)驗(yàn)表 明 基于19個(gè)變量和僅僅155個(gè)數(shù)據(jù)點(diǎn)來(lái)擬 合模型是不明智的 56 它不僅不畏懼巨大的維數(shù) 而且認(rèn)為變量 越多 包含的信息越多 實(shí)際上 有大量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論