醫學數據處理一般過程課件_第1頁
醫學數據處理一般過程課件_第2頁
醫學數據處理一般過程課件_第3頁
醫學數據處理一般過程課件_第4頁
醫學數據處理一般過程課件_第5頁
已閱讀5頁,還剩23頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 醫學數據處理與統計軟件第一講 醫學數據處理 主要內容:一、誤差的分類及其特點二、醫學數據處理的一般原則與要求三、科學計數器的使用四、醫學數據雙錄入與核查的方法及軟件 一、誤 差(Error)的分類及其特點 統計學上所說的誤差,泛指測量值與真實值之差,以及樣本指標與統計指標之差。 統計學的三大核心思想: 1.差誤思想 2.權重思想 3.分布思想 誤差分類(物理、化學)按誤差來源:裝置誤差、環境誤差、方法誤差、人員誤差 系統誤差(System error)由特定原因引起、具有一定因果關系并按確定規律產生按掌握程度:已知誤差、未知誤差按特性規律:系統誤差、隨機誤差、粗大誤差 - 有規律可循裝置、環

2、境、動力源變化、人為因素再現性 - 偏差(Deviation)理論分析/實驗驗證 - 原因和規律 - 減少/消除 隨機誤差(Random error)因許多不確定性因素而隨機發生偶然性(不明確、無規律)概率和統計性處理(無法消除/修正) 粗大誤差(Abnormal error)檢測系統各組成環節發生異常和故障等引起異常誤差 - 混為系統誤差和偶然誤差 - 測量結果失去意義分離 - 防止 按變化速度:靜態誤差、動態誤差醫學統計學的誤差分類*(1)系統誤差:數據搜集和測量過程中由于儀器不準確、標準不規范等原因,造成觀察結果呈傾向性的偏大或偏小,這種誤差稱為系統誤差。 特點: 不易發現,但可避免(2

3、)非系統誤差:在實驗過程中由研究者偶然失誤而造成的誤差。例如,儀器失靈,抄錯數字,點錯小數點,寫錯單位等,故也稱為過失誤差。 特點: 容易發現,可以避免誤差(error)誤差隨機誤差非隨機誤差隨機測量誤差抽樣誤差系統誤差非系統誤差(過失誤差)二、醫學數據處理的一般原則與要求 醫學數據統計學處理的核心思想是在數據處理環節消除或控制非隨機誤差,保證統計分析能建立在真實的抽樣誤差的基礎上。 (一)原始數據的錄入1.原始數據的記錄形式 實驗研究的原始數據 原始數據常列成類似表1的二維結構,即行列結構的數據集形式。在表1中,每一行成為一條記錄(record),或一個觀察單位(case);每一列稱為一個變

4、量(variable),用以表示變量、項目或觀察指標等。表1記錄的原始數據是一個由274例觀察單位和11個變量組成的數據集。 原始數據中,變量分為標識變量和分析變量兩種。標識變量主要用于數據管理,包括數據的核對與增刪等,是研究記錄中不可缺少的內容,如表1中的“病人編號”和“病案號”即為標識變量。分析變量則是數據分析的主要內容,表1中除上述2個標志變量外,其他9個變量均為分析變量。病人 病案號 性別編號年齡生理評分腎毒性黃疸昏迷肌酐膽固醇腎功能預后1004757男2614無有無520-治愈2007950女3113無無無5234.5治愈3011093男5517無無無2093.3治愈4017555男

5、299無無無13034.1治愈.274279183女8815有無無3316.1喪失表1 腎衰病人預后研究的臨床資料記錄返回 分析變量又分為反應變量(response variable)和解釋變量(explanatory variable)。反應變量是表示試驗效應或觀察結果大小的變量或指標。解釋變量又稱為指示變量(indicator)、分組變量(grouping variable)、分類變量(categorical variable)、協變量等。根據研究目的以及變量間的相互關系,各變量的作用并非一成不變。例如,表1中,若進行腎衰病人的預后研究,則“腎功能預后”為反應變量,其余的研究變量為解釋變量

6、;若分析與“腎毒性”、“黃疸”和“昏迷”等臨床癥狀相對應的“生理評分”、“肌酐”和“膽固醇”等觀察指標的影響,“腎毒性”、“黃疸”和“昏迷”可分別看作分組(解釋)變量,“生理評分”、“肌酐”和“膽固醇”則可分別看作反應變量。2.原始數據的錄入 在進行統計分析前,原始數據需錄入計算機。錄入的文件類型大致有:數據庫文件,如dBASE、FoxBASE 、Lotus、EPI info等;Excel 文件;文本文件,如word文件、WPS文件等;統計應用軟件的相應文件,如SPSS 數據文件、SAS數據文件、 Stata 數據文件等。目前,上述文件類型絕大多數都可以相互轉換(數據訪問)。錄入數據時,應遵循

7、便于錄入,便于核查,便于轉換,便于分析的原則。便于錄入是指盡可能地減少錄入工作量,例如,錄入時,用數值變量取代了字符變量,可以大大節約錄入的時間和費用。便于核查是指一定要設有標識變量,以方便數據核查。便于轉換是指錄入數據時要考慮不同軟件對字節和字符的要求。例如,文本文件的變量名字節可以不受限制,但SPSS軟件12.0以前的版本、Stata軟件等的變量名要求不超過8個字節;又如,有的軟件不識別中文。因此,數據錄入時,定義變量名時盡可能用英文,且不超過8個字節,而中文名可用標記的方式(label)表示,如SPSS數據文件(圖1)中將性別標記為1=“男”,2=“女”。便于分析是指每項研究最好錄成一個

8、數據文件,錄入的格式滿足各種統計分析的需要,這樣才能保證分析數據時的高效和全面。 2.離群數據的處理 當個別數據與群體數據嚴重偏離時,被稱為離群數據(outlier)或極端數據(extreme value)。統計軟件一般都有判斷離群數據的方法。判斷離群數據有多種方法,例如,SPSS軟件對其的定義為:觀察值距箱式圖(box plot)的箱體底線(第25百分位數)或頂線(第75百分位數)的距離為箱體高度(四分位間距)的1.53倍時被視為離群點;觀察值距箱體底線或頂線的距離超過3倍的箱體高度時被視為極端值。如有離群數據出現,可分為兩種情況處理。一種是,如果確認數據有邏輯錯誤,又無法糾正,可直接刪除該

9、數據。例如,若有一數據中某病例的身高變量為“1755”cm,且原始記錄亦如此,又無法再找到該病例時,顯然這是個錯誤的記錄,只能刪除,另一種是,若數據并無明顯的邏輯錯誤,可將該數據剔除前后各做一次分析,若結果不矛盾,則不剔除;若結果矛盾,并需要剔除,必須給以充分合理的解釋,例如用何種方法確定偏離數據,該數據在實驗中何種干擾下產生等。 3.統計方法前提條件的檢驗 應用參數方法進行假設檢驗往往要求數據滿足某些前提條件,如兩個獨立樣本比較t檢驗或多個獨立樣本比較的方差分析,均要求方差齊性,因此需要做方差齊性檢驗。如果要用正態分布法估計參考值范圍,首先要檢驗資料是否服用正態分布。在建立各種多重回歸方程時

10、,常需檢驗變量間的多重共線性和殘差分布的正態性。 總之醫學數據處理的核心思想是在數據處理環節消除或控制非隨機誤差,保證統計分析能建立在真實的抽樣誤差的基礎上。一般原則:對錄入的數據進行核查 1.邏輯核查+與原始數據一一校對 2.數據雙錄入的核查(雙錄入的一致性核查+邏輯核查)*三、計算器的使用1、計算器的功能:提供進行算術、統計以及科學計算的途徑。2、計算器窗口的顯示模式:標準型和科學型。兩種模式的切換方式:單擊“查看”菜單3、打開計算器的方法:“開始”“程序”“附件”“計算器” 練習題:(1)計算(91+85+52+14+45-56+45)/8的值(2)計算28/(4+4)+74*2+20*

11、9+67+39的值(3)計算1/7的值5、使用科學型計算器求2、8、90、74、20、67、39的平均值。步驟1:切換到科學型計算器步驟2:輸入數字2步驟3:單擊“Sta”按鈕,出現了一個“統計框”窗口步驟4:單擊“Dat”按鈕,此時顯示框中的數據被帶到“統計框”中步驟5:按如下順序輸入:8Dat92Dat74Dat20Dat67Dat39Dat,則所有輸入的數據被帶到統計框中。步驟6:單擊“計算器”窗口中的“Ave”按鈕,即可計算出“統計框”窗口中所有數據的平均值。練習題:(1)求6、20、23、73、33、87的平均值(2)求16、17、23、45、38、43、99的平均值數據雙錄入的核查一般程序用數據管理軟件進行數據雙錄入,錄入后第一步進行雙錄入的一致性核查,雙錄入核查時發現不一致的地方再查找

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論