




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十一章 數據處置本章要點:本章要點: 了解數據處置的概念和普通程序了解數據處置的概念和普通程序 了解并掌握前編碼設計的各種方法了解并掌握前編碼設計的各種方法 了解審核的準那么和選擇性審核的方法了解審核的準那么和選擇性審核的方法 熟習實際中各種插補方法熟習實際中各種插補方法開篇案例:某城市外出就餐調查的有開篇案例:某城市外出就餐調查的有關數據關數據 在某城市調查居民當月在外就餐的費用,向1000戶家庭發放了調查詢卷。訊問當月該戶在外就餐的費用為:1,100元以下;2,100300元;3,300500元;4,5001000元;5,1000元以上。回收了768份問卷。統計結果如表所示:類類1001
2、0030030050050010001000合合計計頻數頻數41224882260768 不呼應的有不呼應的有232戶。研討呼應的戶。研討呼應的768戶與不戶與不呼應的呼應的232戶的居住環境,兩者相差懸殊,戶的居住環境,兩者相差懸殊,普通居民住宅與高檔住宅的比例有明顯差普通居民住宅與高檔住宅的比例有明顯差別。在相應的別。在相應的768戶中,高檔住宅戶僅占戶中,高檔住宅戶僅占1.6%,而不呼應的,而不呼應的232戶中,高檔住宅占戶中,高檔住宅占到到38%。在調查到的。在調查到的12戶高檔住宅戶中有戶高檔住宅戶中有5戶選擇戶選擇3,7戶選擇戶選擇4,根據這樣的背景,完,根據這樣的背景,完全可以斷
3、定實踐回收的全可以斷定實踐回收的768戶樣本的構造與戶樣本的構造與原設計的原設計的1000戶的構造石油本質差別的。戶的構造石油本質差別的。 那么應該如何對待這些數據呢?如何運用那么應該如何對待這些數據呢?如何運用這些數據對總體進展推斷呢?這些數據對總體進展推斷呢?一、數據處置及其普通程序一、數據處置及其普通程序 數據處置,廣義上是指在對數據資料進展數據處置,廣義上是指在對數據資料進展統計分析之前要做的預備任務,包括對定統計分析之前要做的預備任務,包括對定性資料的分類、簡化,對定量資料的匯總性資料的分類、簡化,對定量資料的匯總和分組等。和分組等。數據處置的普通程序數據處置的普通程序初步審核及進化
4、數據編碼數據錄入詳細審核與插補離群值的檢測處理數據存儲1、初步審核及凈化、初步審核及凈化 審核問卷填寫的完好性和數據質量,目的是確定審核問卷填寫的完好性和數據質量,目的是確定哪些問卷可以接受,哪些問卷是要被剔除的。哪些問卷可以接受,哪些問卷是要被剔除的。 普通來說,以下情況的問卷是不能接受的:普通來說,以下情況的問卷是不能接受的: 所回收的問卷是明顯不完好的,如缺頁或多頁;所回收的問卷是明顯不完好的,如缺頁或多頁; 問卷從整體上是回答不完全的;問卷從整體上是回答不完全的; 問卷的幾個部分是回答不完好的;問卷的幾個部分是回答不完好的; 回答闡明被訪者沒有弄清楚問題的含義或沒有閱回答闡明被訪者沒有
5、弄清楚問題的含義或沒有閱讀答卷的重要闡明;讀答卷的重要闡明; 被訪者的回答表現出某種系統偏向,如在五級量被訪者的回答表現出某種系統偏向,如在五級量表丈量的一些列問題中總是選擇中性答案;表丈量的一些列問題中總是選擇中性答案; 問卷是由不合要求的被訪者回答的。問卷是由不合要求的被訪者回答的。2、數據編碼、數據編碼 就是對一個問題的不同回答進展分組和確定數字就是對一個問題的不同回答進展分組和確定數字代碼的過程。代碼的過程。 編碼設計的詳細內容包括:問卷代碼、變量的定編碼設計的詳細內容包括:問卷代碼、變量的定義稱號、類型、位數、對應問題等義稱號、類型、位數、對應問題等 問卷代碼主要包括訪員代碼、問卷代
6、碼及與抽樣問卷代碼主要包括訪員代碼、問卷代碼及與抽樣或調查對象有關的子總體的代碼等。例如,某問或調查對象有關的子總體的代碼等。例如,某問卷的代碼為卷的代碼為“1031102,第一位數字,第一位數字1代表上代表上海航空公司,后面海航空公司,后面03代表代表652次航班,再后面兩次航班,再后面兩位數字位數字11代表訪員編號,最后兩位數字代表訪員編號,最后兩位數字02代表該代表該訪員在此航班勝利完成的第訪員在此航班勝利完成的第2分問卷。分問卷。編碼設計的分類編碼設計的分類 根據問卷構造分為構造式問卷編碼設計和根據問卷構造分為構造式問卷編碼設計和非構造式問卷編碼設計非構造式問卷編碼設計 根據問題類型分
7、為封鎖題、半封鎖題和開根據問題類型分為封鎖題、半封鎖題和開放題編碼設計放題編碼設計 根據編碼設計的時間與方法分為前編碼設根據編碼設計的時間與方法分為前編碼設計和后編碼設計兩種計和后編碼設計兩種前編碼設計前編碼設計 前編碼設計要求事先知問題的答案類別,前編碼設計要求事先知問題的答案類別,主要運用于構造式問卷中的封鎖題和數字主要運用于構造式問卷中的封鎖題和數字型開放題。型開放題。封鎖式問題的編碼封鎖式問題的編碼 單項選擇的封鎖式問題或量表的編碼單項選擇的封鎖式問題或量表的編碼 例如:請問您乘坐的艙位是:例如:請問您乘坐的艙位是: 1頭等艙頭等艙 2公務艙公務艙 3經濟艙經濟艙 對上題編碼,定義變量
8、取值范圍為對上題編碼,定義變量取值范圍為1,2,3,9,分別代表頭等艙,公務艙,經濟艙和無,分別代表頭等艙,公務艙,經濟艙和無回答。回答。多項選擇的封鎖式問題或量表的多項選擇的封鎖式問題或量表的編碼編碼 這類多項選擇問題需求運用多個變量來表這類多項選擇問題需求運用多個變量來表示。根據設立的變量個數及變量取值的不示。根據設立的變量個數及變量取值的不同,通常有兩種編碼方式:同,通常有兩種編碼方式: 方法一:所設立的變量個數與問卷提供的方法一:所設立的變量個數與問卷提供的選項個數一樣,即每個選項就是一個變量,選項個數一樣,即每個選項就是一個變量,每個變量取值都是每個變量取值都是0或或1,假設被訪者選
9、擇,假設被訪者選擇該選項,變量取值該選項,變量取值1,否那么為,否那么為0。例如:您選擇本次航班的緣由?可例如:您選擇本次航班的緣由?可以選擇多項以選擇多項 平安有保證平安有保證 航班時辰適當航班時辰適當 機型好機型好 效力好效力好 持常旅客卡持常旅客卡 航班正點航班正點 折扣票折扣票 游覽社安排游覽社安排 無其他航班無其他航班 其他其他對上題的編碼如下表所示,這種編碼方法的優點是編對上題的編碼如下表所示,這種編碼方法的優點是編碼的結果不用經過轉換,可直接分析;缺陷是變量隨碼的結果不用經過轉換,可直接分析;缺陷是變量隨選項增多而增多,對于樣本大,錄入任務量較大。選項增多而增多,對于樣本大,錄入
10、任務量較大。變量變量序號序號變量變量名名變量類變量類型型變量所變量所占字節占字節取值取值范圍范圍取值對應含取值對應含義義備注備注對應問對應問題題6V6-1數值型數值型10或或1取值為取值為1,表明該選項表明該選項為選擇本次為選擇本次航班的原因,航班的原因,取值為取值為0,則不是則不是全為全為0表表示該題示該題無回答無回答6、您、您選擇本選擇本次航班次航班的原因的原因7V6-2數值型數值型10或或18V6-3數值型數值型10或或19V6-4數值型數值型10或或110V6-5數值型數值型10或或111V6-6數值型數值型10或或112V6-7數值型數值型10或或113V6-8數值型數值型10或或1
11、14V6-9數值型數值型10或或115V6-10 數值型數值型10或或1方法二:方法二: 所設立的變量個數為最多可以選擇的選項個數,變量取值為所選擇答案的選項號,變量陳列順序即為選擇答案的順序。變量變量序號序號變量變量名名變量類變量類型型變量所變量所占字節占字節取值取值范圍范圍取值對應含義取值對應含義備注備注對應問對應問題題6V6-1數值型數值型1010取值為取值為010,表明該選項為表明該選項為選擇本次航班選擇本次航班的原因,取值的原因,取值為為0,表明其余,表明其余選項都不是原選項都不是原因因全為全為0表表示該示該題無題無回答回答6、您、您選擇本選擇本次航班次航班的原因的原因7V6-2數值
12、型數值型10108V6-3數值型數值型1010數字型開放式問題的編碼數字型開放式問題的編碼 對直接回答數字的問題,變量取值即為該對直接回答數字的問題,變量取值即為該數字。設計編碼時變量的丈量程度應盡能數字。設計編碼時變量的丈量程度應盡能夠高一些。夠高一些。 變量所占字節數可以根據事先估計的數字變量所占字節數可以根據事先估計的數字最大值的位數確定。最大值的位數確定。后編碼設計后編碼設計 市場調查中有些問題的答案事先無法預料市場調查中有些問題的答案事先無法預料或難以完全羅列出來,但又希望能對答案或難以完全羅列出來,但又希望能對答案進展定量分析。進展定量分析。步驟:步驟: 1、列出答案、列出答案 2
13、、將一切有意義的答案列成頻數分布表、將一切有意義的答案列成頻數分布表 3、確定可以接受的分組數、確定可以接受的分組數 4、挑選和合并答案。對頻數較少的答案盡能夠、挑選和合并答案。對頻數較少的答案盡能夠歸并成含義詳盡的幾組,對含義相差大的或頻數歸并成含義詳盡的幾組,對含義相差大的或頻數不多的,以不多的,以“其他其他概括為一組。概括為一組。 5、對確定的分組選擇正是的描畫詞匯、對確定的分組選擇正是的描畫詞匯 6、根據分組結果制定編碼規那么、根據分組結果制定編碼規那么 7、對全部回收調查表進展編碼、對全部回收調查表進展編碼請問您為何選擇該品牌?請問您為何選擇該品牌?調查者翻閱一切的回答后,將緣由利益
14、列出,而后歸并成調查者翻閱一切的回答后,將緣由利益列出,而后歸并成6類,類,并指定號碼。并指定號碼。開放式問題的答案:開放式問題的答案:1、質量好、質量好 2、外形美觀、外形美觀 3、價錢廉價、價錢廉價 4、明晰明晰 5、顏色豐富、顏色豐富 6、耐用、耐用 7、高科技、高科技 8、體積小、體積小 9、是名牌是名牌 10、大家都買這個牌子、大家都買這個牌子 11、經常在廣告中看到、經常在廣告中看到 12、我沒想過、我沒想過 13、我不知道、我不知道 14 沒有什么特別的緣由沒有什么特別的緣由分類編碼:回答類別描畫分類編碼:回答類別描畫 回答回答 分類的數字編碼分類的數字編碼 質量好質量好 1、4
15、、6 1 外形美觀外形美觀 2、5 2 價錢廉價價錢廉價 3 3 體積小體積小 6 4 名牌名牌 9、10、11 5 不知道不知道 12、13、14 6計算機處置的編碼明細單:計算機處置的編碼明細單: 是一份闡明問卷中各個問題答案,是一份闡明問卷中各個問題答案,與計算機數據文件中的字段、數碼位數及數碼之間的一與計算機數據文件中的字段、數碼位數及數碼之間的一一對應關系的文件。一對應關系的文件。須留意的問題:須留意的問題:1、一切的資料都必需轉化成數值、一切的資料都必需轉化成數值 2、每一個數值碼占據一列,要為每個變量留出足夠的列數、每一個數值碼占據一列,要為每個變量留出足夠的列數3、對無信息的答
16、案賦予規范代碼。例如用、對無信息的答案賦予規范代碼。例如用“8表示表示“不知不知道、道、“9表示表示“無窮大、無窮大、0“表示不適宜表示不適宜“4、每一條記錄的第一個字段都為被調查人的序列號,即問、每一條記錄的第一個字段都為被調查人的序列號,即問卷編號。卷編號。 某先生,我是三峽大學學生,我們利用課余時間進展實習,想某先生,我是三峽大學學生,我們利用課余時間進展實習,想要打擾您,討教關于彩電品牌的意見,這是我們送給您的要打擾您,討教關于彩電品牌的意見,這是我們送給您的一點小禮物。一點小禮物。1、請問府上有沒有彩電?、請問府上有沒有彩電?有有 沒有跳問第十題沒有跳問第十題2、請問府上的彩電是哪一
17、種品牌?、請問府上的彩電是哪一種品牌?長虹長虹 海爾海爾 康佳康佳 樂華樂華 TCL LG 其他其他 3、請問府上的彩電購買有誰提議或引薦的?、請問府上的彩電購買有誰提議或引薦的? 先生先生 主婦主婦 子女子女 親朋親朋 其他其他編碼明細單:編碼明細單:問題字段問題字段 所占數碼列所占數碼列 問題摘要問題摘要 碼值涵義碼值涵義 14 問卷編號問卷編號 5 有無彩電有無彩電 1=有、有、2=無無 6 品牌品牌 1=長虹長虹 2=海爾海爾 三、詳細審核與插補三、詳細審核與插補 問卷和數據的詳細審核是在數據錄入到計問卷和數據的詳細審核是在數據錄入到計算機以后進展的。經過詳細審核,將存在算機以后進展的
18、。經過詳細審核,將存在一處或多出錯誤的調查詢卷跳出,留待進一處或多出錯誤的調查詢卷跳出,留待進一步處置。一步處置。 審核主要分為三類:有效性審核、一致性審核主要分為三類:有效性審核、一致性審核與分布審核。審核與分布審核。 插補就是處理在審核過程中區分出來的數插補就是處理在審核過程中區分出來的數據缺失、無效與不一致等問題的過程。據缺失、無效與不一致等問題的過程。 插補分為:確定性插補和隨機插補。插補分為:確定性插補和隨機插補。四、離群值的檢測與處置四、離群值的檢測與處置 離群值的檢測可以看做審核的一種類型,離群值的檢測可以看做審核的一種類型,主要是用來發現和確認可疑值或極值,并主要是用來發現和確
19、認可疑值或極值,并思索作進一步處置。思索作進一步處置。離群值的處置離群值的處置 改動數值改動數值 調整權數調整權數 運用穩健估計運用穩健估計五、將數據儲存在數據庫中五、將數據儲存在數據庫中 校檢后,就可以進展數據輸入和統計了。將原始校檢后,就可以進展數據輸入和統計了。將原始數據輸入計算機,目前運用最多的是鍵盤輸入,數據輸入計算機,目前運用最多的是鍵盤輸入,由于數量浩大,普通有數據輸入一人,校正一人。由于數量浩大,普通有數據輸入一人,校正一人。 目前,在國外有一種用光學掃描系統直接閱目前,在國外有一種用光學掃描系統直接閱讀原始數據的數據輸入方法,比人工鍵盤輸人大讀原始數據的數據輸入方法,比人工鍵
20、盤輸人大大提高了效率,也降低了人工輸入的錯誤發生率。大提高了效率,也降低了人工輸入的錯誤發生率。但是由于運用這一設備的費用較高,需求高度規但是由于運用這一設備的費用較高,需求高度規范化的問卷,及適宜于光學掃描的特殊紙張等等,范化的問卷,及適宜于光學掃描的特殊紙張等等,這一技術在國內還未有人運用。這一技術在國內還未有人運用。四、制表四、制表數據輸入計算機后普通需用表格或圖、線等方式統計并表數據輸入計算機后普通需用表格或圖、線等方式統計并表達出來,便于研討人員的分析。達出來,便于研討人員的分析。最簡單也最常見的是單向表,用來統計各組的問卷答案選最簡單也最常見的是單向表,用來統計各組的問卷答案選擇項
21、的出現次數,普通還需加上百分比和累計百分比兩項。經擇項的出現次數,普通還需加上百分比和累計百分比兩項。經常運用的還有雙向交叉表。雙向交叉表就是經過表格分類來顯常運用的還有雙向交叉表。雙向交叉表就是經過表格分類來顯示資料數據的多種特征,因此勝利地編制交叉表,必需正確選示資料數據的多種特征,因此勝利地編制交叉表,必需正確選擇變量,合理分析這些變量之間的關系。擇變量,合理分析這些變量之間的關系。 請問您能否想買一部空調器請問您能否想買一部空調器? ?A A很想買很想買B B想買想買C C不一定不一定D D不想買不想買E E很不想買很不想買又,請問您覺得空調器的價錢如何又,請問您覺得空調器的價錢如何?
22、 ?A A很貴很貴B.B.貴貴C C適中適中E E廉價兩個問題的結果廉價兩個問題的結果( (舉例舉例) )為:為:( (見下表見下表) ) 項項 目目很很想想買買想想買買不不一一定定不不想想買買很很不不想想買買合合計計次次數數100100100100100500百百分分百百20%20%20%20%20%100%項項目目很很貴貴貴貴適適中中便便宜宜合合計計-次次數數125125125125500-百百分分百百25%25%25%25%100%-項項 目目很很想想買買想想買買不不一一定定不不想想買買很很不不想想買買合合計計次次數數100100100100100500百百分分百百20%20%20%20%20%100%項項目目很很貴貴貴貴適適中中便便宜宜合合計計-次次數數125125125
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流行業離職證明與入職銜接(5篇)
- 產品代理銷售協議及市場分成協議
- 兒童血培養規范化采集指南專家共識考試試題
- 建筑材料采購與銷售合作協議
- 基因編輯技術的倫理挑戰分析
- 家庭農場生產經營與租賃協議
- 游戲公司用戶粘性提升及游戲內容創新研究
- 外貿單證操作實務試題集
- 虛擬現實教育產品在虛擬現實虛擬旅游體驗中的應用設計與效果評估報告
- 遙感技術在農村農業資源利用應用協議
- 2023無損檢測技術資格人員考試泄漏檢測試卷(練習題庫)
- 國開電大本科《理工英語4》機考總題庫
- 手機租賃協議書
- 密碼知識競賽參考題庫300題(各題型)
- 快消品銷售聘用合同書范本
- 加油站客戶服務與管理手冊
- 廣東省申請設立出版物零售單位登記表-空白表
- 關鍵工程施工進度計劃網絡圖及施工進度總體計劃網絡圖
- 欣賞《嘎達梅林》-課件
- SB/T 10784-2012洗染服務合約技術規范
- GB/T 28575-2020YE3系列(IP55)三相異步電動機技術條件(機座號63~355)
評論
0/150
提交評論