第三講數據導入與變量處理_第1頁
第三講數據導入與變量處理_第2頁
第三講數據導入與變量處理_第3頁
第三講數據導入與變量處理_第4頁
第三講數據導入與變量處理_第5頁
已閱讀5頁,還剩25頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三講第三講 數據與變量操作數據與變量操作導論導論 Stata 對數據的處理是以變量為前提的 若沒有需要分析的變量,則Stata將一無用處 熟悉變量的內容和分布、生成新變量、改變舊變量等是處理數據的第一步4.1 數據類型數據類型 1.時間序列數據時間序列數據 2.面板數據面板數據2.2.面板數據類型面板數據類型u時間維度時間維度(T)+截面維度截面維度(N)u如我們在分析中國如我們在分析中國各省份各省份的經濟增長時,共有的經濟增長時,共有31個截個截面,每個截面都取面,每個截面都取1999-2013共共15年的數據,共有年的數據,共有465個觀察值,這是一個典型的平行面板數據個觀察值,這是一個

2、典型的平行面板數據u上市公司財務數據,研究一段時期內(上市公司財務數據,研究一段時期內(1998-2008)上市公司股利的發放數額與股票賬面價值之間的關系,上市公司股利的發放數額與股票賬面價值之間的關系,共有共有20 11=220個觀測值個觀測值u強調經濟理論基礎、強調微觀行為基礎強調經濟理論基礎、強調微觀行為基礎表表1 1996-2002年中國東北、華北、華東年中國東北、華北、華東15個省個省級地區的居民家庭人均消費數據(不變價格)級地區的居民家庭人均消費數據(不變價格)地區人均消費地區人均消費1996199719981999200020012002CP-AH(安徽) 3282.466 36

3、46.150 3777.410 3989.581 4203.555 4495.174 4784.364CP-BJ(北京) 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12CP-FJ(福建) 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005CP-HB(河北) 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485CP-HLJ(黑龍江) 2904.687 3077.989 328

4、9.990 3596.839 3890.580 4159.087 4493.535CP-JL(吉林) 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874CP-JS(江蘇) 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331CP-JX(江西) 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775CP-LN(遼寧) 3237.275 3608.060 3918.167 4046.5

5、82 4360.420 4654.420 5402.063CP-NMG(內蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180CP-SD(山東) 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770CP-SH(上海) 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94CP-SX(山西) 2813.336 3131.629 3314.097 3507.008 3793.90

6、8 4131.273 4787.561CP-TJ(天津) 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843CP-ZJ(浙江) 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210表表2 上市公司的投資與股票賬面價值:上市公司的投資與股票賬面價值:N=20,T=4面板數據模型和面板數據模型和stata軟件應用軟件應用u面板數據模型有以下幾個優點面板數據模型有以下幾個優點:u第一,Panel Data 模型可以通過設置虛擬變量對個別差異(非觀測效應)進

7、行控制;u第二,Panel Data 模型通過對不同橫截面單元不同時不同橫截面單元不同時間觀察值的結合間觀察值的結合,增加了自由度,減少了解釋變量之間的共線性,從而改進了估計結果的有效性;u第三,觀測值的增加,可以增加估計量的抽樣精度;u第四,Panel Data模型是對同一截面單元集的重復觀察, 能更好地研究經濟行為變化的動態性。舉例舉例u交通死亡率與酒后駕車人數(一段時間內江蘇省各市一段時間內江蘇省各市)u其他的非觀測(潛在)因素(南京與蘇州)u汽車本身狀況u道路質量u當地的飲酒文化u單位道路的車輛密度u非觀測效應導致估計結果不準確,面板數據可以控制和估計非觀測效應4.2 新變量的生成、規

8、則及注意事項新變量的生成、規則及注意事項Stata的變量類型的變量類型 Stata軟件生成三類變量:numeric(數值型)變量,string(字符型)變量(相當于定性變量)和date(日期)變量。雖然日期變量以數值型變量的技術記錄、存儲,但二者的用途卻不同 數值型變量包括定距和定比變量。可以是整數、小數、負數值型變量包括定距和定比變量。可以是整數、小數、負數和正數。數和正數。數值型變量可以有多種存儲方式( Storage Types) 用str類型保存的定性等分類變量也可區分為多種形式,從str1-str244Stata的日期變量的日期變量 日期(date)變量是數值型變量的一個特例。它們通

9、常以字符的形式輸入(如: 01JAN1992 or 01/01/92),但必須以數值型數據存儲才能有用 Stata有幾個命令可以工作于日期和時間依賴(time-dependent)數據 Stata將所有的日期保存為從1960年1月1日以來的天數或月份、季節等。此前的日期是負值,此后的是正值。SAS使用同樣的日期方式,但其起始時間是1582年的10月14日。Excel使用1900年1月1日為默認起始日。如果讀入Excel數據,則以字符型變量輸入日期,并重新格式日期生成變量的路徑生成變量的路徑Data Create or change variables生成變量的窗口生成變量的窗口Data Cre

10、ate or change variables Create new variable基本命令基本命令Stata有四個基本的生成和修改變量的命令:有四個基本的生成和修改變量的命令:gen、egen、replace和和recodeu. gen和和egen分別是分別是generate和和extended generate的縮寫,的縮寫,它們用于生成新變量;它們用于生成新變量;u. replace和和recode用來改變現存變量的屬性或數值;用來改變現存變量的屬性或數值;u. replace需要與需要與gen一起使用;二者的區別在于,一起使用;二者的區別在于,gen用于用于生成新變量,生成新變量,r

11、eplace用于重新定義已經存在的變量;用于重新定義已經存在的變量;u. recode也可以與也可以與gen一起使用。一起使用。基本語法基本語法 . gen 變量名 = 表達式1 . replace 變量名 = 表達式2 if 條件 :生成新變量或替代現存變量取值的基本命令:生成新變量或替代現存變量取值的基本命令:新變量或其取值將被替換的變量的名稱:新變量或其取值將被替換的變量的名稱:在:在gen命令的取值不同于在命令的取值不同于在replace命令的取值命令的取值:替換原有變量的取值必須滿足:替換原有變量的取值必須滿足if指定的條件指定的條件*yr of schooling recoded(

12、這是一(這是一個注釋;個注釋;*代表注釋)代表注釋)gen edu=0replace edu=1 if yrsch=11replace edu=2 if yrsch=12replace edu=3 if yrsch=13replace edu=4 if yrsch=14replace edu=5 if yrsch=15replace edu=6 if yrsch=16replace edu=7 if yrsch=21replace edu=8 if yrsch=22replace edu=9 if yrsch=23replace edu=10 if yrsch=24 | yrsch=27rep

13、lace edu=11 if yrsch=25 | yrsch=28replace edu=12 if yrsch=26 | yrsch=29replace edu=13 if yrsch=31replace edu=14 if yrsch=32replace edu=15 if yrsch=33replace edu=16 if yrsch=34replace edu=17 if yrsch=35replace edu=18 if yrsch=36replace edu=. if yrsch=. | yrsch=-9tab1 yrsch edu*查看變量的生成是否成功查看變量的生成是否成功變

14、量生成的規則(變量生成的規則(I) u生成新變量、重新定義舊變量時需遵循的一些基本規則:生成新變量、重新定義舊變量時需遵循的一些基本規則:u變量的名稱可長達32個字符,必須以字母、漢字或字符(,_,#,$等)開頭(不能使用空白字符或!、?等特殊字符)。變量最后一個字符不能是句號u變量的名稱必須唯一,不能有兩個相同的變量名變量的名稱必須唯一,不能有兩個相同的變量名uStata區分大小寫,對大寫、小寫敏感:Variable 不能寫成 variable,反之亦然u使用描述性的變量名字:使用描述性的變量名字:“變量變量a”這個名稱沒有任何意義。這個名稱沒有任何意義。調查問題是變量名稱的很好選擇調查問題

15、是變量名稱的很好選擇變量生成的注意事項 u盡量避免使用同一變量名稱。換言之,不要使用新變量取代舊變量。保持原始變量有助于檢驗我們的命令是否正確u充分了解原始變量的分布以及每個數值代表的含義u遵循不重不漏(exhaustive and mutually exclusive)原則(詳見“生成分組變量”一節)u在變量生成后,將原始變量和新變量的取值進行對比,檢查是否有誤u注意原始變量的缺失值4. 3 利用系統變量或下劃線變量利用系統變量或下劃線變量(_n和和_N)生成新變量)生成新變量系統變量系統變量 _nu_n 是指當前當前的觀察值,即獨一無二的觀測序號,從1到_N(_N=總樣本)u_n是Stat

16、a系統內部獨特的辨識器,標志從第一個觀察值開始直到最后一個觀察值(_N)的序列u_n=1為第一個觀測,_n=2為第二個觀測,_n=_N是最后一個觀測u該系統變量適于(1)指示觀察值;()指示觀察值;(2)生成系列數值;)生成系列數值;(3)生成其他變量)生成其他變量使用系統變量使用系統變量_n指示觀察值指示觀察值 系統變量_n表示每個觀察值的位置(numbering observations)。其原則是:當前觀察值:_n 總觀察值(最后一個觀察值_n):_N第一個觀察值:1 最后一個觀察值:_N 滯后一個(lag)觀察值:_n-1 前移一個(lead)觀察值:_n+1 第27個觀察值:27 使

17、用系統變量使用系統變量_n生成新變量生成新變量 步驟步驟1:對province(即“關鍵變量”)進行排序. sort province 步驟步驟2:生成感興趣的變量 gen provinc11=provinc_n :生成新變量的基本命令:生成新變量的名稱:原變量的名稱:指示觀察值 步驟步驟3:使用頻數分布查看生成的結果是否正確 . tab order生成滯后(生成滯后(lag)變量或移前變量()變量或移前變量(lead) 在分析某些類型數據(包括常用的家庭成員數據和縱向數據)的過程中,常常需要根據研究問題將一個樣本的取值轉移到上一個(或下一個)觀察值中。 . gen a = b_n-1. ge

18、n a = b_n+1 :需要生成的新變量的名稱:現有變量的名稱:將現有變量的取值下移一行(_n-1)或前移一行(_n+1)的基本命令. gen a = age_n-1(1 missing value generated). gen b = age_n+1(1 missing value generated). list +-+ | province personid homesize age girl siblings order a b | |-| 1. | 21 2106018504 50 5 girl 1 1 . . 2 | 2. | 32 3209163903 25 2 boy 0

19、1 5 8 | 3. | 32 3205093703 246 8 boy 0 2 2 18 | 4. | 35 3505154103 100 18 boy 0 1 8 13 | 5. | 35 3501117305 25 13 girl 2 2 18 9 | 10. | 45 4526057606 90 10 girl 3 2 6 . . | +-+使用數學表達式生成新數值型變量使用數學表達式生成新數值型變量 任何有效的數學表達式在生成變量時都適用。既可以是加、減、乘、除的單獨表達式,也可以是混合表達式:. gen a = b + c + d 加法:將變量b,c,d的數值累加起來,生成新變量a. gen a = b - c 減法:將變量b的數值減去變量c的數值,得到變量a. gen a2 = a*a 乘法:該命令生成新變量a2;a*a是a x a的表達方式. gen double a = b/c 除法:用變量b的數值 除以變量c的數值,得到新變量a。該變量定義為double類型. gen a = b/(c2) 新變量a的取值等于變量b的取值除以變量c取值的平方4.4 生成分類變量生成分類變量u*age groupu. gen agegrp=0u. replace agegrp=1 if age=0 & a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論