軟件教程人大十八講_第1頁
軟件教程人大十八講_第2頁
軟件教程人大十八講_第3頁
軟件教程人大十八講_第4頁
軟件教程人大十八講_第5頁
已閱讀5頁,還剩183頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、STATA 十八講入門目錄STATA統計分析1目錄21 STATA入門61.1 安裝61.2 啟用和.61.3 打開和查看數據81.4 尋求幫助與網絡.91.5 命令示例101.6 幾個環境設置111.7 復習和練習121.8 附錄132 命令語句152.1 掌握命令語句的格式152.2 命令command152.3 變量varlist152.42.52.62.72.82.9分類操作by varlist16賦值及運算=exp16條件表if exp17范圍篩選in range17weight17其他可選項,options182.10 復習與練習193 數據203.1 打開示例數據和網絡數據:us

2、e203.2 數據類型213.3 數據類型轉化243.4 數據顯示格式:format263.5 在STATA中直接錄入數據:input273.6 導入其他格式數據:insheet303.7 數據:label323.8 復習與練習354 數據整理364.1 拆分與連接數據文件要掌握令364.2 案例:拆分與連接數據364.3 案例:連接數據文件394.4 數據重整394.5 案例:數據轉置414.6 復習與作業425 函數與運算符445.1 運算符exp445.2 函數概覽function465.3 數學函數math functions472大學chrisccbSTATA 十八講入門5.4 字符

3、函數string functions505.5 分類操作by516 程序546.1 標準的程序文件格式546.2 創造令:與STATA互致問候546.3 暫元Macros: local/global576.4 自帶命令參數596.5 scalar標量606.6 臨時變量和臨時數據文件:tempvar和tempfile616.7系數命令的創建案例 (選學內容)627 流程語句677.1 循環語句:while677.3 循環語句:forvalues687.3 循環語句:foreach697.4 嵌套循環717.5 條件語句727.6 復習和練習748 矩陣758.1 生成矩陣758.2 矩陣四則運

4、算768.3 矩陣函數788.4 隨機向量與矩陣代數(選學內容)819 繪圖849.1 繪圖命令849.2 幾種常用的圖899.3 同時做多個圖by(varname)969.4 模板及圖文件處理989.5 附錄9910 隨機模擬10010.1 偽隨機數10010.2 簡單模擬10110.3 復雜模擬10310.4 多階段模擬10510.5 商店案例10710.6 練習10810.7 附錄10911 分布函數11511.1 二項分布11511.2 標準正態分布函數11511.3 正態分布函數及其反函數11611.4 服從正態分布的隨機數11711.5 正態分布密度函數11811.6 分位數119

5、11.7 卡布1203大學chrisccbSTATA 十八講入門11.8 t分布的分位數12211.9 F分布12212 抽樣分布12512.1 經驗分布12512.2 均值的抽樣分布:正態總體的小樣本抽樣分布12612.3 中心極限定理:非正態總體大樣本下均值的抽樣分布12612.4 卡布與樣本標準差的抽樣分布12812.5 構造F分布12912.6 t分布:未知總體方差時的抽樣分布13012.7 多元正態分布13113 參數估計與假設檢驗13313.1 極大似然估計的原理13313.2 正態總體均值和方差的極大似然估計13313.3 最小二乘估計OLS原理13413.4 矩估計MM原理13

6、513.5 區間估計原理13513.6 假設檢驗原理13614 簡單回歸原理13814.1 回歸分析原理13814.2 模擬實驗14214.3 回歸報告結果中各項的手工計算14314.3 線性模型的最大似然估計14515 異方差模擬14715.1 條件分布圖示14715.2 異方差的后果14815.315.415.515.6圖形檢驗與檢驗150檢驗的功效(選讀內容)151估計方法:WLS與GLS154廣義最小二乘估計與FGLS155Equation Chapter 1 Section 116 隨機過程模擬15716.1 時間數據函數15716.216.316.416.516.616.717 計

7、量17.117.217.317.417.517.6模擬白噪聲及檢驗白噪聲158模擬自回歸過程AR并檢驗穩定性160模擬移動平均過程MA163序列相關性檢驗167根檢驗168平滑分析170學基本理論模擬172經典假設滿足時OLS估計量的小樣本性質172條件誤差服從正態分布的假設不成立時OLS的小樣本性質173條件誤差服從正態分布假設不成立時OLS的大樣本性質173第一假設不成立時175第二假設不成立時176第三假設不成立時1774大學chrisccbSTATA 十八講入門17.717.818 計量18.118.218.318.418.5第四假設不成立時177第五假設不成立時(略)177學綜合案例

8、179簡單回歸分析179多元回歸分析181非線性回歸分析182回歸模型的有效性184實驗與自然實驗187參考文獻1895大學chrisccbSTATA 十八講入門1 STATA 入門Stata 統計軟件包是目前世界上最著名的統計軟件之一,與 SAS、SPSS 一起被并稱為三大權威軟件。它廣泛的應用于、教育、人口、政治會學、醫學、藥學、工礦、農林等學科領域,同時具有數據管理軟件、統計分析軟件、繪圖軟件、矩陣計算軟件和程序語言的特點,幾乎可以完成全部復雜的統計分析工作。其功能非常強大且操作簡單、使用靈活、易學易用、運行速度極快,在許多方面別具一格。Stata令語句極為簡潔明快,而且在統計分析命令的

9、設置上又非常有條理,它將相同類型的統計模型均歸在同一個命令族下,而不同命令族又可以使用相同功能的選項,這使得用戶學習時極易上手。Stata 語句在簡潔的同時又擁有著極高的靈活性,用戶可以充分發揮的聰明才智,熟練應用各種技巧,真正做到隨心所欲。盡管它也提供了窗口菜單式的操作方式,但強烈建議大家堅持使用命令行程序操作方式,很快你就會體會到使用命令方式所帶來的那種隨心所欲地處理和分析數據的。Stata 的另一個特點是他的許多高級統計模塊均是編程程序文件(ADO 文件),這些文件可以自行修改、添加和用宏語言寫成的。用戶可隨時到Stata尋找并最新的升級文件。這一特點使得 STATA 始終處于統計分析方

10、法發展的最前沿,用戶幾乎總是能很快找到最新統計算法的 Stata 程序版本,而這也使得 Stata 自身成了幾大統計軟件中升級最多、最頻繁的一個。STATA 由美國計算機中心(Computer Resource Center)研制,現為STATA公司的。從 1985 至 2007 的二十多年時間里,已連續推出 1.1,1.2,,7.0,8.0,9.0,10.0 等多個版本。1.1 安裝(1)要學習的是 9.2 版本。上有 stata9.rar,但是做正式的或工作還是應該盡量用正版軟件。(2) 將其解壓到 D:/stata9。(3) 點擊 setup 安裝>>改變安裝路徑到 D:/s

11、tata9>>選擇 Stata/SE 版本。1.2 啟用和(1) 程序Stata,Stata,啟動后出現文件框,要求輸入單位和等。6大學chrisccbSTATA 十八講入門(2)打開 D:/stata9>>點擊 wsestata>>打開 sn 文件找到信息,進行注意用戶名和要多于 5 個英文字符)。完成后,出現如下畫面。(3)調整和保存界面設置:拖動各個窗口,將其調整為如下合適的格式,然后選擇 Prefs>>save windowing preference7大學chrisccbSTATA 十八講入門Stata 的界面主要是由四個窗口:結果窗口

12、:位于界面右上部,軟件運行中的所有信息,如所執行令、執行結果和出錯信息等均在這里列出。窗口中會使用不同的顏分不同的文本,如白色表示命令,紅色表示錯誤信息。命令窗口:位于結果窗口下方,相當于 DOS 軟件中令行,此處用于鍵入需要執行令后即開始執行,相應的結果則會在結果窗口中。令會依命令回顧窗口:即 review 窗口,位于界面左上方,所有執行過次在該窗口中列出,選中某一行單擊后命令即被自動拷貝到命令窗口中;如果需要重復執行,用鼠標雙擊相應令行即可。變量名窗口:位于界面左下方,列出當前數據集中的所有變量名稱,。除以上四個默認打開的窗口外,在 Stata 中還有數據編輯窗口、程序文件編輯窗口、幫助窗

13、口、繪圖窗口、Log 窗口等,如果需要使用,可以用 Window 或Help 菜單將其打開。(4)點擊右上角的 X 號。建議安裝路徑為: D: /stata9。一般不要安裝在 C 盤下,更不要直接放在桌面上。這是因為我們通常會將數據和程序一旦計算機出現意外故障,很可能導致我們于安裝目錄下,如果安裝 c 盤,在上面的數據無法恢復。1.3 打開和查看數據打開和查看一個數據文件有三種方式,這三種方式分別是窗口式操作、命令式和程序式操作。例:我們要打開 STATA 自帶的示例數據文件 auto.dta。1.3.1 窗口執行方式(1)點左上角的第一個按扭,彈出一個框,選擇 STATA 軟件自帶的示例數據

14、文件 auto.dta,雙擊即打開該文件。(2)然后點擊倒數第四個按扭圖標,彈出一個數據庫窗口,顯示的是 auto數據文件包含的具體內容。8大學chrisccbSTATA 十八講入門該數據集共有 12 列 74 行,每一列為一個變量,如第一列為汽車品牌,第二列為價格等;每一行為一輛汽車的相關信息,如第一行的汽車是 AMC Concord,價格為 4099。(3)點右上角的 X 號,1.3.2 命令互動執行方式數據窗口。注意到執行上述操作后,結果窗口新出現了兩行白色字體顯示的如use "D:Stata9auto.dta", clear edit:其中,前者為打開 auto 數

15、據文件令,后者為查看該數據令。將該行文字選中,點右鍵并選擇文本(copy text)。然后不妨先命令,或者直接鍵入STATA,再重新打開 STATA。在命令窗口粘貼先前的. use "D:Stata9auto.dta", clear在命令窗口中. edit即表示執行剛鍵入令,因此命令窗口不能換行。這兩行命令將再一次打開并顯示 auto 數據集,同樣點擊右上角的 X 號,退出數據窗口。注意到,若不數據窗口,則命令窗口被輸入。1.3.3 批量程序執行方式注意到屏幕左上有一個 Review 窗口,該窗口使用過令,剛才鍵入的兩個命令即出現在該窗口中,擊活命令回顧窗口,點右鍵選擇 s

16、ave reviewcontent,在彈出的框中取名為 mydo 并保存,即得到程序操作文件。先STATA,然后重新打開 STATA,點擊倒數第五個命令按鈕,打開剛才保存過的程序文件 mydo.do,再點選1.3.4 三種執行方式的相互關系,執行。三種操作方式可以完成同樣的任務。在初學命令的時候,當不記得某個命令時可以采用菜單操作方式得到該命令的用法。在結果窗口和命令回顧窗口都出現該命令,在命令窗口重復輸入相應令,即可獲得和窗口式操作同樣的結果。如果將回顧窗口令保存,即得到程序,執行程序也得到同樣的結果。使用 STATA 時建議大家采用第三種方式,即寫程序的方式,程序可以使得數據的處理和分析過

17、程被完整保留下來,便于和他人進行修改和評論。1.4 尋求幫助與網絡有多種途徑可以獲得STATA 的幫助,主要的途徑有三個:手冊、STATA 自帶幫助和網絡幫助。對于多數人而言手冊是可望不可及的,因為一套完整的手冊有 10 余本,而且價格昂貴。但有了STATA 的自帶幫助,我們可以在記住極少9大學chrisccbSTATA 十八講入門量的基本命令的基礎上,方便地運用STATA命令 1。1.4.1 獲取幫助. help顯示出 STATA 所有幫助內容的目錄結構。令如果輸入具體. help summarize令,則只顯示該命令的幫助,如也可以通過菜單式的點選方式獲得幫助: Help>>s

18、tata command在彈出的框中輸入:summarize 然后,得到與 help summarize 同樣的結果。使用幫助的小竅門:先看命令描述(Description)部分,然后直接看幫助文件后面令示例(Examples),將命令示例到命令窗口,執行,看看執行結果,體會命令的用法。網絡幫助可以采用如下命令獲得. findit scat3, net. search scat3, net這兩條命令等價,均為尋找繪三維立體圖內置命令,所以需要通過這兩個命令搜索并令scat3。由于scat3 不是STATA安裝后才能使用。1.4.2 幾個主要的(1) STATA公司(2) STATA(3) ST

19、ATA(4) STATA(5) STATA 技術公告版1.5 命令示例1.5.1 進行四則運算. di 5+9. di 5-9. di 5*9. di 10/2. di 102. di exp(0). di ln(1). di sqrt(4)上述運算分別為加、減、乘、除、冪、指、對和開方,其中 di 為 display 的1最常用令見附錄 210大學chrisccbSTATA 十八講入門簡寫,是一個 STATA 命令,該命令顯示計算結果。1.5.2 描述統計:求五數概略任務:求價格和重量的觀察值個數、平均值、標準差、最小值和最大值. use auto, clear. sum price. su

20、m weight這兩步命令也可以一步完成. sum price weight1.5.3 繪圖任務:繪出價格和重量的散點圖和折線圖. scatter price weight. line price weight, sort1.5.4 生成新的數據任務:生成新的數據 x, (x=1,2,1000);. clear. set obs 1000. gen x=_n. gen y=x+100y=x+100.1.5.5. list n顯示結果輸出顯示后會停住,此時按鍵和”l”會顯示下一行;按”q”會終止命令,或者使用 ctrl+break;按其他鍵會顯示下一頁。1.6 幾個環境設置1.6.1 設置屏幕滾

21、動在列示 1 到 1000 之前,若先設置 set more off,則屏幕不停止;反之 set more on 會使顯示停止。. set more off. list. set more on. list. q1.6.2 清除內存中原有內容. clear1.6.3 設置內存大小查看內存使用情況11大學chrisccbSTATA 十八講入門. memory設置內存. set memory 10m1.6.4 設置文件存取路徑在打開數據之前,先要. cd d:/stata9數據的位置,其命令為如果想知道當前路徑下有哪些文件,可以用 dir 命令來列示. dir假設你想在 D 盤的根目錄下創建一個新

22、的文件夾 mydata 來存放數據文件, 命令為 mkdir。mkdir d:/mydata然后,進入該目錄,命令為 cd. cd d:/mydata1.6.5 錯誤提示學會從 STATA 的錯誤提示中明白錯在哪里非常重要。. list myvar上述命令試圖顯示變量 myvar,但是結果窗口僅出現如下的顯示variable myvar not foundr(111);紅色信息表明,沒有找到一個叫 myvar 的變量,的確,我們的數據中并沒有這個變量。List 巧婦難為無米之炊。紅色信息下面還有一個天蘭色的 r(111),用鼠標點擊,即可彈進一個幫助信息框,給出錯誤的更詳盡解釋。再比如,我們在

23、求五數概略時,誤把 sum 寫成了 sun. sununrecognized command:sunr(199);顯示說不認識 sun 這個命令。1.7 復習和練習(1)復習本節學習的主令 clear, help, list, whelp, use, search, cd(2)找到附錄 2 中主令的幫助信息(3)計算出 8+2*ln(100)-e3/5212大學chrisccbSTATA 十八講入門1.8 附錄1.8.1 附錄 1:本章命令的程序文件*=chp1.do=clearset memory 10mcd d:/stata8/清除內存/設置內存大小/在打開數據之前,先要數據的位置use

24、auto/打開數據文件 auto.dta*計算汽車的平均價格sum price/該步計算汽車的平均價格sum price weight值和最大值/求價格和重量的觀察值個數、平均值、標準差、最小use /*使用系統中的數據*/ auto, clearsum weight price length/求重量、價格、長度的平均值scatter price weight/繪價格和重量的散點圖clearset obs 1000 gen x=_n gen y=x+100/清除內存/將數據指針到 1000 處/個 1 到 1000 的自然數,變量名為 x個新的變量 y,y 從 101 到 1100/*從上面的

25、例子可見:(1)(2)(3)(4)在最前面加上“*”號表示該行為注釋語句,STATA 將只顯示不執行;在一個命令的中間加入注釋,要用:/*注釋內容*/對較長令或者為便于閱讀,將一行命令寫成幾行/來在命令行的后面加入注釋: /注釋語句將一部分內容變成注釋內容,前后用/*被注釋掉的語句*/*/*=end=13大學chrisccbSTATA 十八講入門1.8.2 附錄 2:常用命令需求幫助helpsearch幫助網絡尋求幫助進入某路徑cd設定內存set memory 20m設置 STATA 的內存空間為 20m打開和保存數據clearuse save清空內存數據打開 STATA 格式的數據文件保存內

26、存中的數據導入數據input edit infileinsheet錄入數據編輯數據導入數據導入數據重整數據append merge xpose reshape generate egen rename drop keep sort encode decode orderby將有相同結果的數據縱向拼接(觀察值拼接)將兩個數據文件橫向拼接數據轉置生成新的數據生成新的數據變量重命令刪除變量或觀察值保留變量或觀察值對觀察值按從小到大順序重新排列數值型數據轉換為字符型數據字符型數據轉換為數值型數據變量順序的重新排列分類操作報告數據describe codebook listcount inspect t

27、abletabulate總體展示數據情況展示數據庫中的每個變量情況列示內存中的數據報告共有多少觀察值報告變量的分布數據列表聯列表顯示和保存輸出結果displaylog顯示計算結果將輸出結果存放入結果文件14大學chrisccbSTATA 十八講:2 命令語句2 命令語句2.1 掌握命令語句的格式by varlist: command varlist =exp if exp in range weight , options注: 表示可有可無的項,顯然只有 command 是必不可少的,下面結合例子分項來講解命令的各個組成部分。2.2 命令 commandby varlist: command

28、varlist =exp if exp in range weight , options. cd d:/stata9. use auto, clear/打開美國汽車數據文件 auto.dta,后面的 clear 表示先清除內存中可能存在的數據集/*很多命令可單獨使用,單獨使用時,一般是對所有變量進行操作,等價于后面加上代表所有變量的_all。 */注意到該命令輸出結果與上一個命令完全一樣/與前一命令等價,sum 為 summarize 的略寫/ su 是 summarize 的最簡化略寫,不能再簡化為 s. summarize. summarize _all. sum. su. s/簡寫前提

29、是不引起。執行這個命令將出現錯誤信息unrecognized command:s練習:請用 list 進行仿照練習。注意,在用 list 做練習的時候可能會遇到結果窗口停止,其右下角出現一個的“more”,按鍵盤上任何一個鍵,屏幕滾動一行。這一現象與第一講中“set more on”的設置有關,請參考 1.6.12.3 變量 varlistby varlist: command varlist =exp if exp in range weight , optionsvarlist 表示一個變量,或者多個變量,多個變量之間用空格隔開。. cd d:/stata9. use auto, clea

30、r. sum price. su p. su t/求價格的觀察值個數,平均值,方差,最小值和最大值/變量和命令均可略寫,注意到兩個結果完全一樣/分數據中有兩個變量的開首字母為 t(trunk 和 turn),所以 STATA 認為 t 為模糊的省略。m ambiguous abbreviation/紅色為錯誤信息. sum tr tu/求 trunk 和 turn 變量的五數概略統計15大學chrisccb變量的省略規則只要不引起歧義,命令可以盡量只寫前幾個字母。如 summarize 只需要前兩個字母 su;而list 只需要寫第一個字母 l。在幫助文件中,命令下面有小劃線,該線表明了命令可

31、以省略到什么程度。如list varlist if in , optionssummarize varlist if in weight , optionsSTATA 十八講:2 命令語句. su t*/等價于前一命令,以 t 開首的所有變量可用 t*來表示。2.4 分類操作 by varlistby varlist: command varlist =exp if exp in range weight , options先看下面的例子,在汽車數據集中,有一個變量 foreign,該變量表示某個車是進口車(1 Foreign)還是國產車(0 Domestic)。如果我們需要知道車的平均價格和

32、重量,則. cd d:/stata9. use auto, clear. sum price weight*如果需要分別知道國產車和進口車的價格和重量,可以采用分類操作來求得,. by foreign: sum price weight/分別計算國產車和進口車的價格和重量但如果執行下面兩個命令,將出現錯誤*/. sort price. by foreign: sum price weight*not sorted/按價格從低到高重新排序/* 系統提示沒有排序,這是因為 by varlist 在執行時要求內存中的數據是按照by 后面的變量排序的。當我們用 sort price 重新排序后,就打亂

33、了原來按照foreign 的排序,所以出現了錯誤提示。更正的辦法是:*/. sort foreign. by foreign: sum price weight/按國產車和進口車排序*更簡略的方式是把兩個命令用一個組合命令來寫。. by foreign, sort: sum price weight如果不想從小到大排序,而是從大到小排序,其命令為 gsort。. sort - price. sort foreign -price/按價格從高到低排序/*先把國產車都排在前,進口車排在后面,然后在國產車內再按價格從大小到排序,在進口車內部,也按從大到小排序*/2.5 賦值及運算=expby var

34、list: command varlist =exp if exp in range weight , options該選項主要用于給新變量賦值或替換原變量的值例:個新的價格變量 nprice,該變量的取值為原汽車價格變量 price 的16大學chrisccb變量名稱除以下字符不能用作變量名外,任何字母、字母與數字(單獨的數字也不)組合均可用做變量名:_all _b byte _coef _cons double float if in int long _n _N _pi _pred _rc _se _skip using with基本要求如下:_ 第一個字元可以是英文字母或, 但不能是數

35、字;_ 最多只能包括32 個英文字母、數字或下劃線;_ 由于 STATA 保留了很多以“_ “開頭的內部變量,所以最好不要用為第一個字元來定義變量。STATA 十八講:2 命令語句基礎上漲 10 元. cd d:/stata9. use auto, clear. gen nprice=price+10/生成新變量 nprice,其值為 price+10/比較一下兩個變量的取值. list/*上面pricenprice令 generate(略寫為 gen)個新的變量,新變量的變量名為nprice,新的價格在原價格的基礎上均增加了 10 元。. replace nprice=nprice-10/*

36、命令 replace 則直接改變原變量的賦值,nprice 調減后與 price 變量取值相等*/. listpricenprice/再比較一下兩個變量,相等。2.6 條件表if expby varlist: command varlist =exp if exp in range weight , options例:若只想查看國產車的品牌和價格,則加入篩選條件 if foreign=0 */. cd d:/stata9. use auto, clear. list make price if foreign=0*只查看價格超過 1 萬元的進口車(同時滿足兩個條件),則. list make

37、price if foreign=1 & price>10000*查看價格超過 1 萬元或者進口車(兩個條件任滿足一個). list make price if foreign=1 |price>10000*分類型查看價格超過 1 萬元的汽車的品牌和價格. by foreign, sort: list make priceif price>100002.7 范圍篩選 in rangeby varlist: command varlist =exp if exp in range weight , options如果要計算較低的前 10 個車的價格求平均值. cd d:

38、/stata9. use auto, clear. sort price. sum price in 1/5的平均價格,則要先按價格排序,然后僅對前 10注意“1/5”中,斜杠不是除號,而是從1到5 的意思,即 1,2,3,4,5。如果要計算前 10中的國產車的平均價格,則可將范圍和條件篩選使用。. sum price in 1/10 if foreign=02.8weightby varlist: command varlist =exp if exp in range weight , options任務:下表是 2005 年省高考 640 分及以上成績一分一段的人數統計,第一列 scor

39、e 為高考分數,第二列 num 為該分數段的人數?,F在我們要求 640 分及以上考生的平均分數。17大學chrisccbSTATA 十八講:2 命令語句操作:先將上面的表格. clear. edit然后把光標,然后進入 STATA,執行如下命令/清空 STATA在表格的第一行第一列,點右鍵,選擇粘貼(paste),上表數據便被到 STATA 中,數據編。. sum score/思考:得到的結果是 640 分及以上考生的平均分嗎?簡單地使用 sum 命令得到的平均成績顯然是不正確的,因為各個分數下的人數是不一樣的,正確的計算需要,. sum score weight=num/*的辦法是計算,比較

40、該結果與 sum score 的區別,實際上,不用權重選項時,相當于權重相等。*/w 為 weight 的略寫,n 為 num 的簡寫,兩命令等價. sum score w=n2.9 其他可選項,optionsby varlist: command varlist =exp if exp in range weight , options許多命令都有一些可選項例如,我們不僅要計算平均成績,還想知道成績的中值,方差,偏度和峰度等*/. sum score, detail. sum score, d/d 為 detail 的略寫,兩個命令完全等價注意,結果中顯示了 1%,5%等分位數,意思是把變量

41、從小到大排序,第 1%位置處的取值是多少,第 10%的位置上的取值是多少。顯然,50%位置處的取值是中位數。此外,加了 detail 選項后,還得到最小的前 5 個數,最大的 5 個數,以及峰度和偏度等。*再如,list 命令也有一些可選項. cd d:/stata9. use auto, clear. list price in 1/30, sep(10). list price in 10/30, sep(2). list price, nohead/每 10 個觀察值之間加一橫線/每 2 個觀察值之間加一橫線/不要表頭18大學chrisccbscorenum650236471664621

42、645266443264323642386412964038STATA 十八講:2 命令語句2.10 復習與練習對照本章令結構,用幫助命令打開第一講中附錄 2 中常用命令的相應幫助文件,對照幫助文件下面的例子體會各種命令的用法。19大學chrisccbSTATA 十八講:3 數據3 數據數據文件是一個矩形的矩陣,這個矩陣的每一行都代表或對應著一個“觀測”(如、),矩陣的每一列都代表或對應著一個“變量”(比如,身高、體重,月工資收入等等)。因此,數據文件矩陣中的每一個元素(case)都代表或對應著某一個“觀測察值?!敝械哪骋粋€“變量”的變量值或觀3.1 打開示例數據和網絡數據:use3.1.1

43、示例數據示例數據為 STATA 幫助文件中所用的數據,其后輟名為.dta,如果在 STATA 軟件當前路徑下,直接用 use 命令即可打開;如果不在當前路徑下,則可以使用sysuse 命令打開。. use auto,clear. cd d:/. use auto, clearfile auto.dta not found r(601);/打開汽車數據 auto.dta/改變路徑到 d:/系統提示無法找到文件,因為 auto.dta 不在 d:/. sysuse auto,clear/無論當前路徑是什么,該命令均能打自帶文件3.1.2 從網絡獲取數據上述示例數據可能沒有全部到你的所用的電腦中,因

44、此簡單地使用 use和 sysuse 命令時,可能出現錯誤,如. use nlswork, clearfile nlswork.dta not found此時,如果確定該數據為示例數據,可以直接通過網絡獲取,其命令為:20大學chrisccb示例數據Auto :美國 1978 年汽車數據,包括產地、行使里程、重量等變量Bplong 血壓數據Cancer實驗生存數據 Census1980 年美國分州人口普查數據Citytemp 美國城市氣溫數據Educ99gdp 教育與 GDP 關系數據Gnp96 美國 1967-2002 年的 GNP 數據Lifeexp 預期數據Nlsw88 美國年輕婦女研究

45、數據Pop2000 美國 2000 年人口普查數據Sp500 S&P500 歷史數據Uslifeexp 美國預期1900-1999Voter 美國 1992 年數據STATA 十八講:3 數據. use. webuse nlswork, clearwebuse只能從/從/與前一命令等價,從 STATA獲取數據,或者數據庫獲取數據這一路徑獲取數據,如果不是地址完全寫出來。使用該命令時必須確該的數據,webuse失效,只能把保網絡連接正常.另一個網絡數據較多的地方是波士登大學的數據中心,的計量經濟學導論一書中所使用的全部數據都可以通過該數據中心獲得。比如. use即打開中例 2.3 中所使

46、用的 CEO 數據。use 命令只能打開后輟名為“*.dta”格式的數據,.dta 格式以外的數據,STATA不能直接,需要從外部讀入,最簡單而直接的辦法是和粘貼。但是有時沒有其他軟件,比如,我們有 SAS 格式或 SPSS 格式的數據,但沒有 SAS 軟件和 SPSS 軟件,此時需要用 STATA 提供的其令或者使用 transfer 數據格式轉化軟件。在討論其他輸入或導入數據的方法之前,我們先來學習一點數據類型的知識。3.2 數據類型STATA 通常把變量劃分為三類:分別是數值型,字符型和日期型3.2.1 數值變量:用 0、1、29 及+、(正負號)與小數點“(.)”來表示。在輸入數據時,

47、逗號不能被識別,如 1,024 應該直接寫成 1024.其他示例5-55.25.2e+35.2e-2后面兩個數據為科學計數法的數據,分別表示 5200 和 0.052.其中的 e 相當于 10,因此 5.2e+3 的意思是:5.2*103=5200數值型變量按其精度區分,又有五種類型,分別是:存貯類型最小最大0-領域字節byte int longfloat-127-32,767-2,147,483,647-1.70141173319*103810032,7402,147,483,6201.70141173319*1036+/-1+/-1+/-1+/-10-36124421大學chrisccbS

48、TATA 十八講:3 數據double-8.9884656743*103078.9884656743*10307+/-10-3238當運算精度要求很高的時候,需要將變量設置成浮點型或雙精度型。另注意1 和1.0000 的精度是不同的,前者在(0.5,1.5)區間內近似,而后者在(0.99995,1.00005)區間內近似。若多次運算反復取四舍五入,精度較低時將使計算誤差迅速變大,然而,精度高時占用的內存解變量存貯類型變換。. clear較多。下面令有助于理. set obs 1obs was 0, now 1. gen a=1. d/將設定一個觀察值/提示信息說,之前系統中沒有觀察,現在有了一

49、個/個新變量 a,令 a 取值為 1/*d 為 describ 命令的略寫,describ 命令顯示數據集的屬性信息,注意觀察顯示結果中,a 的 storage type 為 float 型, 浮點型為默認類型*/Contains dataobs: vars:size:118 (99.9% of memory free)storagedisplay format%9.0gvaluelabelvariable name aSorted by:typevariable labelfloatNote:dataset has changed since last saved. compressa wa

50、s float,. d/在不損害信息的基礎上壓縮,使數據占用空間盡可能小nowbyte/a 由浮點型變為了字節型/ 注意 a 的 storage type 現在為 byte 型/* 注意 a 的 storage type 現在自動升為 int 型, 因為 byte 最大只能為 100*/. replace a=101a was byte now int (1 real change made). replace a=100. compress. d. replace a=32741. gen double b=1. recast double a. d/重新變回到 byte 型/直接變到 long 型,因為 int 型最大只能到 32740/直接生成雙精度變量 b/將

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論