datagrid出现相同两组数据_stata 数据操作基础知识:以一篇论文数据操作为例
stata 數(shù)據(jù)操作基礎(chǔ)知識(shí):以一篇論文數(shù)據(jù)操作為例
上節(jié)回顧及問(wèn)題
統(tǒng)計(jì)學(xué)學(xué)習(xí)大圖景
數(shù)據(jù)描述
分位數(shù)回歸
1、學(xué)了就要多使用,哪怕生搬硬套也要多用
2、時(shí)間序列的方法,大家可以操作,卻難以解釋結(jié)果,也不知道怎么選擇模型
各組主題與數(shù)據(jù)匯報(bào)
本節(jié)內(nèi)容
掌握stata論文寫(xiě)作操作技能
stata論文寫(xiě)作的六張表
數(shù)據(jù)導(dǎo)入
樣本分布的表格編制;
主要變量的描述性統(tǒng)計(jì);
單變量之間的分組檢驗(yàn);
相關(guān)性分析;
回歸分析。
一篇標(biāo)準(zhǔn)的畢業(yè)論文至少要有六個(gè)表格
1、樣本分布表
2、變量定義表
以下這篇文章探討的是Ananum是否會(huì)影響Delta_cash 、OverInv 、UnderInv這三個(gè)變量就行了。這三個(gè)變量的定義請(qǐng)仔細(xì)看看。
(1)關(guān)鍵變量是我們要著重考察的效應(yīng),一般而言,其結(jié)果要符合我們的假說(shuō)。
(2)控制變量是,也會(huì)對(duì)被解釋變量Y產(chǎn)生顯著影響的變量,但并非我們假說(shuō)要考察的因素。當(dāng)一個(gè)變量(非關(guān)鍵變量)對(duì)被解釋變量影響超過(guò)10%(取掉的話,R方會(huì)下降0.1及以上),就要考慮將它作為控制變量放到回歸模型中。
3、描述性統(tǒng)計(jì)表
4、均值差異檢驗(yàn)和中位數(shù)差異檢驗(yàn)表(單變量差異檢驗(yàn)表)
5、相關(guān)性分析表
6、回歸分析表
練習(xí)與操作
大家打開(kāi)郵箱里的數(shù)據(jù)表。
上市公司2004-2012
基本操作包括如下六個(gè)部分:
1.數(shù)據(jù)導(dǎo)入;
2.樣本分布的表格編制;
3.主要變量的描述性統(tǒng)計(jì);
4.單變量之間的分組檢驗(yàn);
5.相關(guān)性分析;
6.回歸分析。
樣本分布的表格編制
在命令窗口輸入如下命令,然后回車。
tabstat anad , by(year) s(sum count) 菜單:Statistics > Summaries, tables, and tests > Other tables > Compact table of summary statistics 或
統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>其它表>簡(jiǎn)明統(tǒng)計(jì)表tabstat是Stata自帶的程序命令,Stata的程序格式通常都是這樣安排的,第一個(gè)“單詞”或“字母組合”是其自帶的程序命令。
anad是標(biāo)記公司有沒(méi)有分析師跟蹤的變量,有就標(biāo)記為1,沒(méi)有分析師跟蹤就標(biāo)記為0(這個(gè)變量是手工標(biāo)記的變量,成為邏輯變量)。對(duì)這個(gè)變量進(jìn)行分年匯總求和就可以得到當(dāng)年有分析師跟蹤的樣本公司總數(shù)。
by(year)是分年統(tǒng)計(jì)的意思。
s(sum count)意在輸出變量anad的兩個(gè)統(tǒng)計(jì)量,總和(sum),總觀測(cè)數(shù)(count)。總觀測(cè)數(shù)扣減總和就是沒(méi)有分析師跟蹤的公司數(shù)量。仔細(xì)想想為什么。
主要變量的描述性統(tǒng)計(jì)
tabstat delta_cash overinv underinv ananum cashflow fcf_p fcf_n absda size lev roa tobinq delta_std , s(count mean median sd min max)tabstat是輸出描述性統(tǒng)計(jì)非常好用的命令。
菜單:Statistics > Summaries, tables, and tests > Other tables > Compact table of summary statistics 或
統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>其它表>簡(jiǎn)明統(tǒng)計(jì)表
delta_cash overinv underinv ananum cashflow fcf_p fcf_n absda size lev roa tobinq delta_std是文章的被解釋變量、關(guān)鍵變量和控制變量。
s(count mean median sd min max)是說(shuō)要生成的:總觀測(cè)數(shù)、均值、中位數(shù)、標(biāo)準(zhǔn)差、最小值和最大值。共5項(xiàng)統(tǒng)計(jì)量。當(dāng)然,如果你想生成其他統(tǒng)計(jì)量,可以在括號(hào)里添加,比如分位數(shù)q。
單變量分組檢驗(yàn)
有時(shí)候我們需要知道兩個(gè)班級(jí)的成績(jī)是否存在差異,從而比較班級(jí)成績(jī)的優(yōu)劣,使用簡(jiǎn)單的均值進(jìn)行比較是不全面的。兩個(gè)班級(jí)平均分差不多,但是一個(gè)班級(jí)高分和低分都特別多,另一個(gè)班級(jí)則比較平均。此時(shí)需要在比較時(shí)考慮數(shù)據(jù)的波動(dòng)因素。這便引出了均值差異檢驗(yàn)和中位數(shù)差異檢驗(yàn)。這兩種檢驗(yàn)可以告訴我們兩組數(shù)據(jù)到底有沒(méi)有差異。
參數(shù)檢驗(yàn):T檢驗(yàn)(均值檢驗(yàn))
ttest delta_cash,by (pc3)ttest菜單命令
Statistics > Summaries, tables, and tests > Classical tests of hypotheses > t test (mean-comparison test)統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>古典假設(shè)檢驗(yàn)>t檢驗(yàn)(均值-比較檢驗(yàn))
做均值檢驗(yàn)要一個(gè)一個(gè)變量來(lái)做。ttest 就是做均值檢驗(yàn)的命令。
by(pc3)是說(shuō)根據(jù)pc(政治關(guān)聯(lián))分組,檢驗(yàn)有政治關(guān)系的企業(yè)和沒(méi)有政治關(guān)系的企業(yè),在現(xiàn)金流量(delta_cash)方面,有無(wú)顯著差異。
當(dāng)然有差異,你看到無(wú)政治關(guān)聯(lián)企業(yè)的現(xiàn)金流減去有政治關(guān)聯(lián)企業(yè)的現(xiàn)金流后,得到負(fù)數(shù)。并且統(tǒng)計(jì)檢驗(yàn)的P值<0.01,三顆星***顯著。
注意下面這句話,你會(huì)經(jīng)常碰到。
***表示檢驗(yàn)在1%的水平上顯著, **表示檢驗(yàn)在 5%的水平上顯著, *表示檢驗(yàn)在 10%的水平上顯著。
統(tǒng)計(jì)表格里有些差異標(biāo)了*,有些沒(méi)有,只有標(biāo)了才能說(shuō)兩組有差異,標(biāo)的越多,說(shuō)明差異的可能性越大。Pr(|T| > |t|) =0.0000 ,這個(gè)數(shù)就是P值。
當(dāng)P值<0.01,則表示檢驗(yàn)在 1%的水平上顯著,標(biāo)記***。當(dāng)0.01<P值<0.05,則表示檢驗(yàn)在 5%的水平上顯著,標(biāo)記**。
當(dāng)0.05<P值<0.1,則表示檢驗(yàn)在 10%的水平上顯著,標(biāo)記*。
非參數(shù)檢驗(yàn): wilcoxons 檢驗(yàn)
tabstat delta_cash ,by (pc3) s(median) ranksum delta_cash,by (pc) Statistics > Summaries, tables, and tests > 其它表> 簡(jiǎn)明統(tǒng)計(jì)表統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>其它表> 簡(jiǎn)明統(tǒng)計(jì)表
非參數(shù)檢驗(yàn)在
Statistics > Summaries, tables, and tests > 非參數(shù)假設(shè)檢驗(yàn)>wilcoxons test統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>非參數(shù)假設(shè)檢驗(yàn)>wilcoxons test
非參數(shù)檢驗(yàn)也是要一個(gè)一個(gè)變量來(lái)檢驗(yàn),主要檢驗(yàn)有政治關(guān)系的上市公司和沒(méi)有政治關(guān)系的上市公司在現(xiàn)金流變量方面有無(wú)差異。
這個(gè)檢驗(yàn)分兩個(gè)部分。
第一部分是比較兩組數(shù)據(jù)的中位數(shù)差異。
第二部分是檢驗(yàn)這種差異是否顯著。
對(duì)差異分析結(jié)果的解釋與上面的解釋類似。只不過(guò)P值的計(jì)算方法出現(xiàn)了變化。
Prob > |z|= 0.0000,這個(gè)數(shù)就是P值。
相關(guān)性分析
pwcorr delta_cash overinv underinv ananum cashflow fcf_p fcf_n, sig配對(duì)相關(guān)系數(shù) pwcorr菜單命令
Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Pairwise correlations統(tǒng)計(jì)>匯總、表格和假設(shè)檢驗(yàn)>摘要和描述統(tǒng)計(jì)>成對(duì)相關(guān)
變量?jī)蓛芍g會(huì)有上下一對(duì)數(shù)據(jù)。比如delta_cash和overinv,對(duì)應(yīng)-0.0100和0.6435上下兩個(gè)數(shù)據(jù)。上面的數(shù)據(jù)是二者的相關(guān)性系數(shù),下面的數(shù)據(jù)是對(duì)相關(guān)性進(jìn)行顯著性檢驗(yàn)得到的P值。這個(gè)P值決定了二者相關(guān)性是否顯著,關(guān)于P值、顯著性和*數(shù)量的關(guān)系,見(jiàn)前文的描述。
回歸分析
xi:reg delta_cash cashflow cashflow*ananum ananum absda delta_std delta_nwc expend tobinq roa lev size i.indcode i.year if pc==0reg是stata的回歸命令。
xi:配合后面的i.indcode和i.year,是為了控制年份和行業(yè)。
if pc==0,表示本次回歸只輸入沒(méi)有政治關(guān)聯(lián)的公司數(shù)據(jù)。
P>|t|下面的數(shù)據(jù),就是針對(duì)每個(gè)回歸系數(shù)進(jìn)行檢驗(yàn)的P值。你不需要理解P值的原理,但是你必須知道只有P值顯著,我們才能說(shuō)cashflow對(duì)delta_cash 有影響。不顯著的話,則稱未發(fā)現(xiàn)cashflow對(duì)delta_cash 有顯著性影響。回歸分析的任務(wù)就是發(fā)現(xiàn)哪些解釋變量,對(duì)被解釋變量有顯著影響。因此,有沒(méi)有*很重要,*越多越好。
xi:reg菜單
Data > Create or change data > Other variable-creation commands > Interaction expansion數(shù)據(jù)>創(chuàng)建或改變數(shù)據(jù)>其它變量創(chuàng)建命令>虛擬變量
分別對(duì)無(wú)政治關(guān)聯(lián)(pc==0)和有政治關(guān)聯(lián)(pc==1)的企業(yè)進(jìn)行兩次回歸。得到以下結(jié)果,通過(guò)對(duì)比獲得一定結(jié)論。
reg是stata的回歸命令。
xi:配合后面的i.indcode和i.year,是為了控制年份和行業(yè)。
if pc==0,表示本次回歸只輸入沒(méi)有政治關(guān)聯(lián)的公司數(shù)據(jù)。
P>|t|下面的數(shù)據(jù),就是針對(duì)每個(gè)回歸系數(shù)進(jìn)行檢驗(yàn)的P值。你不需要理解P值的原理,但是你必須知道只有P值顯著,我們才能說(shuō)cashflow對(duì)delta_cash 有影響。不顯著的話,則稱未發(fā)現(xiàn)cashflow對(duì)delta_cash 有顯著性影響。回歸分析的任務(wù)就是發(fā)現(xiàn)哪些解釋變量,對(duì)被解釋變量有顯著影響。因此,有沒(méi)有*很重要,*越多越好。
整理到處合并后數(shù)據(jù)表格
數(shù)據(jù)合并
上節(jié)講了數(shù)據(jù)描述,這里再補(bǔ)充數(shù)據(jù)合并stata操作。
數(shù)據(jù)合并有兩種不同方式,一種是橫向合并,比如年份相同或截面(序號(hào))相同的數(shù)據(jù)合并,但變量不同,此時(shí)要使用merge命令。
另一種是縱向合并,當(dāng)變量相同,但屬于兩個(gè)來(lái)源的樣本需要合并時(shí),采用append,命令
然后運(yùn)用
merge1:1 變量 using 數(shù)據(jù)集2或merge1:m,或者merge m:1,或者merge m:n來(lái)進(jìn)行合并。
冒號(hào)前的代表數(shù)據(jù)1,冒號(hào)后代表數(shù)據(jù)2。
如果兩個(gè)數(shù)據(jù)中的某變量的數(shù)據(jù)都是唯一的,則用1:1,;
如果數(shù)據(jù)1中某變量的數(shù)據(jù)有多個(gè),而數(shù)據(jù)2中某變量的數(shù)據(jù)是唯一的,則用merge m:1;
如果數(shù)據(jù)1中某變量的數(shù)據(jù)是唯一的,而數(shù)據(jù)2中某變量的數(shù)據(jù)有多個(gè),則用merge 1:m;
如果數(shù)據(jù)1和2中某變量的數(shù)據(jù)均有多個(gè),則用merge m:n
命令格式為
Data > Combine Datasets > Merge Two Datasets或
數(shù)據(jù)>合并數(shù)據(jù)集>合并兩個(gè)數(shù)據(jù)集
merge完之后結(jié)果窗口會(huì)出現(xiàn)下列信息,同時(shí)表格中會(huì)出現(xiàn)一個(gè)新的變量_merge,當(dāng)_merge為1時(shí),該數(shù)據(jù)僅在主數(shù)據(jù)集中存在;當(dāng)_merge為2的時(shí)候,該數(shù)據(jù)僅在用于匹配的數(shù)據(jù)集中出現(xiàn);當(dāng)_merge為3的時(shí)候才表示匹配成功,數(shù)據(jù)在兩個(gè)數(shù)據(jù)集中同時(shí)存在。
接著我們可以直接keep if _merge==3,則可以保留匹配成功的數(shù)據(jù),刪除匹配不成功的數(shù)據(jù)。
如果我們需要進(jìn)行多次merge,不要忘記將_merge變量刪除。drop _merge就可以實(shí)現(xiàn)。
縱向合并
如果我們想實(shí)現(xiàn)數(shù)據(jù)的縱向合并,可以使用append命令。
①首先導(dǎo)入兩個(gè)數(shù)據(jù)集1和2;
②使用append命令,append using 數(shù)據(jù)2,就可以直接將數(shù)據(jù)2拼接到數(shù)據(jù)1的下面。
如果數(shù)據(jù)2中沒(méi)有數(shù)據(jù)1的某些變量數(shù)值,則stata自動(dòng)生成.(缺失值)。
刪除變量
drop 變量 或 drop if 變量==x刪除缺失值
foreach in 變量1 變量2 .....{drop if `i`==. }字符串轉(zhuǎn)數(shù)字
如果復(fù)制到stata 的數(shù)據(jù)呈現(xiàn)紅色,表明需要將標(biāo)紅的字符串轉(zhuǎn)為數(shù)字
destring 變量, replace force日期數(shù)據(jù)的轉(zhuǎn)化
gen 新日期變量t = date(數(shù)據(jù)表的日期變量“日期”, "YMD")下一節(jié)的課程
1.數(shù)據(jù)的正態(tài)性檢驗(yàn);
2.Stata對(duì)單變量作圖;
3.Stata對(duì)多變量作圖;
4.異方差的調(diào)整;
5.多重共線性與方差膨脹因子。
課后作業(yè)
各組進(jìn)一步討論主題,并完善數(shù)據(jù),使用本節(jié)介紹的stata論文寫(xiě)作6個(gè)步驟,做出一篇stata論文。 提交時(shí)間:下周日之前
本節(jié)回顧
stata論文寫(xiě)作的六張表
數(shù)據(jù)導(dǎo)入
樣本分布的表格編制;
主要變量的描述性統(tǒng)計(jì);
單變量之間的分組檢驗(yàn);
相關(guān)性分析;
回歸分析。
本節(jié)主要內(nèi)容、數(shù)據(jù)及論文來(lái)自mosuchen的一篇知乎高贊帖子《1小時(shí)用Stata速成畢業(yè)論文》 https://zhuanlan.zhihu.com/p/54757747,感謝楊玉龍老師及其團(tuán)隊(duì)的無(wú)私分享。
總結(jié)
以上是生活随笔為你收集整理的datagrid出现相同两组数据_stata 数据操作基础知识:以一篇论文数据操作为例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 基于hsv的亮度调整算法_基于手绘工程图
- 下一篇: 蚊子爱叮什么颜色的人?