日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

datagrid出现相同两组数据_stata 数据操作基础知识:以一篇论文数据操作为例

發(fā)布時(shí)間:2025/4/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 datagrid出现相同两组数据_stata 数据操作基础知识:以一篇论文数据操作为例 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

stata 數(shù)據(jù)操作基礎(chǔ)知識(shí):以一篇論文數(shù)據(jù)操作為例

上節(jié)回顧及問(wèn)題

統(tǒng)計(jì)學(xué)學(xué)習(xí)大圖景
數(shù)據(jù)描述
分位數(shù)回歸

存在的問(wèn)題:
1、學(xué)了就要多使用,哪怕生搬硬套也要多用
2、時(shí)間序列的方法,大家可以操作,卻難以解釋結(jié)果,也不知道怎么選擇模型

各組主題與數(shù)據(jù)匯報(bào)


本節(jié)內(nèi)容

掌握stata論文寫(xiě)作操作技能
stata論文寫(xiě)作的六張表
數(shù)據(jù)導(dǎo)入
樣本分布的表格編制;
主要變量的描述性統(tǒng)計(jì);
單變量之間的分組檢驗(yàn);
相關(guān)性分析;
回歸分析。


一篇標(biāo)準(zhǔn)的畢業(yè)論文至少要有六個(gè)表格

1、樣本分布表

2、變量定義表

以下這篇文章探討的是Ananum是否會(huì)影響Delta_cash 、OverInv 、UnderInv這三個(gè)變量就行了。這三個(gè)變量的定義請(qǐng)仔細(xì)看看。

(1)關(guān)鍵變量是我們要著重考察的效應(yīng),一般而言,其結(jié)果要符合我們的假說(shuō)。
(2)控制變量是,也會(huì)對(duì)被解釋變量Y產(chǎn)生顯著影響的變量,但并非我們假說(shuō)要考察的因素。當(dāng)一個(gè)變量(非關(guān)鍵變量)對(duì)被解釋變量影響超過(guò)10%(取掉的話,R方會(huì)下降0.1及以上),就要考慮將它作為控制變量放到回歸模型中。

3、描述性統(tǒng)計(jì)表

4、均值差異檢驗(yàn)和中位數(shù)差異檢驗(yàn)表(單變量差異檢驗(yàn)表)

5、相關(guān)性分析表

6、回歸分析表


練習(xí)與操作

大家打開(kāi)郵箱里的數(shù)據(jù)表。
上市公司2004-2012

基本操作包括如下六個(gè)部分:

1.數(shù)據(jù)導(dǎo)入;

2.樣本分布的表格編制;

3.主要變量的描述性統(tǒng)計(jì);

4.單變量之間的分組檢驗(yàn);

5.相關(guān)性分析;

6.回歸分析。


樣本分布的表格編制

在命令窗口輸入如下命令,然后回車。

tabstat anad , by(year) s(sum count) 菜單:
Statistics > Summaries, tables, and tests > Other tables > Compact table of summary statistics 或
統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>其它表>簡(jiǎn)明統(tǒng)計(jì)表

tabstat是Stata自帶的程序命令,Stata的程序格式通常都是這樣安排的,第一個(gè)“單詞”或“字母組合”是其自帶的程序命令。
anad是標(biāo)記公司有沒(méi)有分析師跟蹤的變量,有就標(biāo)記為1,沒(méi)有分析師跟蹤就標(biāo)記為0(這個(gè)變量是手工標(biāo)記的變量,成為邏輯變量)。對(duì)這個(gè)變量進(jìn)行分年匯總求和就可以得到當(dāng)年有分析師跟蹤的樣本公司總數(shù)。
by(year)是分年統(tǒng)計(jì)的意思。
s(sum count)意在輸出變量anad的兩個(gè)統(tǒng)計(jì)量,總和(sum),總觀測(cè)數(shù)(count)。總觀測(cè)數(shù)扣減總和就是沒(méi)有分析師跟蹤的公司數(shù)量。仔細(xì)想想為什么。

主要變量的描述性統(tǒng)計(jì)

tabstat delta_cash overinv underinv ananum cashflow fcf_p fcf_n absda size lev roa tobinq delta_std , s(count mean median sd min max)

tabstat是輸出描述性統(tǒng)計(jì)非常好用的命令。

菜單:
Statistics > Summaries, tables, and tests > Other tables > Compact table of summary statistics 或
統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>其它表>簡(jiǎn)明統(tǒng)計(jì)表

delta_cash overinv underinv ananum cashflow fcf_p fcf_n absda size lev roa tobinq delta_std是文章的被解釋變量、關(guān)鍵變量和控制變量。

s(count mean median sd min max)是說(shuō)要生成的:總觀測(cè)數(shù)、均值、中位數(shù)、標(biāo)準(zhǔn)差、最小值和最大值。共5項(xiàng)統(tǒng)計(jì)量。當(dāng)然,如果你想生成其他統(tǒng)計(jì)量,可以在括號(hào)里添加,比如分位數(shù)q。


單變量分組檢驗(yàn)

有時(shí)候我們需要知道兩個(gè)班級(jí)的成績(jī)是否存在差異,從而比較班級(jí)成績(jī)的優(yōu)劣,使用簡(jiǎn)單的均值進(jìn)行比較是不全面的。兩個(gè)班級(jí)平均分差不多,但是一個(gè)班級(jí)高分和低分都特別多,另一個(gè)班級(jí)則比較平均。此時(shí)需要在比較時(shí)考慮數(shù)據(jù)的波動(dòng)因素。這便引出了均值差異檢驗(yàn)和中位數(shù)差異檢驗(yàn)。這兩種檢驗(yàn)可以告訴我們兩組數(shù)據(jù)到底有沒(méi)有差異。

參數(shù)檢驗(yàn):T檢驗(yàn)(均值檢驗(yàn))

ttest delta_cash,by (pc3)

ttest菜單命令

Statistics > Summaries, tables, and tests > Classical tests of hypotheses > t test (mean-comparison test)
統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>古典假設(shè)檢驗(yàn)>t檢驗(yàn)(均值-比較檢驗(yàn))

做均值檢驗(yàn)要一個(gè)一個(gè)變量來(lái)做。ttest 就是做均值檢驗(yàn)的命令。

by(pc3)是說(shuō)根據(jù)pc(政治關(guān)聯(lián))分組,檢驗(yàn)有政治關(guān)系的企業(yè)和沒(méi)有政治關(guān)系的企業(yè),在現(xiàn)金流量(delta_cash)方面,有無(wú)顯著差異。

當(dāng)然有差異,你看到無(wú)政治關(guān)聯(lián)企業(yè)的現(xiàn)金流減去有政治關(guān)聯(lián)企業(yè)的現(xiàn)金流后,得到負(fù)數(shù)。并且統(tǒng)計(jì)檢驗(yàn)的P值<0.01,三顆星***顯著。

注意下面這句話,你會(huì)經(jīng)常碰到。

***表示檢驗(yàn)在1%的水平上顯著, **表示檢驗(yàn)在 5%的水平上顯著, *表示檢驗(yàn)在 10%的水平上顯著。

統(tǒng)計(jì)表格里有些差異標(biāo)了*,有些沒(méi)有,只有標(biāo)了才能說(shuō)兩組有差異,標(biāo)的越多,說(shuō)明差異的可能性越大。Pr(|T| > |t|) =0.0000 ,這個(gè)數(shù)就是P值。

當(dāng)P值<0.01,則表示檢驗(yàn)在 1%的水平上顯著,標(biāo)記***。
當(dāng)0.01<P值<0.05,則表示檢驗(yàn)在 5%的水平上顯著,標(biāo)記**。
當(dāng)0.05<P值<0.1,則表示檢驗(yàn)在 10%的水平上顯著,標(biāo)記*。

非參數(shù)檢驗(yàn): wilcoxons 檢驗(yàn)

tabstat delta_cash ,by (pc3) s(median) ranksum delta_cash,by (pc) Statistics > Summaries, tables, and tests > 其它表> 簡(jiǎn)明統(tǒng)計(jì)表
統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>其它表> 簡(jiǎn)明統(tǒng)計(jì)表

非參數(shù)檢驗(yàn)在

Statistics > Summaries, tables, and tests > 非參數(shù)假設(shè)檢驗(yàn)>wilcoxons test
統(tǒng)計(jì)>匯總,表格和假設(shè)檢驗(yàn)>非參數(shù)假設(shè)檢驗(yàn)>wilcoxons test

非參數(shù)檢驗(yàn)也是要一個(gè)一個(gè)變量來(lái)檢驗(yàn),主要檢驗(yàn)有政治關(guān)系的上市公司和沒(méi)有政治關(guān)系的上市公司在現(xiàn)金流變量方面有無(wú)差異。

這個(gè)檢驗(yàn)分兩個(gè)部分。

第一部分是比較兩組數(shù)據(jù)的中位數(shù)差異。
第二部分是檢驗(yàn)這種差異是否顯著。

對(duì)差異分析結(jié)果的解釋與上面的解釋類似。只不過(guò)P值的計(jì)算方法出現(xiàn)了變化。

Prob > |z|= 0.0000,這個(gè)數(shù)就是P值。

相關(guān)性分析

pwcorr delta_cash overinv underinv ananum cashflow fcf_p fcf_n, sig

配對(duì)相關(guān)系數(shù) pwcorr菜單命令

Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Pairwise correlations
統(tǒng)計(jì)>匯總、表格和假設(shè)檢驗(yàn)>摘要和描述統(tǒng)計(jì)>成對(duì)相關(guān)

變量?jī)蓛芍g會(huì)有上下一對(duì)數(shù)據(jù)。比如delta_cash和overinv,對(duì)應(yīng)-0.0100和0.6435上下兩個(gè)數(shù)據(jù)。上面的數(shù)據(jù)是二者的相關(guān)性系數(shù),下面的數(shù)據(jù)是對(duì)相關(guān)性進(jìn)行顯著性檢驗(yàn)得到的P值。這個(gè)P值決定了二者相關(guān)性是否顯著,關(guān)于P值、顯著性和*數(shù)量的關(guān)系,見(jiàn)前文的描述。


回歸分析

xi:reg delta_cash cashflow cashflow*ananum ananum absda delta_std delta_nwc expend tobinq roa lev size i.indcode i.year if pc==0

reg是stata的回歸命令。

xi:配合后面的i.indcode和i.year,是為了控制年份和行業(yè)。

if pc==0,表示本次回歸只輸入沒(méi)有政治關(guān)聯(lián)的公司數(shù)據(jù)。

P>|t|下面的數(shù)據(jù),就是針對(duì)每個(gè)回歸系數(shù)進(jìn)行檢驗(yàn)的P值。你不需要理解P值的原理,但是你必須知道只有P值顯著,我們才能說(shuō)cashflow對(duì)delta_cash 有影響。不顯著的話,則稱未發(fā)現(xiàn)cashflow對(duì)delta_cash 有顯著性影響。回歸分析的任務(wù)就是發(fā)現(xiàn)哪些解釋變量,對(duì)被解釋變量有顯著影響。因此,有沒(méi)有*很重要,*越多越好。

xi:reg菜單

Data > Create or change data > Other variable-creation commands > Interaction expansion
數(shù)據(jù)>創(chuàng)建或改變數(shù)據(jù)>其它變量創(chuàng)建命令>虛擬變量

分別對(duì)無(wú)政治關(guān)聯(lián)(pc==0)和有政治關(guān)聯(lián)(pc==1)的企業(yè)進(jìn)行兩次回歸。得到以下結(jié)果,通過(guò)對(duì)比獲得一定結(jié)論。

reg是stata的回歸命令。

xi:配合后面的i.indcode和i.year,是為了控制年份和行業(yè)。

if pc==0,表示本次回歸只輸入沒(méi)有政治關(guān)聯(lián)的公司數(shù)據(jù)。

P>|t|下面的數(shù)據(jù),就是針對(duì)每個(gè)回歸系數(shù)進(jìn)行檢驗(yàn)的P值。你不需要理解P值的原理,但是你必須知道只有P值顯著,我們才能說(shuō)cashflow對(duì)delta_cash 有影響。不顯著的話,則稱未發(fā)現(xiàn)cashflow對(duì)delta_cash 有顯著性影響。回歸分析的任務(wù)就是發(fā)現(xiàn)哪些解釋變量,對(duì)被解釋變量有顯著影響。因此,有沒(méi)有*很重要,*越多越好。

整理到處合并后數(shù)據(jù)表格

數(shù)據(jù)合并

上節(jié)講了數(shù)據(jù)描述,這里再補(bǔ)充數(shù)據(jù)合并stata操作。
數(shù)據(jù)合并有兩種不同方式,一種是橫向合并,比如年份相同或截面(序號(hào))相同的數(shù)據(jù)合并,但變量不同,此時(shí)要使用merge命令。
另一種是縱向合并,當(dāng)變量相同,但屬于兩個(gè)來(lái)源的樣本需要合并時(shí),采用append,命令

use x1.dta, clear<br> sort id name<br> save stat.dta, replace<br>use x2.dta, clear<br> sort id name<br> merge 1:1 id name using stat.dta<br>

然后運(yùn)用

merge1:1 變量 using 數(shù)據(jù)集2
或merge1:m,或者merge m:1,或者merge m:n來(lái)進(jìn)行合并。
冒號(hào)前的代表數(shù)據(jù)1,冒號(hào)后代表數(shù)據(jù)2。

如果兩個(gè)數(shù)據(jù)中的某變量的數(shù)據(jù)都是唯一的,則用1:1,;

如果數(shù)據(jù)1中某變量的數(shù)據(jù)有多個(gè),而數(shù)據(jù)2中某變量的數(shù)據(jù)是唯一的,則用merge m:1;

如果數(shù)據(jù)1中某變量的數(shù)據(jù)是唯一的,而數(shù)據(jù)2中某變量的數(shù)據(jù)有多個(gè),則用merge 1:m;

如果數(shù)據(jù)1和2中某變量的數(shù)據(jù)均有多個(gè),則用merge m:n

命令格式為

Data > Combine Datasets > Merge Two Datasets

數(shù)據(jù)>合并數(shù)據(jù)集>合并兩個(gè)數(shù)據(jù)集

merge完之后結(jié)果窗口會(huì)出現(xiàn)下列信息,同時(shí)表格中會(huì)出現(xiàn)一個(gè)新的變量_merge,當(dāng)_merge為1時(shí),該數(shù)據(jù)僅在主數(shù)據(jù)集中存在;當(dāng)_merge為2的時(shí)候,該數(shù)據(jù)僅在用于匹配的數(shù)據(jù)集中出現(xiàn);當(dāng)_merge為3的時(shí)候才表示匹配成功,數(shù)據(jù)在兩個(gè)數(shù)據(jù)集中同時(shí)存在。

接著我們可以直接keep if _merge==3,則可以保留匹配成功的數(shù)據(jù),刪除匹配不成功的數(shù)據(jù)。

如果我們需要進(jìn)行多次merge,不要忘記將_merge變量刪除。drop _merge就可以實(shí)現(xiàn)。

縱向合并
如果我們想實(shí)現(xiàn)數(shù)據(jù)的縱向合并,可以使用append命令。

①首先導(dǎo)入兩個(gè)數(shù)據(jù)集1和2;

②使用append命令,append using 數(shù)據(jù)2,就可以直接將數(shù)據(jù)2拼接到數(shù)據(jù)1的下面。

如果數(shù)據(jù)2中沒(méi)有數(shù)據(jù)1的某些變量數(shù)值,則stata自動(dòng)生成.(缺失值)。


刪除變量

drop 變量 或 drop if 變量==x

刪除缺失值

foreach in 變量1 變量2 .....{drop if `i`==. }

字符串轉(zhuǎn)數(shù)字

如果復(fù)制到stata 的數(shù)據(jù)呈現(xiàn)紅色,表明需要將標(biāo)紅的字符串轉(zhuǎn)為數(shù)字

destring 變量, replace force

日期數(shù)據(jù)的轉(zhuǎn)化

gen 新日期變量t = date(數(shù)據(jù)表的日期變量“日期”, "YMD")

下一節(jié)的課程

1.數(shù)據(jù)的正態(tài)性檢驗(yàn);

2.Stata對(duì)單變量作圖;

3.Stata對(duì)多變量作圖;

4.異方差的調(diào)整;

5.多重共線性與方差膨脹因子。


課后作業(yè)

各組進(jìn)一步討論主題,并完善數(shù)據(jù),使用本節(jié)介紹的stata論文寫(xiě)作6個(gè)步驟,做出一篇stata論文。 提交時(shí)間:下周日之前


本節(jié)回顧

stata論文寫(xiě)作的六張表
數(shù)據(jù)導(dǎo)入
樣本分布的表格編制;
主要變量的描述性統(tǒng)計(jì);
單變量之間的分組檢驗(yàn);
相關(guān)性分析;
回歸分析。

本節(jié)主要內(nèi)容、數(shù)據(jù)及論文來(lái)自mosuchen的一篇知乎高贊帖子《1小時(shí)用Stata速成畢業(yè)論文》 https://zhuanlan.zhihu.com/p/54757747,感謝楊玉龍老師及其團(tuán)隊(duì)的無(wú)私分享。

總結(jié)

以上是生活随笔為你收集整理的datagrid出现相同两组数据_stata 数据操作基础知识:以一篇论文数据操作为例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。