《商务与经济统计》(一)
第一章:數據與統計資料
1、數據是指搜集和分析的事實和數字。
a)、統計分析方法是否適合一個特定的變量,取決于變量是分類變量還是數量變量,前者的統計方法極其有限(見后)。b)、分類型數據既可以是非數值型的也可以是數值型的,既可以用名義尺度度量也可以用順序尺度度量;只有當數據是數量型的,算術運算才有意義。
2、
3、統計軟件的數據來源一般為Excel 表格和數據庫,還有就是公司內部記錄、專門從事搜集和保存數據的第三方、行業協會、互聯網和政府機構。另外就是自己做實驗或問卷調查取得數據。在數據采集過程中是會產生誤差的,因此對數據要有敬畏之心。
4、描述統計:用表格、圖形和數值方法來匯總數據。
統計推斷:利用樣本數據估計總體特征并進行假設檢驗的過程。
5、評估數據的可靠性:分成訓練數據集+檢驗數據集,前者預測后者。
6、數據挖掘貫穿于統計的始終,通過計算機將海量數據分類匯總,建立模型,自動預測。
?
第二章:描述統計學中的表格法和圖形法
1、
復合條形圖:
?
結構條形圖:
交叉分組表:匯總兩個變量數據的一種方法。
?
2、數量型數據頻數分布:a、確定互不重疊的組數,b、確定每組寬度,c、確定組限。(注:組中值指上組限和下組限的中間值)。
?
打點圖:(可參考Mr.慢游的統計學 學習筆記 (四)—— 掌握數據的整體狀態 直方圖?)
累積分布:表示≤每一組上組限的數據項個數,而不是表示每一組的頻數。
?
3、辛普森悖論:
當我們合并或綜合兩個或以上的交叉分組表中的數據時,合并的前后會得出完全相反的結論,出現這種悖論的原因是合并基數和百分數時可能出現的誤區,由于這種可能性,我們在做出判斷之前應考慮是根據未綜合還是綜合交叉分組表得出的結論。
?
第三章:描述統計學—數值方法
1、平均數是總體的均值,當權重不同時使用加權平均數,但平均數容易受異常值的影響,所以出現了中位數。幾何平均數通常應用了財務、投資、銀行業問題中,分析增長率的問題,書中提到書中提到一只基金增長率的問題,使用幾何平均數求出的增長率為2.9275,而同樣一只基金,使用算術平均數求出的年均增長率為5.04%,懂得幾何平均數可以防止被經紀人忽悠。眾數的作用不言而喻。百分位數的計算方法可以讓你計算出某個百分位置所對應的數,而四分位數是百分位數的一種特殊形式。 樣本均值與總體均值(和?μ); 幾何平均數: 四分位數:Q1、Q2、Q3(第25/50/75百分位數)(升序)2、變異程度可以讓你在相同平均數的情況下了解到誰更穩定,常用的度量方式有極差,四分位數間距,方差,標準差,極差容易受異常值的影響,為了克服異常值,我們使用四分位數間距,求出中間50%數據的極差。方差是比較兩個或以上變異程度的有用工具,注意:樣本方差和總體方差的求法不同。方差為什么要轉化成標準差?標準差和原數據的單位度量相同,更容易進行比較。標準差系數也是反映數據的變異程度,標準差系數越小數據越穩定。
a)、極差=max-min;
b)、四分分間距interquartile range?(IQR)=Q3-Q1
c)、方差variance:注意總體方差σ2與樣本方差s2的異同;標準差;
標準差系數:(標準差*100/平均數)%
3、頻數分布直方圖是向左偏還是右偏取決于偏度為正還是負,偏度由計算機計算,負為左偏,正為右偏,利用平均數和中位數的大小也可以判斷偏度為左還是右,右偏時平均數大于中位數,左偏是,中位數大于平均數。標準分數用于求數值的相對位置,當標準分數大于0表示高于平均數,反之;切比雪夫定理與經驗法則的不同之處在于前者適用于任何分布,后者適用于正態分布。
z-分數(標準分數):Zi=(Xi-)/s(樣本標準差) ? ?例:Z1=1.2,表示x1比樣本平均數大1.2個標準差。
切比雪夫定理:與平均數的距離在z個標準差之內的數據所占比例至少為(1-1/z2),其中z是大于1的任意實數。
經驗法則(3-sigma法則/68-95-99.7法則):68%的數據將分布在的第一個標準偏差之內,95%和99.7%將落在均值的前三個標準偏差之內(只針對正態分布)。
異常值的檢測方法有兩種:
1° 使用z-分數,如果數據分布符合正態分布,幾乎所有的數據都在三個標準差之內,之外的視為異常值。
2°?使用分位數確定上限和下限。max=Q3+1.5*IQR ? min=Q1-1.5*IQR? ?
4、箱形圖是五數概括法(min/Q1/Q2/Q3/max)的數據圖形匯總。
5、兩變量間關系的度量(協方差&相關系數)
協方差
用于計算兩變量間的線性關系,大的正值表示強的正線性相關關系,大的負值表示強的負線性相關關系。
但是,由于計量單位的變化會出現協方差變大,但是相關關系并無變化。為避免這種情況,我們使用相關系數代替協方差。
相關系數在-1和+1之間,值得我們注意的是,相關系數提供的是線性關系而不是因果關系。
?
【若X和Y不相關,??,通常認為X和Y之間不存在線性關系,但并不能排除X和Y之間可能存在其他關系;
若??,則X和Y不相關。
若X和Y獨立,則必有??,因而X和Y不相關;
若X和Y不相關,則僅僅是不存在線性關系,可能存在其他關系,如??,X和Y不獨立。】
第四章:概率
加法公式:P(A U B) = P(A) + P(B) - P(AB)?
?P(A|B)=P(AB)/P(B)?為事件B發生條件下,事件A發生的條件概率。
乘法公式:P(AB) = P(A)P(B|A)
更一般地:P(A1 A2 ... An) = P(A1)P(A2 / A1)P(A3 / A1 A2) ... P(An / A1 A2 ... An-1)
貝葉斯公式
?
第五章:離散概率分布
離散型隨機變量、離散型隨機變量的分布律/列(形式、性質)、隨機變量的兩個關鍵參數——期望與方差/標準差、分布函數:F(x)=P(X≤x);幾種常見的離散型隨機變量概率分布——二項分布、泊松分布、超幾何分布等;
二元隨機變量/二元隨機變量的分布函數:聯合概率分布(律/函數)、邊際分布(律/函數)、條件分布(律/函數);
協方差+相關系數
離散型隨機變量的獨立性:
?
第六章:連續型概率分布
聯合概率密度函數、邊緣概率密度函數、條件概率密度函數、
(二元)均勻分布+(二元)正太分布+指數分布
?
連續型隨機變量的獨立性:
?
?
?
??
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的《商务与经济统计》(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网络渗透测试笔记
- 下一篇: 图片效果集合(js、jquery或htm