统计(1 - 2)
統(tǒng)計學基礎定義
Statistics的前部分為“state”,政府,原由是統(tǒng)計是300年前被首次應用在政府部門統(tǒng)計人口出生和死亡信息的;如今的統(tǒng)計學早已被應用在各個專業(yè)領域;
統(tǒng)計學是用以收集數(shù)據(jù)、分析數(shù)據(jù)和數(shù)據(jù)推論的一組概念、原則和方法;是將數(shù)據(jù)轉(zhuǎn)化為比數(shù)據(jù)本身更為復雜的知識,為其他學科提供一套研究對象的方法;(是不是應該叫統(tǒng)計哲學);
統(tǒng)計學的主要思想包括隨機性和規(guī)律性、概率、變量和常量:
1) 隨機性和規(guī)律性:
投一枚硬幣,我們不知道下次是正面朝上還是反面朝上,此為隨機性;而如果投各多次,我們發(fā)現(xiàn)正面和反面差不多,此為規(guī)律性;
隨機性中的規(guī)律性:把隨機的事件放在一起,尋找其中的規(guī)律,這是統(tǒng)計思想的基礎,如多次投硬幣;
規(guī)律性中的隨機性:每次觀察一組重復的實驗結(jié)果都波動不一樣,比如投100次硬幣得到的正面數(shù);這樣,波動的差異就是數(shù)據(jù)本身隨機性帶來的,但如何判斷波動是隨機帶來的還是事物本身帶來的,波動是否超出隨機性所能解釋的程度,這后續(xù)會有數(shù)據(jù)偏差問題的研究;
2)概率是取值在0-1的數(shù),告訴我們一個特定事件以多大的機會會發(fā)生;從數(shù)據(jù)中得到結(jié)論的基礎,比如我們可能不知道下次隨機性的波動范圍是多大,但是我們可以確定落在范圍內(nèi)的概率;
3)變量是可以取多個值的特征、特質(zhì)或?qū)傩?#xff1b;變量的值是對其的度量;對與那些生活中可觀察的變量成為經(jīng)驗變量(性別、年齡);對于用數(shù)學方法推導出來的變量稱之為理論變量(z,t,x2)
4)常量是一個固定的值,重復試驗,其值不變,如已訓練好模型的參數(shù);
數(shù)據(jù)的收集
一位統(tǒng)計學家說過:世上有兩種數(shù)據(jù),好數(shù)據(jù)和壞數(shù)據(jù);精辟;好數(shù)據(jù)是根據(jù)合理、正確的統(tǒng)計原理收集到的數(shù)據(jù);反之,壞數(shù)據(jù)是其他方法收集的;好數(shù)據(jù)的收集方法包括:
1)定義變量:仔細的考慮給變量一個無歧義、清晰的、詳盡的定義;比如統(tǒng)計家庭小孩個數(shù)中小孩的定義:多大年齡?繼父母算不算?寄養(yǎng)怎么辦?父母離婚了小孩沒人管怎么辦?。。。
2)觀測數(shù)據(jù):總體(population)包含所有研究的個體;普查(census)基于收集整個總體數(shù)據(jù)的過程;樣本(sample)總體中被選中的個體;
怎么選擇樣本呢?想想我們做飯的時候怎么判斷咸淡吧,挖一小勺嘗一嘗,要想這一小勺代表整個鍋的味道,就要來回攪一攪,使得這一勺是隨機的;因此樣本應該選擇隨機樣本,總體的每一個個體都有已知的機會包含在樣本中;
還記得前面提到的規(guī)律性的隨機行,即便是隨機的,那每次隨機抽樣也不一樣,這里把每次抽樣的diff波動定義為抽樣誤差(sampling error),它告訴我們樣本距離總體實際值有多遠;如何計算抽樣誤差,是根據(jù)極限定理推導的,后面會詳細介紹,這里可簡單記為如果樣本大小為n,則抽樣誤差可近似為1/sqrt(n);
3)實驗數(shù)據(jù):通過實驗組(ecperimental group)和對照組(control group)確認某些變量是否起作用;多個變量同時研究的“拉丁方設計”,由Fisher發(fā)明,沒錯,就是Fisher分類器的R.A.Fisher;
?
(R.A.Fisher英國著名統(tǒng)計學習、生物學家和遺傳學家,現(xiàn)代數(shù)理統(tǒng)計學和推斷統(tǒng)計學奠基人,數(shù)理遺傳學創(chuàng)始人,提出最大似然用于假設檢驗,引領統(tǒng)計學從“描述統(tǒng)計學”發(fā)展到“推斷統(tǒng)計學”,這一段發(fā)展過渡階段被成為Fisher時代。http://jpkc.njmu.edu.cn/course/tongjixue/file/jxzy/tjmj02.htm)
拉丁方設計:http://image.sciencenet.cn/olddata/kexue.com.cn/upload/blog/file/2009/9/2009912152943720.pdf
?
轉(zhuǎn)載于:https://www.cnblogs.com/sunjerdege/p/3391360.html
總結(jié)
- 上一篇: mysql dbutil_通过dbuti
- 下一篇: 【转】学会这13个原则写UI界面文案,用