日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

Data - 深入浅出学统计 - 上篇

發(fā)布時(shí)間:2023/11/27 生活经验 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Data - 深入浅出学统计 - 上篇 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文是已讀書(shū)籍的內(nèi)容摘要,少部分有輕微改動(dòng),但不影響原文表達(dá)。

:以漫畫(huà)形式來(lái)講解最基本的統(tǒng)計(jì)概念和方法。

  • ISBN: 9787121299636
  • https://book.douban.com/subject/26906845/

引言:統(tǒng)計(jì)無(wú)處不在

統(tǒng)計(jì)值無(wú)處不在。我們伴隨著統(tǒng)計(jì)值出生,離開(kāi)后也會(huì)化為統(tǒng)計(jì)值。
統(tǒng)計(jì)幫助我們把握重要事件的大量數(shù)據(jù)。進(jìn)而幫助我們更好地理解這個(gè)千變?nèi)f化的世界,并操縱世界。

統(tǒng)計(jì)的真正力量更為特別,統(tǒng)計(jì)幫助我們?cè)谛畔⒂邢薜那闆r下,做出充滿(mǎn)信心的決策。
我們總是希望能夠得到所有數(shù)據(jù),接著算出結(jié)果,但顯然這很難做到。
實(shí)際上,我們只能得到的有限的信息,但好在通過(guò)統(tǒng)計(jì)工具,能使用這些有限的信息,對(duì)所有的情況做出充滿(mǎn)信心的描述。

統(tǒng)計(jì)學(xué)是展示數(shù)據(jù)的工具,而不是解釋數(shù)據(jù)的工具。
也就是說(shuō),“統(tǒng)計(jì)”只是將隱藏在混雜的、撲朔迷離的數(shù)據(jù)中規(guī)律性信息,以一種方便解釋、易于理解的方式表達(dá)出來(lái),用來(lái)幫助人們做出判斷,而不是代替人們下判斷。

以下內(nèi)容主要講的就是統(tǒng)計(jì)學(xué)的基本問(wèn)題:如何通過(guò)樣本來(lái)充滿(mǎn)信心的描述整體。

  • 如何采集和調(diào)查樣本。
  • 如何通過(guò)樣本探索總體的各種特質(zhì)(統(tǒng)計(jì)推論過(guò)程:篩選數(shù)據(jù)、計(jì)算置信區(qū)間、進(jìn)行假設(shè)檢驗(yàn))

特別注意:可以通過(guò)統(tǒng)計(jì)進(jìn)行充滿(mǎn)信心的猜測(cè),但永遠(yuǎn)無(wú)法通過(guò)統(tǒng)計(jì)得出確定無(wú)疑的結(jié)果。

1 - 收集統(tǒng)計(jì)數(shù)據(jù)

1.1 - 數(shù)字

統(tǒng)計(jì)并不只關(guān)系到數(shù)字,而且也關(guān)系到我們的信心。
統(tǒng)計(jì)的確需要處理大量數(shù)字,而且處理起來(lái)并不是總是那么簡(jiǎn)單。

數(shù)字很容易被用于撒謊。這通常會(huì)讓人們對(duì)數(shù)字過(guò)度懷疑,從而忽略了數(shù)字的真正威力。
這要求我們?cè)谔幚砣魏螖?shù)字時(shí),都必須帶著適當(dāng)?shù)膽岩伞?br /> 不管拿到什么數(shù)字,都應(yīng)該問(wèn)這樣幾個(gè)問(wèn)題:

  • 你從哪里來(lái)?
  • 誰(shuí)導(dǎo)致你出現(xiàn)?
  • 為什么?

1.2 - 隨機(jī)原始數(shù)據(jù)

很多時(shí)候,我們都不可能清楚所有要了解的東西,只能通過(guò)研究樣本,進(jìn)而了解總體。

必須知曉的事實(shí):

  • 不可能通過(guò)樣本完全確定一個(gè)總體。統(tǒng)計(jì)指的是做出最佳猜測(cè),而絕非確鑿無(wú)疑的判斷。
  • 采集樣本犯下的任何錯(cuò)誤,都可能會(huì)徹底扭曲對(duì)較大總體的結(jié)論。

通過(guò)各種方法采集樣本觀(guān)測(cè)值,這個(gè)過(guò)程并不簡(jiǎn)單。
最大的挑戰(zhàn)可能在于要準(zhǔn)確地指出樣本中包含哪些內(nèi)容。目的是避免樣本出現(xiàn)偏差,因?yàn)槠羁赡軙?huì)導(dǎo)致我們曲解總體。
理想情況是,采集的樣本能正確反映總體。

通過(guò)隨機(jī)采集樣本來(lái)避免偏差。
實(shí)踐中。我們常常需要設(shè)想所有可能令樣本發(fā)生偏差的問(wèn)題,并確保這種問(wèn)題不會(huì)出現(xiàn)。
隨機(jī)樣本效果顯著的原因是,它表明我們抽取的任何一個(gè)樣本的可能性都和抽取任何其他樣本的可能性是一樣大的。
確保樣本必須正確是重中之重,因?yàn)殡S機(jī)抽樣是一切統(tǒng)計(jì)調(diào)查的關(guān)鍵。

1.3 - 排序

問(wèn)題的特性十分重要,因?yàn)槲覀兊奶釂?wèn)類(lèi)型決定我們最終得到的是類(lèi)別型數(shù)據(jù),還是數(shù)值型數(shù)據(jù)。
這兩種數(shù)據(jù)各自為政,根本差別:是否能夠?qū)ζ溥M(jìn)行數(shù)學(xué)運(yùn)算。

在下列情況下采集類(lèi)別數(shù)據(jù):

  • 在研究只用文字就能描述的特性時(shí)
  • 在能夠用“是”或“否”回答問(wèn)題時(shí)

在下列情況下采集數(shù)值型數(shù)據(jù):

  • 在研究可以用數(shù)字進(jìn)行比較的特性時(shí)

盡管可以通過(guò)類(lèi)別數(shù)據(jù)來(lái)了解樣本的構(gòu)成比例,但總得來(lái)說(shuō),數(shù)值型數(shù)據(jù)更為有用。
在采集到大量數(shù)值型數(shù)據(jù)后,首先要做的就是利用這些數(shù)據(jù)“畫(huà)圖”,也就是觀(guān)察現(xiàn)有的數(shù)據(jù)。
簡(jiǎn)單的圖形能讓我們集中關(guān)注數(shù)據(jù)表達(dá)的確切意義。

  • 直方圖:最基本的數(shù)值型數(shù)據(jù)圖形,可以對(duì)整個(gè)數(shù)據(jù)集進(jìn)行整體描述,包含精確的細(xì)節(jié)。
  • 箱線(xiàn)圖:希望了解數(shù)據(jù)的概要情況,或者希望對(duì)不同樣本和群組進(jìn)行比較時(shí),可以迅速了解數(shù)據(jù)的匯聚情況。

1.4 - 偵探工作

分析數(shù)據(jù)就像解謎一樣,最終目的是從一個(gè)隨機(jī)樣本中收集證據(jù)。然后用這些證據(jù)形成對(duì)總體的描述。

首先需要學(xué)習(xí)如何做一些基本的偵探工作。
當(dāng)開(kāi)始動(dòng)手調(diào)查任何一批數(shù)據(jù)時(shí),總是觀(guān)察四個(gè)主要特性:大小。形狀,位置。分散性。

大小

一般說(shuō)來(lái),樣本越大,結(jié)果越好。
樣本大小會(huì)直接關(guān)系到,對(duì)一個(gè)總體可以具有的置信水平。
但在實(shí)際工作中,樣本大小總會(huì)受到某種限制。

形狀

每一個(gè)樣本的形狀都是獨(dú)一無(wú)二的。
無(wú)論數(shù)據(jù)匯聚成什么形狀,總是有其原因的。

  • 當(dāng)所有可能結(jié)果都比較相似時(shí),可以稱(chēng)這堆數(shù)據(jù)是平的。
  • 當(dāng)一批數(shù)據(jù)因?yàn)槟撤N原因圍繞一個(gè)特定數(shù)據(jù)聚集在一起。那么可以說(shuō)這批數(shù)據(jù)是正態(tài)。
  • 當(dāng)一批數(shù)據(jù)由于某種原因,在一個(gè)方向上的尾部比另一個(gè)方向的尾部延伸的更長(zhǎng)。那么可以說(shuō)這些數(shù)據(jù)是偏斜的。

位置

位置是對(duì)一批數(shù)據(jù)在一個(gè)數(shù)軸上落點(diǎn)的量度,簡(jiǎn)而言之就是數(shù)據(jù)聚集的地方。
通??捎靡粋€(gè)數(shù)字來(lái)描述位置:平均數(shù)。

盡管平均數(shù)在量度位置時(shí)很有用,很精確。卻并非完美。
平均數(shù)具有欺騙性。一批數(shù)據(jù)出現(xiàn)偏斜,平均數(shù)就會(huì)極具誤導(dǎo)性,此時(shí)中位數(shù)更能體現(xiàn)數(shù)據(jù)情況,能更好地描述典型值。

分散性

是對(duì)一批數(shù)據(jù)寬度的度量,也是對(duì)變性的度量。
分布越寬,變異越大。
測(cè)量分散性,一個(gè)簡(jiǎn)單明了的辦法是,算出全距:最大值與最小值的差值,然后分成四塊,每塊包含相同數(shù)目的數(shù)據(jù)點(diǎn),中間的兩塊被稱(chēng)為四分位距(IQR)。
利用全劇可以了解整個(gè)樣本的每一部分的變異性,尤其對(duì)于偏斜數(shù)據(jù)的調(diào)查研究特別有用。
分散性最常見(jiàn)度量方法是標(biāo)準(zhǔn)差(SD)。
范圍較寬的數(shù)據(jù)具有較大的標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)差越大,意味著變異越大。

1.5 - 怪異的錯(cuò)誤

特別注意:通過(guò)統(tǒng)計(jì)永遠(yuǎn)不能徹底證明任何結(jié)論。
發(fā)掘兩種變量之間的關(guān)系時(shí),往往一個(gè)潛在變量會(huì)影響結(jié)論,甚至將結(jié)論搞得面目全非。
潛在變量會(huì)給各種統(tǒng)計(jì)分析帶來(lái)麻煩。因此統(tǒng)計(jì)師的部分工作就是發(fā)現(xiàn)潛在變量。
如果不找出這種潛在變量,就會(huì)有“以假亂真”的風(fēng)險(xiǎn)。

1.6 - 樣本到總體

最終目標(biāo)是根據(jù)樣本。對(duì)總體做出充滿(mǎn)信心的描述。

將樣本數(shù)據(jù)堆積起來(lái)之后,形成的堆積圖形成為樣本直方圖,具有形狀、背景、分散性等一些重要特性。
把總體堆積起來(lái),所形成的圖形稱(chēng)為總體分布,同樣也具有形狀,位置,分散性的特征。

樣本的特性叫做“統(tǒng)計(jì)值”,是實(shí)際算出來(lái)的結(jié)果。
總體的特性叫做“參數(shù)”,是真正想知道的信息。

雖然無(wú)法直接觀(guān)察參數(shù),卻可以利用統(tǒng)計(jì)值去發(fā)掘參數(shù),盡管無(wú)法利用統(tǒng)計(jì)值得出確定的參數(shù)。

轉(zhuǎn)載于:https://www.cnblogs.com/anliven/p/11148937.html

總結(jié)

以上是生活随笔為你收集整理的Data - 深入浅出学统计 - 上篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。