大数据统计分析毕业设计_大数据分析与传统统计分析的区别
大數據分析與傳統統計分析的區別:其一是數據分析時不再進行抽樣,而是采用全樣本(n=all);其二是分析方法,不再采用傳統的假設檢驗。
一、統計方法:
大數據的應用,解決了一般統計方法上主要誤差來源:抽取樣本以及假設檢驗中使用的前提假設。
一般統計方法中依據的中值定理和大數定律闡明我們可以通過增大樣本容量,且多次抽取樣本使得結果更加精確,但這一結論成立的條件在于所有樣本的抽取滿足i.i.d.(independent and identically distributed,即假設變量分布獨立且相同),而這一假設在現實中很難滿足。樣本的選擇很難做到完全隨機。一般商業案例中采用的隔多少位抽取樣本的方法在統計學意義上不滿足隨機要求,所得結果誤差在所難免。
類似,多大的樣本才算足夠大也存在爭議,而大數據直接采用全樣本(population)來進行分析可以消除這一部分造成的誤差。
二、分析方法:
傳統分析方法是對需要回答的問題作出一定的假設,例如教育背景對保險購買金額有影響,然后根據這一假設在所抽取的樣本上進行檢驗。而檢驗假設這一方法就充滿著現實數據不滿足的前提假設,比如最著名的正態分布。正態分布是一個很好的假設,因為它能簡化計算,而且通過對數據的各種變形,基本上也可以在一定置信區間內勉勉強強算為正態分布。
再次,假設檢驗的結果只能不否認原假設,并不能得出完全支持的結論。
但大數據的情況就不一樣。對大數據進行分析時,我們并不需要對問題提出假設,而是通過算法找出變量之間的相關度。以上例子中,如果教育背景和保險購買額這兩個變量間相關度高(e.g. 接近1),那么保險公司就應該更主要針對高教育背景的人推銷保險。
大數據的應用可以說是在減少人類處理數據時帶入的主觀假設的影響,而完全依靠數據間的相關性來闡述。而由于消除人為因素帶入的誤差,已經分析人員作出假設的限制(如果教育背景和保險購買額是相關的,而分析人員沒想到,那這個結論就不會被分析出來,這在實際案例中是很容易發生的),大數據的核心也就在于它能更充分的發掘數據的全部真實含義。
原文鏈接:
https://www.zhihu.com/question/23273263/answer/90758820
薦:
【中國風動漫】除了《哪吒》,這些良心國產動畫也應該被更多人知道!
聲明
來源:知乎,RAD極客會(ID:RAD_Geek_Club)推薦閱讀,不代表RAD極客會立場,轉載請注明,如涉及作品版權問題,請聯系我們刪除或做相關處理!
人工智能產業鏈聯盟
總結
以上是生活随笔為你收集整理的大数据统计分析毕业设计_大数据分析与传统统计分析的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 奥拉星2如何快速升级100级 奥拉星2快
- 下一篇: 去医院挂号的流程