拿了年终奖后,发现自己又拖后腿了?对不起,可能事实并没有那么糟糕...
全世界只有3.14 %?的人關注了
爆炸吧知識
不平凡的2020年早已過去了,打工人們已經跨過了2021年的門檻。2021年將會怎么樣,那只有到2021年結束后我們才會知道。
但我們的情緒常常毫無例外地會被“年終獎”這個關鍵詞所擾動,無論在什么時候,也無論是興奮的還是沮喪的。
當然土豪除外,因為他們不需要年終獎。?
?????
某聯招聘的《2020年白領年終獎調研報告》在2021年2月1日發布了。這是份直擊廣大人民群眾靈魂的報告,讓我們先看看其中的“2020年不同城市白領年終獎均值”Top35情況。
有沒有很扎心,有沒有感覺到“傷害性不強,侮辱性極大”!
對,沒錯,我知道我又屬于了那些拖后退的人之一。不說了,先去廁所里哭暈一會…
?????????????
但哭歸哭,暈歸暈,在擦干眼淚后,我仔細想了一想,然后弱弱地直接對自己說,它給我傳導了錯誤信息。也許我真的沒有那么差勁,而且怎么也得找個理由對我的父母、另一半、親朋好友好好解釋一番。
是的,“平均值”這個統計方法在有時候真的很是不靠譜(我真的不是在狡辯)。要知道在統計學中,計算“平均數“的方法可不僅僅只有”平均值“,還包括”中位數“和”眾數“。”平均值“、”中位數“和”眾數“都是對數據集中數據中心的度量,只不過計算方法和特質不一樣而已。
所謂平均值(這里是專指算術平均值,不是幾何平均值等其他計算方法),是將數據集中所有數據值的總和除以數據值的個數的方法,即設數據集中有一組n個數據{ x1,x2,…,xn},則其平均數。
例如,我所在的部門,我和我的同事一共9個屌絲,發了如下的年終獎{5萬,6萬, 6萬, 7萬, 8萬,9萬,8萬,10萬,11萬}(再一次申明,這是樣例數據,我們真的沒有發這么多),按照平均數公式計算則為
(5 + 6 +6 + 7 + 8 + 9 + 8 + 10 + 11) ÷ 9 = 7.778萬
那么這組打工人的平均年終獎圖形化的情況大概是這樣的:
?
當有某個熟人問我年終獎發了多少時,日常生活拮據的我為了防止被他借錢,只告訴了ta一個最小值。但ta一臉的憤怒,不屑地指出我是多么地不厚道。我只好又告訴那個平均數,ta還是繼續搖著頭。我咬咬牙,一不做二不休,無奈地說出了最高的那個年終獎錢數。這倒ta徹底地怒了:“據我所知應該至少是七位數吧,你這么的不真誠。”what?平均百萬的年終獎,為什么我才拿了6位數還沒到的鈔票,現在該輪到我憤怒了。
這是怎么回事?原來隔壁部門有一位大神級人物突然加入我們屌絲團隊,一起計算了平均值,那么效果就不一樣了。大神的年終獎為1000萬,按照最新的數據計算年終獎平均值則為
(5 + 6 +6 + 7 + 8 + 9 + 8 + 10 + 11 + 1000) ÷ 10= 107萬
?
哎喲喂,原來我們都是平均年終獎過百萬的人群了,這樣氣氛就不一樣了!
但這樣科學嗎?當然不科學!
這就是我們經常詬病的統計學“平均值陷阱”:我家年收入2萬,隔壁家年收入為3萬元,而對面別墅區一家的年收入是2995萬,大家一平均,全是年收入千萬的富裕家庭了。
平均值是人類數學智慧的結晶,要知道人類僅僅從“三只老虎“、”三棵樹“、”三座山“抽象出”3“這個數量就花費了幾十萬年(或上百萬年)的時間。平均值曾經破解了古代統計學上著名時間難題。
比如,據印度史詩《摩訶婆羅多》(Mahabharata)記載﹐在公元前四世紀,古印度部落首領帕納通過平均值估算了一棵尾避多伽(vibhitaka)果樹兩個枝干上的葉子和果實的數量。他的具體方法是先統計某一根樹枝上的葉子和果實的數量,然后乘以兩個樹干上的樹枝數。
帕納用這種方法計算的結果是那棵樹總共結了2095個水果和 50 000 000 片葉子。最后他發動了自己的族人,經過一個晚上的詳細統計,發現他的平均值估算結果與真實情況非常接近。
但在很多場景下,平均值對數據集的集中性進行考量是有問題的,特別在一組統計樣本中出現了極端數值的時候。
于是,由于平均值在現實世界中各種問題,所謂數量統計學中的“中位數”計算就漸漸浮出水面了。
人類最早有文本記錄的“中位數”出現在大航海時代的1599年,航海家愛德華·賴特在他所著的一本關于航海的書模糊地提到了“中位數”。
愛德華·賴特繪制的航海圖(1599-1600)
在變化無常的海浪中,愛德華·賴特和他的同事需要使用各類測量儀器在大海上進行導航和定位。通過長期對航海數據(例如方位和距離等)觀測、記錄和分析,他發現最中間的測量數據是最有可能是接近描述真相的測量結果。但從賴特的那本書來看,他是否真的發現中位數還不確定。
人類社會進化到科學爆炸式的十九世紀。在整個十九世紀,很多科學家因為不同的理由使用了中位數作為平均值的替代計算。
1874年,德國心里物理學家費希納(Gustav TheodorFechner,1801年4月19日-1887年11月18日)使用了中位數試圖描述許多社會學和心理學現象。這種統計學的研究方法之前在天文學中被證明是有用的。于是,費大神主張用中位數去度量不規則的非對稱數據中心位置。
1882年,現代數理統計的奠基人、英國維多利亞時期百科全書式的科學家、探險家高爾頓(FrancisGalton,1822年2月16日-1911年1月17日)第一次使用英語術語“中位數(Median)”,正式開啟了對這一統計概念的認知。高爾登通過對大量的數據進行歸納分析,發現中位數很重要,因為它易于計算,并且表達直觀清晰又準確。于是,高爾頓的精心設計,在1889年公布了較為復雜的四分位數法來表達中位數。
所謂的四分位數就是把數據集中的數據按數值大小長序排列后,分成4個部分,每個部分包括全部數據的四分之一即25%。每個部分劃分的臨界值就是所謂的四分位數。就像一個線段需要三點把它分為四段,四分位數有三個,分別是下四分位數、中位數和上四分位數,用Q1、Q2、Q3來表示。
設數據集中有序數據的個數為n,則Q1、Q2、Q3的位置計算公式為:
a
例如,使用上面用Q1、Q2、Q3三個公式對7個有序數值的數據集{2, 4, 4, 5, 6, 7, 8}進行四分位數計算則有:
不過,盡管有古諾(Antoine Augustin Cournot,1801年8月28日-1877年3月31日)、費希納、高爾頓等大佬們的力挺,但在19世紀,“中位數“大多被科學家所忽視,而用平均數度量去數據的趨勢則被普遍看好。
到20世紀,中位數越來越多應用于順序數據的分析統計,因為使用平均值分析存在極端數據的數據集是存在很多缺點的。中位數比較平均值來說,分析大數據的中心趨勢更加穩健(1953年,統計學界開始使用術語“穩健”來表示統計方法對異常值的不敏感性)。
隨著21世紀大數據時代的到來,統計應用于越來越多的不規則數據的領域,統計方法的應用越來越廣泛,而中位數已經變得越來越流行。
當然現在的中位數計算方法比高爾頓朝代要更加完整了。
其具體計算方法為:對于一組升序排列(從小到大)的數據集{},有中位數計算公式為:
?
例如,對于一個有n=15(奇數)個數據的數據集{3, 13,7, 5, 21, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29},根據以上公式計算中位數則有:
例如,對于有n=14(偶數)個數據的數據集{3, 5,7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56},根據以上公式計算中位數則有:
回到上面那個9個打工人再加一個大佬年終獎問題{5萬,6萬, 6萬, 7萬, 8萬,9萬,8萬,10萬,11萬,1000萬},排序后為{5萬,6萬, 6萬, 7萬, 8萬,8萬,9萬,10萬,11萬,1000萬},用中位值對其進行“平均數”的計算,則有
圖形化分析結果為:
?
而所謂的“眾數”就是一組數據中出現次數最多的數值(可能為零個、一個或多個),這個概念比較簡單,比如數據集{1,2,3,3,4,5,6}的“眾數”為3,而上面這個年終獎的例子中“眾數”應為6萬和8萬。
因此,摒棄不靠譜的年終獎“平均值“107萬,用”中位數“8萬來考量所有樣本年終獎情況。
如果能夠這樣公布年終獎的中位數,大家心里就會舒坦多了,不再淚流如河。
對于我們打工人來說,要時刻記住打工人的那句語錄“生活中有80%的痛苦來源于打工,但不打工就會有100%的痛苦來源于沒錢。”無論如何,我們還是要在2021年繼續努力的,該搬磚的還得繼續搬磚,雖然它已經只剩下不到十個月了。
最后,打工人已經開始了新的一年打工生涯。無論有沒有年終獎,有多少年終獎,打工人們日子還是繼續的!如果仍有人對你嘰嘰歪歪,那么你就把篇文章發到ta的眼前,然后請ta好好地認真讀一遍,并且告訴ta在數據統計中種種陷阱里,有許多看似客觀的數據分析隱藏著諸多不易察覺的謊言。
寫在最后
用數學理解世間萬物,用理性思維尋找解決問題的新角度。所以,超模君為大家準備了《數學之旅》!
在娛樂的同時,通俗易懂的感受數學之美,做到真正的寓教于樂!你還在等什么?趕緊開啟你的數學之旅吧!
《數學之旅 ·?閃耀人類的54位數學家》
?數學藝術禮盒
指導價219
新春價139
只需再+19元
買就送數理文化“鼠標墊”
預購從速!!!
(點擊小程序,即可購買)
作者簡介:晨星,湖北武漢人,副高職稱,理學博士,高級程序員,IAMG(國際數學地質協會)會員,省級醫學人工智能與大數據專委會委員。
本文系網易新聞·網易號“各有態度”特色內容
轉載請在公眾號中,回復“轉載”
參考文獻:
智聯招聘.《2020年白領年終獎調研報告》. 2021
StephenM. The history ofstatistics : the measurement of uncertainty before 1900[M]. Belknap Press ofHarvard University Press, 1987.
Plackett R L . Studies in theHistory of Probability and Statistics: VII. The Principle of the ArithmeticMean[J]. Biometrika(1-2):130-135.
Porter T M . The Rise of StatisticalThinking, 1820–1900[M]. 2020.
超模君每周分享來襲
????????????
“整整600頁!國家奧數教頭主編教材”
掃描上方二維碼
回復“600”領取資料全文
總結
以上是生活随笔為你收集整理的拿了年终奖后,发现自己又拖后腿了?对不起,可能事实并没有那么糟糕...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最懂男人心的内裤,戳100个洞透气,超舒
- 下一篇: 需要多快的速度,才能在抽走桌布之后保持桌