生信识图之 点图进阶-3(MA)
各位親愛的土豪富婆,承蒙您慧眼識珠大駕光臨大Y老師為您準備的小灶課堂。
-----以下是日常碎碎念,日理萬機的您,可以直接跳到圖圖圖圖分割線享用-----
? ? ? ? 對于“詐尸式”更新,大Y老師其實是很不贊同的,尤其是收到土豪富婆的問 (cui) 候 (geng),每天在心頭惦念我粉百千次,卻騰不出手來更新的時候。本來按計劃呢,這一期我們應當繼續(xù)PCA的進階,不過,既然這位大牛兄弟提出來要講一講MA,你們猜寵粉狂魔大Y老師會作何選擇呢?大Y老師真的很高興看到有人主動提出想要了解的圖,相信這位朋友一定是一位積極又努力的優(yōu)秀牛。大Y老師也一如既往地歡迎大家發(fā)私信。
? ? ? ? ? 至于為什么隔了這么久,大Y老師還是有必要解釋一下。近期在申請幾個級別較高的基金,占用了包括吃飯睡覺在內(nèi)的所有時間,沒能快點加更,還請各位大牛海涵(手動抱拳)。說起來,有機會的話,寫一些申請書撰寫的小技巧,不知大家可有興趣?
? ? ? ? ? 上次我們聊到了婚姻,正巧就出臺了一項未婚已育婦女可辦理生育津貼的新政。關于婚姻的內(nèi)核,大Y老師與朋友展開了坦率的交流,也寫了很大一段文字想與大家分享。不過可能不夠zzzq,還是決定不發(fā)出來了。對于中國來說,隨著經(jīng)濟的發(fā)展,私有化財產(chǎn)的增加,每個個體更加獨立,思想也必然更加多元化。80、90后尚且存在“男大當婚、女大當嫁”的思維慣性,00、10、20后以后會怎么看待婚姻制度,怎么選擇自己的生活方式,還真是一個未知數(shù)啊。
? ? ? ? ? 從生物學的角度,結婚不屬于人類本能。婚姻制度是人類社會生活的選擇,是一個非常法律化、物質(zhì)化、現(xiàn)實化的框架形式。從法律層面看,你會發(fā)現(xiàn),婚姻里面所有的東西都有價格,除了愛情。為什么有人說婚姻是愛情的墳墓?相對于婚姻的極度現(xiàn)實,愛情極度形而上。愛情完全是精神層面的感受,沒有辦法用任何法律、物質(zhì)、現(xiàn)實的載體來衡量。愛情和婚姻的矛盾沖突在婚禮現(xiàn)場達到第一個巔峰。假如你是個愿意留意觀察人性的人,就有機會看到,臺上山盟海誓的情侶,轉(zhuǎn)眼可能因為禮金分配大鬧脾氣,象征純潔愛情的信物,最終一定要比一比克拉大小。這種強烈對比又矛盾統(tǒng)一的狀態(tài),讓大Y老師愿意揣著禮金,奔波于不同婚宴,并樂此不疲。人性是復雜的,觀摩人性是個高深又刺激的課題(大Y老師注,觀摩人性可以,但不要考驗啊,考驗人性是必輸無疑的)。
? ? ? ? 和結婚不同,追求愛情是人類的本能,愛情是人類的情感需求之一。如果做個類比的話,對于很多人來說,親情就像空氣,與生俱來,以至于常常忘記它的存在;友情嘛,像文憑,別管你用什么途徑,只要想辦法努努力,總能擁有幾個,只是含金量會有區(qū)別;愛情呢,像奢侈品,擺在櫥窗里閃閃發(fā)光,讓每個人心生向往,但真的不是誰都可以擁有,然后就,滿大街都是A貨。
? ? ? ?那么,有什么辦法可以獲得真愛嗎?看好了,大Y老師告訴你兩點干貨,第一你得真信愛情,第二,你得向內(nèi)求。可能有朋友就要質(zhì)疑了,說我向外追求男神女神都來不及呢,我向內(nèi)能求到啥呢?你先自己琢磨琢磨,這期碎碎念太多了,下期碎碎念,大Y老師告訴你。
好啦,下面我們就要開始今天的識圖之旅啦。老規(guī)矩,請大家先一起喝一口水,因為下面的內(nèi)容可是全網(wǎng)獨家干貨,真的超干~
?
-----我是圖圖圖圖的分割線-----
?
【第一回合】
? ? ? MA(Minus-versus-Add)plot圖還有好幾個別稱,這側(cè)面說明,它的名字其實沒有特別的意義。為什么需要MA plot呢?
? ? ? 有時候,人們需要通過點圖呈現(xiàn)a, b兩組變量在多個因素(比如很多基因表達量)上數(shù)值的比較。最直接的就是用這兩組數(shù)值分別作為橫縱坐標畫圖,當兩組毫無差異的時候,數(shù)值會全部落在45度斜線上。偏離這條斜線越遠,則兩組差異越大。但是并非所有人都像王濛一樣,眼睛就是尺,當點比較多(如基因比較多)的時候,人很難通過一條斜線來衡量兩組數(shù)值的關系,尤其很難比較不同點之間,兩組到底在哪個點上差異更大。顯然這樣一個依賴于45度斜線的散點圖并不能直觀地承載有效信息。于是統(tǒng)計學家想到,可不可以通過某種轉(zhuǎn)換,讓這條45度斜線變成一條水平線,那么哪個點偏離了這條線,就一目了然了。轉(zhuǎn)換后的X軸是兩組數(shù)值的均值,即(a+b)2,Y軸是兩組的差值,即b-a,一個是add,一個是minus,這就是MA(Minus-versus-Add)plot了。MA plot在早期microarray(芯片轉(zhuǎn)錄組測序)數(shù)據(jù)分析中會被使用,比如下圖:
F1000Res,2016
? ? ? ?XY軸都是通過轉(zhuǎn)換計算的,不過不管怎么轉(zhuǎn)換,只要是點圖,就符合大Y老師所講的必要元素,讓我們快速復習一下點圖基礎,然后一起解讀MA plot。
? ? ? ?MA plot的X軸是兩組均值。由于眾所周知的原因(聰明的你可以回憶一下上上期火山圖的內(nèi)容哦),基因表達量數(shù)值范圍很大,不適合直接用實際值來畫圖,所以一般取的是log處理后的,表達量取值呢,CPM、TPM、FPKM,各種標化后的表達量任君選擇。Y軸則是兩組log處理表達量的差值。讓我們來一起回憶一下高中的數(shù)學內(nèi)容,log(b) – log(a) = log(b/a),這不是巧了嗎這不是,剛好是logFC(聰明的你可以回憶一下上上期火山圖的內(nèi)容哦)。明確了X和Y軸的來歷,咱們就可以輕松地解讀MA plot啦。當一個點(即一個基因)的Y值是0,說明它在兩組間沒有差別,當它X軸數(shù)值越大,說明它在兩組的均值越大。那么,當一個點的X軸數(shù)值很大,Y軸絕對值也很大的時候,就說明它是那種平均表達量高,組間差別還很大的基因,意味著這個基因一定在其中一組有著驚人的表達量。反過來,如果它Y軸絕對值很大,但是X軸數(shù)值很小,說明它很有可能是小量表達的基因,微量的變化帶來較大的倍數(shù)波動。再進一步,聰明的你一定想得到,大部分Y軸絕對值大的點其實會集中在X軸數(shù)值居中的部位,所以大部分MA plot是沿X軸流線型或三角形分布的。
? ? ? 當然了,跟火山圖類似的,MA plot也可以增加許多補充元素,點的顏色、大小、基因標簽等等,讓圖形更加豐富飽滿。
【第二回合】
? ? ? ?后來,隨著bulk RNA-seq越來越普及,人們發(fā)現(xiàn),未必平均表達量高的基因作用就更大,所以呈現(xiàn)差異基因的時候,MA plot的X軸可能幫不到什么忙。因而,現(xiàn)在MA plot已經(jīng)很少用來呈現(xiàn)差異基因了,更多研究選擇了火山圖和熱圖組合的形式。不過,正是因為可以同時呈現(xiàn)平均表達量和變化量,在質(zhì)控結果呈現(xiàn)部分,MA plot混得倒是風生水起。一方面,可以直觀展示數(shù)據(jù)測序質(zhì)量。比如,如果大部分點的X軸數(shù)值都接近于0,說明基因表達量普遍偏低,可能測序深度不夠,或者文庫質(zhì)量不好。另一方面,在RNA-seq數(shù)據(jù)的分析中,不僅需要進行標準化,還需要通過算法對數(shù)據(jù)進行降噪校正,去掉干擾信號。校正后的數(shù)據(jù),其組間差異總體上應該較為平均地分布在Y=0兩側(cè),也就是說,所有的點整體上看起來水平懸浮。但是,如果結果顯示出這些點整體跑偏,中線嚴重偏離了Y=0,甚至形成了弧形,則說明校正方法可能不太適宜。
?
Abel Symposia 2016
?
? ? ? ? 怎么樣,了解了MA plot的前世今生,對于看懂點圖是不是更有信心啦?支持大家多多轉(zhuǎn)發(fā),讓更多的大牛們從苦學代碼中解脫,也歡迎給大Y老師私信聊聊你的想法。關于點圖,關于愛情,我們下期再聊。
? ? ? ? ?歡迎大家關注“生信識圖”公眾號(shengxinshitu),別忘了點擊右上角的 ··· 加星標哦,不然后面的精彩推送無法顯示(大Y老師也不太理解為什么公眾號有這樣的設計,請大家包涵啊,手動抱拳)。
? ? ? ? 熱烈歡迎獨一無二的你分享在生信學習中的感想、困擾和樂趣。如果你在閱讀文獻、圖形設計或者戀愛交友、吃喝玩樂方面需要任何咨詢,也歡迎給大Y老師私信(評論會看不到,大Y老師也不太理解為什么公眾號有這樣的設計,請大家包涵啊,手動抱拳),大Y老師最喜歡聊天,期待看到你的消息!
?
?
總結
以上是生活随笔為你收集整理的生信识图之 点图进阶-3(MA)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DAGAGUARD追加归档方式迁移到ra
- 下一篇: C语言及如何学