日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

单个基因集富集分析泡泡图绘制

發布時間:2025/3/15 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 单个基因集富集分析泡泡图绘制 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

富集分析是生物信息分析中快速了解目標基因或目標區域功能傾向性的最重要方法之一。其中代表性的計算方式有兩種:

一是基于篩選的差異基因,采用超幾何檢驗判斷上調或下調基因在哪些GO或KEGG或其它定義的通路富集。假設背景基因數目為t,背景基因中某一通路pathway中注釋的基因有m個;上調基因有k個,上調基因中落于通路pathway的數目為q。簡單來講就是比較q/k是否顯著高于m/t,即上調基因中落在通路pathway的比例是否高于背景基因在這一通路的比例。(實際計算時,是算的odds ratio的差異,q/(k-q) vs (m-q)/(t-k-m+q))。這就是常說的GO富集分析或KEGG富集分析,可以做的工具很多,GOEAST是其中一個最好用的在線功能富集分析工具,數據庫更新實時,操作簡單,并且可以直接用之前介紹的方法繪制DotPlot。

另一種方式是不硬篩選差異基因,而是對其根據表達量或與表型的相關度排序,然后判斷對應的基因集是否傾向于落在有序列表的頂部或底部,從而判斷基因集合對表型差異的影響和篩選有影響的基因子集。這叫GSEA富集分析,注釋信息可以是GO,KEGG,也可以是其它任何符合格式的信息。GSEA富集分析 - 界面操作詳細講述了GSEA分析的原理、可視化操作和結果解讀。

具體原理解釋見我們在B站的免費視頻:易生信轉錄組高級課程系列節選

GOEAST結果繪制富集分析泡泡圖?

單個基因集富集結果展示?

在去東方,最好用的在線GO富集分析工具一文中介紹了一款高引用、操作簡單、數據庫每周同步更新的在線富集工具GOEAST,很受好評。美中不足的是,這個工具不能輸出泡泡圖。下面我們展示下如何用GOEAST輸出的富集結果表格自行篩選條目繪制富集分析泡泡圖。

GOEAST輸出的表格內容如下 (geneIDs ? ?symbols 列內容較長,此處沒用到,故未展示):

GOID Ontology Term Level q m t k log_odds_ratio p GO:0006730 biological_process one-carbon metabolic process 4 34 57 45240 13378 1.012309306 0.001481151 GO:0007154 biological_process cell communication 2 2169 6843 45240 13378 0.100137585 0.007326261 GO:0007165 biological_process signal transduction 5 1955 6136 45240 13378 0.107606604 0.006325629 GO:0023052 biological_process signaling 1 2100 6613 45240 13378 0.102820905 0.006590727 GO:0044700 biological_process single organism signaling 2 2100 6613 45240 13378 0.102820905 0.006590727 GO:0050896 biological_process response to stimulus 1 3251 10438 45240 13378 0.074846633 0.012472089 GO:0005515 molecular_function protein binding 1 3299 10399 45240 13378 0.101392361 3.32E-05 GO:0005794 cellular_component Golgi apparatus 6 611 1835 45240 13378 0.171200701 0.057432963 GO:0012505 cellular_component endomembrane system 2 1521 4648 45240 13378 0.146146563 0.000353056 GO:0071944 cellular_component cell periphery 2 2059 6559 45240 13378 0.086204434 0.065663723

我們先看下其中幾列的含義是什么:

  • q: 用于分析的基因集中匹配到該通路的基因數目

  • m: 背景基因集中落在該通路的基因數目

  • t: 背景基因集中總的基因數目

  • k: 用于分析的基因集中總的基因數目

  • p: 富集顯著性值(FDR,多重假設檢驗校正后的p-value)

  • log_odds_ratio: 富集比,具體見上面基礎部分

富集分析泡泡圖實際是一種散點圖,這個圖怎么繪制需要我們先理解這個圖每一部分的含義。理解了圖,剩下的就是把對應列的信息賦值到圖上。

我們先把數據導入平臺http://www.ehbio.com/Cloud_Platform/front/#/analysis?page=b%27MTA%3D%27,

選擇一些參數,體會下它們在圖上的體現和意義。

然后選擇參數

  • log_odds_ratio列作為橫軸(X-axis)信息

  • Term列作為縱軸(Y-axis)信息

這兩列就確定了點的分布,下面三個參數是給點的屬性賦值

  • 統計顯著性p列作為Color variable,給每個點根據數值大小進行上色,從顏色上區分富集顯著性

  • q列用于設置點的大小Point size variable,點越大表示目標基因集中落在對應通路的基因越多

  • Neg log10 transform variable是指定哪個變量進行對數轉換,這是可選參數,但通常我們會對p-value列做這個轉換。

    轉換后越小的p-value值就會變得越大

提交后,獲得結果圖如下:

圖中每個點代表一個富集的條目,在Y軸有對應標記。這些條目按其log_odds_ratio的值排序后展示,log_odds_ratio高的條目在Y軸上方展示;每個點的大小代表用于分析的基因集中匹配到該通路的基因數目,顏色代表富集程度。

但這個圖中,點的大小有些太分散,顏色是綠色飽和度越高表示富集越顯著,可能跟常規認知不同。修改兩個參數:

  • Variable for be transformed in square root way選擇q,通過平方根降低數據之間的差距

  • 設置顏色 Manual color vector (color set)為OrRd

獲得結果如下

往期精品(點擊圖片直達文字對應教程)

機器學習

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

總結

以上是生活随笔為你收集整理的单个基因集富集分析泡泡图绘制的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。