當(dāng)前位置：首頁 >

【代谢组学】3.数据分析

發(fā)布時間：2024/1/3 52 生活家

生活随笔收集整理的這篇文章主要介紹了【代谢组学】3.数据分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄非靶向代謝組實驗設(shè)計數(shù)據(jù)分析流程1.數(shù)據(jù)預(yù)處理2.數(shù)據(jù)質(zhì)控3.統(tǒng)計分析

非靶向代謝組實驗設(shè)計

1.代謝物提取，一般要求每組至少10個樣；
2.在所有提取好的樣本中取等量混合作為QC；
3.QC樣本與實驗樣本穿插上機，開始十個QC，結(jié)尾三個QC，中間每十個樣本穿插一個QC樣本
。

得到質(zhì)譜譜圖數(shù)據(jù)經(jīng)軟件處理后得到峰表。
峰表格式一般為：每行為一個m/z，每列為一個樣本
數(shù)值表示該樣本中某個m/z的信號響應(yīng)。

第一列為保留時間_質(zhì)荷比來代表離子，如0.10_96.9574m/z。

數(shù)據(jù)分析流程

一般有如下幾點：
1.數(shù)據(jù)預(yù)處理。如缺失值過濾填充、數(shù)據(jù)歸一化等。
2.數(shù)據(jù)質(zhì)控。包括CV分布、QC等。
3.統(tǒng)計分析。包括單變量、多變量等。
4.功能分析。包括Pathway、網(wǎng)絡(luò)分析、Biomarker篩選等。

1.數(shù)據(jù)預(yù)處理

缺失值處理
1）缺失原因
a. 信號很低檢測不到；
b. 檢測錯誤，如離子抑制或者儀器性能不穩(wěn)定；
c. 提峰的算法限制，不能從背景中將低的信號提取出來；
d. 解卷積時不能將重疊的峰全部解析出來。

2）缺失值過濾
比如：
QC樣本中缺失超過50%的去除；
樣本中缺失值超過80%的去除。

3）缺失值填充
-- 最小值填充
-- 平均值/中值填充
-- KNN（k-nearest neighbour）填充
-- BPCA（Bayesian PCA）填充
-- PPCA（probabilistic PCA）填充
-- Singular Value Decomposition (SVD)
一般推薦KNN。

噪音信號去除
一般是低質(zhì)量的離子。
1）低質(zhì)量離子的確定：
計算某個離子在QC樣本中的RSD（標(biāo)準(zhǔn)差/均值）；其值越小，說明偏差越小；

2）判斷標(biāo)準(zhǔn)：
-- 對單個離子峰而言，RSD<0.3，則該離子峰合格，否則去除；
-- 對于整體數(shù)據(jù)而言，RSD<0.3，峰所占比例>60%，則整體數(shù)據(jù)合格；

樣本歸一化
目的是為了提高樣本間的可比性。
樣本間有差異性，如不同人的尿液濃度不同，不能直接拿來比較。

可在采集前歸一化，如肌酸酐歸一化；也可在采集后歸一化，如sum，pqn，quantile等。對于數(shù)據(jù)分析而言，通常是后者，如總和歸一化（sum）。

數(shù)據(jù)轉(zhuǎn)換
下游的分析一般要求數(shù)據(jù)為正態(tài)分布或者高斯分布；
所以數(shù)據(jù)通常要進(jìn)行Log轉(zhuǎn)化或power轉(zhuǎn)化，這兩者都能夠?qū)O大值的抑制效應(yīng)消除，并且能夠調(diào)整數(shù)據(jù)的分布，如下圖；

Log轉(zhuǎn)化對0值比較敏感，必須首先去除零值。

數(shù)據(jù)轉(zhuǎn)換——scaling
目的是消除極大值效應(yīng)。
對不同樣本中同一個m/z的強度差異過大進(jìn)行調(diào)整，極大值的存在往往會掩蓋較低值的變化特征。

可將某個m/z在所有樣本中的強度的值，除以一個因子（SD值）；
方法如auto (uv)，pareto（推薦），vast， range等。

相當(dāng)于上面樣本歸一化是為了樣本可比，scaling是為了離子可比。

2.數(shù)據(jù)質(zhì)控

QC樣本的TIC重疊情況

上圖分別是陰離子和陽離子模式下QC樣本的TIC重疊情況。

一般認(rèn)為：
所有的QC樣本峰重疊良好；
峰強度波動差別不大；

QC樣本中CV<30%的峰所占比例

PCA中QC樣本的聚集程度

QC樣本的相關(guān)性

上圖分別為歸一化前和歸一化后的數(shù)據(jù)。

3.統(tǒng)計分析

單變量分析
一次只分析一個變量，即一個m/z，考察不同組別不同樣本的這個m/z表達(dá)有無差異？
常見的方法有倍數(shù)分析，t檢驗，秩和檢驗，方差分析等。

聚類分析
核心思想就是根據(jù)具體的指標(biāo)(變量)對所研究的樣品進(jìn)行分類；
聚類分析需要設(shè)定一個方法來衡量樣本間的相似性或者不相似性（常用歐式距離，相關(guān)性系數(shù)等）；
常見聚類的方法：系統(tǒng)聚類（層次聚類）、K-均值聚類等。

K-均值首先要估計出將要分出幾個類，然后將全部的基因按照相似性的距離，歸入這幾類中。
K– means計算量要小得多，效率比層次聚類要高。

無論哪種分類方法，最終要分成多少類，并不是完全由方法本身來決定，研究者應(yīng)結(jié)合具體問題而定。
聚類分析是一種探索性的數(shù)據(jù)分析方法。相同的數(shù)據(jù)采用不同的分類方法，也會的得到不同的分類結(jié)果。分類的結(jié)果沒有對錯之分，只是分類標(biāo)準(zhǔn)不同。
使用聚類方法時，首先要明確分類的目的，再考慮選擇哪些變量(或數(shù)據(jù))參與分類，最后才需要考慮方法的選擇。

多變量分析
1）PCA分析
以下分別是得分圖（樣本在新的坐標(biāo)系中的位置
）和載荷圖(loading圖，原變量與主成分間的夾角)

PCA怎么看？

組內(nèi)差異
組間差異
異常樣本
PC1與PC2得分

2）偏最小二乘法
PLSDA的圖和PCA類似。只是一種監(jiān)督學(xué)習(xí)的方法，事先給樣本分類，最后看能否將不同組分開。

用R2和Q2進(jìn)行模型評價。
R2是相關(guān)性系數(shù)，表示這個模型的擬合效果，是一個定量的測量（范圍0-1），意味著所建立的模型能在多大程度上代表真實的數(shù)據(jù)；
一般當(dāng)R2在0.7-0.8表示模型解釋能力較好，較差的模型的R2往往為0.2-0.3

Q2表示PLS-DA模型的預(yù)測能力；
一般Q2大于0.5表示預(yù)測能力較好，并且R2與Q2的值應(yīng)該比較接近。

使用permutation test模型進(jìn)行過擬合檢驗。

VIP ( Variable Importance in Projection)變量重要性投影
每一個m/z都有VIP值，表示這個m/z在某一個主成分上的投影，即重要程度；
一般我們使用第一、第二主成分的VIP來表示這個m/z對模型分型的貢獻(xiàn)程度，VIP>=1被認(rèn)為是具有顯著貢獻(xiàn)的。

代謝組學(xué)數(shù)據(jù)分析最后兩部分內(nèi)容——功能分析和生物標(biāo)志物篩選見下節(jié)內(nèi)容

總結(jié)

以上是生活随笔為你收集整理的【代谢组学】3.数据分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

数据