當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Deseq2的理论基础

發布時間：2025/4/14 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 Deseq2的理论基础小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Deseq2的理論基礎

原文：Moderated estimation of fold change and dispersion for RNA-seq data with Deseq2 by Love, Anders and Huber 2014

這是對Deseq的延申，簡單總結一下這個模型的統計方法。

模型
Number of reads in sample $j$ that are assigned to gene $i$ 記為 $K_{ij}$ ，假設
$Kij～NB(μij,αi),i=1,?,n,j=1,?,mμij=sjqij,log?qij=∑r=1pxjrβirK_{ij} \sim NB(\mu_{ij},\alpha_{i}),i=1,\cdots,n,j=1,\cdots,m \\ \mu_{ij}=s_{j}q_{ij},\log q_{ij}=\sum_{r=1}^p x_{jr}\beta_{ir}$

其中 $s, q$ 的含義與Deseq中 $s, q$ 的含義相同， $x_{jr}]$ 為design matrix， $[βir][\beta_{ir}]$ 是系數矩陣， $αi\alpha_{i}$ 是dispersion parameter，
$Var[Kij]=μij+αiμij2Var[K_{ij}]=\mu_{ij}+\alpha_i\mu_{ij}^2$

$αi\alpha_i$ 越接近0， $K_{ij}$ 的方差越接近均值， $s_j$ 作為size factor，用與Deseq中一樣的方法確定 $sj=medianikij(∏v=1mkiv)1ms_j = \text{median}_i \frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}$

Inference on Dispersion
假設dispersion的先驗為 $log?αi～N(log?αtr(μˉi),σd2)\log \alpha_i \sim N(\log \alpha_{tr}(\bar \mu_i),\sigma_d^2)$ ， $μˉi=1m∑jKijsj\bar \mu_i=\frac{1}{m}\sum_j\frac{K_{ij}}{s_j}$ ， $αtr(μˉ)=a1μˉ+α0\alpha_{tr}(\bar \mu)=\frac{a_1}{\bar \mu}+\alpha_0$ ，dispersion估計分為三步：

估計gene-wise dispersion

αigw\alpha_i^{gw}

, 用MLE估計，

αigw=arg?max?αlCR(α)\alpha_i^{gw}=\argmax_{\alpha}\ l_{CR}(\alpha)

，其中

l_{CR}

代表用了Cox-Reid Adjustment的對數似然，

αigw=arg?max?α∑j=1mlog?fNB(Kij;μij,αi)?12log?det?(XTWX)?cox-Reid?Bias?AdjustmentW=diag(11μi1+αi,?,11μim+αi)\alpha_i^{gw}=\argmax_{\alpha} \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)-\underbrace{\frac{1}{2}\log \det (X^TWX)}_{\text{cox-Reid\ Bias\ Adjustment}} \\ W=\text{diag}\left( \frac{1}{\frac{1}{\mu_{i1}}+\alpha_i},\cdots, \frac{1}{\frac{1}{\mu_{im}}+\alpha_i} \right)

擬合dispersion trend

αtr\alpha_{tr}

: gamma-family GLM of

αigw\alpha_i^{gw}

μˉi\bar \mu_i

to get estimations of

a_1

and

α0\alpha_0

結合似然與trend prior得到dipersion的MAP估計，

αiMAP=arg?max?α[lCR(α)+Λi(α)?log-Normal?prior]Λi(α)=?(log?α?log?αtr(μˉi))22σd2σd2=max?(0.25,slr2?ψ1(m?p2)),slr=madi(log?αigw?log?αtr(μˉi))\alpha_i^{MAP}=\argmax_{\alpha}[ l_{CR}(\alpha)+\underbrace{\Lambda_i(\alpha)}_{\text{log-Normal\ prior}}] \\ \Lambda_i(\alpha) = \frac{-(\log \alpha-\log \alpha_{tr}(\bar \mu_i))^2}{2\sigma_d^2} \\ \sigma_d^2 = \max(0.25,s_{lr}^2-\psi_1(\frac{m-p}{2})),s_{lr}=\text{mad}_i(\log \alpha_i^{gw}-\log \alpha_{tr}(\bar \mu_i))

其中

ψ1\psi_1

是trigamma function，mad表示median absolute deviation，

s_{lr}

為standard logrithm residual，如果

log?αigw>log?αtr(μˉi)+2slr\log \alpha_i^{gw}>\log \alpha_{tr}(\bar \mu_i)+2s_{lr}

，則認為基因

i

是一個dispersion outlier。

Fold change (系數 $βir\beta_{ir}$ 代表fold change)
假設系數的先驗為 $βir～N(0,σr2)\beta_{ir} \sim N(0,\sigma_r^2)$ ，用empirical method確定 $σr=Q∣βr∣(1?p)QN(1?p/2)\sigma_r=\frac{Q_{|\beta_r|}(1-p)}{Q_N(1-p/2)}$ 原文默認值 $p = 0.05$ ， $Q_N(1-p/2)$ 代表標準正態分布的 $1 ? p / 2$ 上分位點， $Q∣βr∣Q_{|\beta_r|}$ 代表 ${β^irMLE}\{\hat \beta_{ir}^{MLE}\}$ 的 $1 ? p$ empirical quantile，其中 $β^irMLE\hat \beta_{ir}^{MLE}$ 可以由最開始的模型用IRLS得到。系數的MAP為
$β?i=arg?max?β?[∑j=1mlog?fNB(Kij;μij,αi)+Λ(β?)]\vec \beta_i = \argmax_{\vec \beta} \left[ \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)+\Lambda(\vec \beta) \right]$

其中
$μij=sje∑r=1pxjrβir,Λ(β?)=?∑r=1pβir22σr2\mu_{ij}=s_{j}e^{\sum_{r=1}^p x_{jr}\beta_{ir}},\Lambda(\vec \beta)=-\sum_{r=1}^p \frac{\beta_{ir}^2}{2\sigma_r^2}$

使用IRLS計算，迭代方程為
$β?i←(XTWX+λ?I)?1XTWz?λ?r=1σr2,zj=log?μijsj+Kij?μijμij\vec \beta_i \leftarrow (X^TWX+\vec \lambda I)^{-1}X^TW\vec z \\ \vec \lambda_r = \frac{1}{\sigma_r^2},z_j=\log \frac{\mu_{ij}}{s_j}+\frac{K_{ij}-\mu_{ij}}{\mu_{ij}}$

從迭代方程可以看出，與標準的IRLS不同，這里的迭代方程盡管也有WLS的形式，但由于系數有一個正態先驗，所以 $(XTWX+λ?I)?1(X^TWX+\vec \lambda I)^{-1}$ 繼承了ridge regression的特點，因此最后得到的估計量與標準IRLS估計相比會有fractional shrinkage。

總結

以上是生活随笔為你收集整理的Deseq2的理论基础的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

理论基础

上一篇： Deseq的理论基础
下一篇： UA OPTI544 量子光学7 2-l