日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Deseq2的理论基础

發布時間:2025/4/14 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Deseq2的理论基础 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Deseq2的理論基礎

原文:Moderated estimation of fold change and dispersion for RNA-seq data with Deseq2 by Love, Anders and Huber 2014

這是對Deseq的延申,簡單總結一下這個模型的統計方法。


模型
Number of reads in sample jjj that are assigned to gene iii記為KijK_{ij}Kij?,假設
Kij~NB(μij,αi),i=1,?,n,j=1,?,mμij=sjqij,log?qij=∑r=1pxjrβirK_{ij} \sim NB(\mu_{ij},\alpha_{i}),i=1,\cdots,n,j=1,\cdots,m \\ \mu_{ij}=s_{j}q_{ij},\log q_{ij}=\sum_{r=1}^p x_{jr}\beta_{ir}Kij?NB(μij?,αi?),i=1,?,n,j=1,?,mμij?=sj?qij?,logqij?=r=1p?xjr?βir?

其中s,qs,qs,q的含義與Deseq中s,qs,qs,q的含義相同,[xjr][x_{jr}][xjr?]為design matrix,[βir][\beta_{ir}][βir?]是系數矩陣,αi\alpha_{i}αi?是dispersion parameter,
Var[Kij]=μij+αiμij2Var[K_{ij}]=\mu_{ij}+\alpha_i\mu_{ij}^2Var[Kij?]=μij?+αi?μij2?

αi\alpha_iαi?越接近0,KijK_{ij}Kij?的方差越接近均值,sjs_jsj?作為size factor,用與Deseq中一樣的方法確定sj=medianikij(∏v=1mkiv)1ms_j = \text{median}_i \frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}sj?=mediani?(v=1m?kiv?)m1?kij??

Inference on Dispersion
假設dispersion的先驗為log?αi~N(log?αtr(μˉi),σd2)\log \alpha_i \sim N(\log \alpha_{tr}(\bar \mu_i),\sigma_d^2)logαi?N(logαtr?(μˉ?i?),σd2?)μˉi=1m∑jKijsj\bar \mu_i=\frac{1}{m}\sum_j\frac{K_{ij}}{s_j}μˉ?i?=m1?j?sj?Kij??αtr(μˉ)=a1μˉ+α0\alpha_{tr}(\bar \mu)=\frac{a_1}{\bar \mu}+\alpha_0αtr?(μˉ?)=μˉ?a1??+α0?,dispersion估計分為三步:

  • 估計gene-wise dispersion αigw\alpha_i^{gw}αigw?, 用MLE估計,αigw=arg?max?αlCR(α)\alpha_i^{gw}=\argmax_{\alpha}\ l_{CR}(\alpha)αigw?=αargmax??lCR?(α),其中lCRl_{CR}lCR?代表用了Cox-Reid Adjustment的對數似然,αigw=arg?max?α∑j=1mlog?fNB(Kij;μij,αi)?12log?det?(XTWX)?cox-Reid?Bias?AdjustmentW=diag(11μi1+αi,?,11μim+αi)\alpha_i^{gw}=\argmax_{\alpha} \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)-\underbrace{\frac{1}{2}\log \det (X^TWX)}_{\text{cox-Reid\ Bias\ Adjustment}} \\ W=\text{diag}\left( \frac{1}{\frac{1}{\mu_{i1}}+\alpha_i},\cdots, \frac{1}{\frac{1}{\mu_{im}}+\alpha_i} \right)αigw?=αargmax?j=1m?logfNB?(Kij?;μij?,αi?)?cox-Reid?Bias?Adjustment21?logdet(XTWX)??W=diag(μi1?1?+αi?1?,?,μim?1?+αi?1?)
  • 擬合dispersion trend αtr\alpha_{tr}αtr?: gamma-family GLM of αigw\alpha_i^{gw}αigw? on μˉi\bar \mu_iμˉ?i? to get estimations of a1a_1a1? and α0\alpha_0α0?.
  • 結合似然與trend prior得到dipersion的MAP估計,αiMAP=arg?max?α[lCR(α)+Λi(α)?log-Normal?prior]Λi(α)=?(log?α?log?αtr(μˉi))22σd2σd2=max?(0.25,slr2?ψ1(m?p2)),slr=madi(log?αigw?log?αtr(μˉi))\alpha_i^{MAP}=\argmax_{\alpha}[ l_{CR}(\alpha)+\underbrace{\Lambda_i(\alpha)}_{\text{log-Normal\ prior}}] \\ \Lambda_i(\alpha) = \frac{-(\log \alpha-\log \alpha_{tr}(\bar \mu_i))^2}{2\sigma_d^2} \\ \sigma_d^2 = \max(0.25,s_{lr}^2-\psi_1(\frac{m-p}{2})),s_{lr}=\text{mad}_i(\log \alpha_i^{gw}-\log \alpha_{tr}(\bar \mu_i))αiMAP?=αargmax?[lCR?(α)+log-Normal?priorΛi?(α)??]Λi?(α)=2σd2??(logα?logαtr?(μˉ?i?))2?σd2?=max(0.25,slr2??ψ1?(2m?p?)),slr?=madi?(logαigw??logαtr?(μˉ?i?)) 其中ψ1\psi_1ψ1?是trigamma function,mad表示median absolute deviation,slrs_{lr}slr?為standard logrithm residual,如果log?αigw>log?αtr(μˉi)+2slr\log \alpha_i^{gw}>\log \alpha_{tr}(\bar \mu_i)+2s_{lr}logαigw?>logαtr?(μˉ?i?)+2slr?,則認為基因iii是一個dispersion outlier。
  • Fold change (系數βir\beta_{ir}βir?代表fold change)
    假設系數的先驗為βir~N(0,σr2)\beta_{ir} \sim N(0,\sigma_r^2)βir?N(0,σr2?),用empirical method確定σr=Q∣βr∣(1?p)QN(1?p/2)\sigma_r=\frac{Q_{|\beta_r|}(1-p)}{Q_N(1-p/2)}σr?=QN?(1?p/2)Qβr??(1?p)? 原文默認值p=0.05p=0.05p=0.05QN(1?p/2)Q_N(1-p/2)QN?(1?p/2)代表標準正態分布的1?p/21-p/21?p/2上分位點,Q∣βr∣Q_{|\beta_r|}Qβr??代表{β^irMLE}\{\hat \beta_{ir}^{MLE}\}{β^?irMLE?}1?p1-p1?p empirical quantile,其中β^irMLE\hat \beta_{ir}^{MLE}β^?irMLE?可以由最開始的模型用IRLS得到。系數的MAP為
    β?i=arg?max?β?[∑j=1mlog?fNB(Kij;μij,αi)+Λ(β?)]\vec \beta_i = \argmax_{\vec \beta} \left[ \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)+\Lambda(\vec \beta) \right]β?i?=β?argmax?[j=1m?logfNB?(Kij?;μij?,αi?)+Λ(β?)]

    其中
    μij=sje∑r=1pxjrβir,Λ(β?)=?∑r=1pβir22σr2\mu_{ij}=s_{j}e^{\sum_{r=1}^p x_{jr}\beta_{ir}},\Lambda(\vec \beta)=-\sum_{r=1}^p \frac{\beta_{ir}^2}{2\sigma_r^2}μij?=sj?er=1p?xjr?βir?,Λ(β?)=?r=1p?2σr2?βir2??

    使用IRLS計算,迭代方程為
    β?i←(XTWX+λ?I)?1XTWz?λ?r=1σr2,zj=log?μijsj+Kij?μijμij\vec \beta_i \leftarrow (X^TWX+\vec \lambda I)^{-1}X^TW\vec z \\ \vec \lambda_r = \frac{1}{\sigma_r^2},z_j=\log \frac{\mu_{ij}}{s_j}+\frac{K_{ij}-\mu_{ij}}{\mu_{ij}}β?i?(XTWX+λI)?1XTWzλr?=σr2?1?,zj?=logsj?μij??+μij?Kij??μij??

    從迭代方程可以看出,與標準的IRLS不同,這里的迭代方程盡管也有WLS的形式,但由于系數有一個正態先驗,所以(XTWX+λ?I)?1(X^TWX+\vec \lambda I)^{-1}(XTWX+λI)?1繼承了ridge regression的特點,因此最后得到的估計量與標準IRLS估計相比會有fractional shrinkage。

    總結

    以上是生活随笔為你收集整理的Deseq2的理论基础的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。