日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TCGA差异表达分析|2022.5.1更新

發布時間:2023/12/8 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 TCGA差异表达分析|2022.5.1更新 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者:Squirrelity

2022-07-18 補充說明
最近R更新了,很多包都用不了,如果遇到報錯或者是運行不了有可能是因為版本問題。

一、加載對應的R包
這里用到十三個包(距離上次更新之后又新增了不少方法/包):

library("TCGAbiolinks") library("plyr") library("limma") library("biomaRt") library("SummarizedExperiment") library("stringr") library("ggplotify") library("patchwork") library("cowplot") library('DESeq2') library('edgeR') library("dplyr") library("rtracklayer")

光下載都費了不少功夫www,下面把install代碼放出來(。・?・)ノ゙直接install.packages()日常失敗我就不說了
大部分包都可以在bioconductor中找到,有遺漏的可以去官網找下載代碼
https://bioconductor.org/

#plyr下載 唯一可以直接install的包啊哈哈 install.packages("plyr") #if(!require(stringr)) #install.packages()下載法 if(!require(stringr))install.packages('stringr') if(!require(ggplotify))install.packages("ggplotify") if(!require(patchwork))install.packages("patchwork") if(!require(cowplot))install.packages("cowplot")#更新BiocManager3.15,R版本為4.2.0 if (!require("BiocManager", quietly = TRUE))install.packages("BiocManager") BiocManager::install(version = "3.15")#tccgbiolinks包穩定版本安裝 if (!requireNamespace("BiocManager", quietly=TRUE))install.packages("BiocManager") BiocManager::install("TCGAbiolinks")#limma包下載 if (!require("BiocManager", quietly = TRUE))install.packages("BiocManager") BiocManager::install("limma")#biomaRt包下載 if (!require("BiocManager", quietly = TRUE))install.packages("biomaRt") BiocManager::install("biomaRt")#最麻煩的SummarizedExperiment包:force = TRUE是根據warning后來加的if (!require("BiocManager", quietly = TRUE))install.packages("BiocManager") BiocManager::install("SummarizedExperiment",force = TRUE) #edgeR包下載 if (!require("BiocManager", quietly = TRUE))install.packages("BiocManager") BiocManager::install("edgeR") #DESeq2包下載 if (!requireNamespace("BiocManager", quietly=TRUE))install.packages("BiocManager") BiocManager::install("DESeq2")

在使用之前需要加載BIocManager,代碼參考這個:https://bioconductor.org/install/

if (!require("BiocManager", quietly = TRUE))install.packages("BiocManager") BiocManager::install(version = "3.15")

若提示warning:A version of this package for your version of R might be available elsewhere,see the ideas at
https://cran.r-project.org/doc/manuals/r-patched/R-admin.html#Installing-packages

可以的解決方法有:

1.乖乖在官網下載cran(最不推薦)
2.在Rstudio上方的tools-global options處找到packages,修改默認的global cran,選擇apply-ok即可
3.找到包的官網,用官網提供的代碼下載(首推???)

二、下載數據
在下載之前設置工作路徑:
dir.create()創建目錄,getwd()獲取工作路徑,setwd()設置工作路徑,由于TCGA下載下來的數據包都挺大的,建議還是選一個比較富裕的盤來作為工作路徑。

dir.create("D:\\BioInfoCloud\\TCGABiolinks\\case_study") setwd("D:\\BioInfoCloud\\TCGABiolinks\\case_study")

這里用到的是R包TCGAbiolinks:
可以參照R包TCGAbiolinks官網使用http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/casestudy.html#Case_study_n_1:_Pan_Cancer_downstream_analysis_BRCA
示例:

query <- GDCquery(project = "TCGA-BRCA",data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification", workflow.type = "STAR - Counts")

project選出的是腫瘤項目,而里面用到的都是縮寫,詳見https://blog.csdn.net/Squirrelity/article/details/124259330?spm=1001.2014.3001.5501

建議去TCGA官網repository一邊對照著選所需要的樣本
https://portal.gdc.cancer.gov/repository?facetTab=cases

#下載到本地 GDCdownload(query = query, method = "api") #查看下載的數據 View(query) BRCA.Rnaseq.SE <- GDCprepare( query = query, save = TRUE, save.filename = "brca.rda") BRCAMatrix <- assay(BRCA.Rnaseq.SE,"unstranded") #記住這個文件BRCA.RNAseq_CorOutliers BRCA.RNAseq_CorOutliers <- TCGAanalyze_Preprocessing(BRCA.Rnaseq.SE)

三、ID轉換
下載下來的BRCA.RNAseq_CorOutliers為ENTREZID,而我們肯定是需要圖片顯示基因名而不是ENTREZID,因此進行數據轉換,這里用到包括但不限于的dplyr包和rtracklayer包

library("dplyr") library("rtracklayer")

ID轉換分為四步:
1.導入數據:BRCA.RNAseq_CorOutliers和人類基因組注釋文件;

data=read.table(BRCA.RNAseq_CorOutliers,header=T,sep='\t') #把行名改為gene_id,與gtf保持一致 colnames(data)[1] <- "gene_id"

對照人類基因組注釋文件,對BRCA.RNAseq_CorOutliers進行ID轉換
其中,人類基因組注釋文件參考http://www.360doc.com/content/21/1028/10/77506210_1001626502.shtml

#處理人類基因組注釋文件的數據 gtf <- rtracklayer::import('Homo_sapiens.GRCh38.99.chr.gtf.gz') gtf <- as.data.frame(gtf) save(gtf,file="人類基因組注釋文件.Rda") gtf <-load(file="人類基因組注釋文件.Rda") #根據條件篩選基因(大篩選) a = dplyr::filter(gtf,type=="gene") dim(a) #只要gene_name,gene_id,gene_biotype這三行 b = dplyr::select(a,c(gene_name,gene_id,gene_biotype))

2.數據預處理

#ENTREZID帶有,這里去除小數點及后邊的數字(我用excel處理的,ctrl+F無字符替換.*) data1 <- separate(data,gene_id,into = c("gene_id"),sep="\\.")

3.數據處理

#根據gene id 合并文件 c = dplyr::inner_join(b,data,by="gene_id") #去掉2,3列,基因名再去重 d=select(c,-gene_id,-gene_biotype) data1=distinct(d,gene_name,.keep_all = T) #把行名由數字換成基因 rownames(data1)<- data1[,1] data1<-data1[,-1]

4.數據后處理

#如下載的數據取了log2(count-1)這里再返回count data2 <- 2^data1 -1 write.csv(data2,file="data2.csv") data2 <- read.csv("data2.csv") #重新用read打開整行的-會變成.因此需要恢復原來的行名 colnames(data2) <- colnames(BRCA.RNAseq_CorOutliers)

四、差異表達分析
1.參考網址
代碼示例參考這個包的文檔http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html
TCGA可視化教程
https://www.jianshu.com/p/d3e481f0187a
https://cloud.tencent.com/developer/article/1778874
http://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/casestudy.html

2.數據預處理

#處理后可得熱圖判斷樣本相似性 dataPrep <- TCGAanalyze_Preprocessing(object = BRCA.RNAseq_CorOutliers, cor.cut = 0.6 )

*上面代碼生成的圖如下所示。組內的樣本相似性都很高,符合預期。

3.對數據進行標準化處理+質控+差異化分析
**TCGAanalyze_LevelTab()**將差異表達基因在正常和腫瘤組織中的表達量數據添加到差異表達分析結果中的主要用法:

TCGAanalyze_LevelTab(FC_FDR_table_mRNA, typeCond1, typeCond2, TableCond1, TableCond2, typeOrder = TRUE)

#數據標準化 dataNorm <- TCGAanalyze_Normalization(tabDF = data2,geneInfo = geneInfoHT,method = "gcContent" ) #數據質控 dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,method = "quantile", qnt.cut = 0.25 ) #分組:NT正常組織組 TP癌癥組織組*# selection of normal samples "NT" samplesNT <- TCGAquery_SampleTypes(barcode = colnames(dataFilt),typesample = c("NT") )) # selection of tumor samples "TP" samplesTP <- TCGAquery_SampleTypes(barcode = colnames(dataFilt), typesample = c("TP") )# 差異表達分析 dataDEGs <- TCGAanalyze_DEA(mat1 = dataFilt[,samples.solid.tissue.normal],mat2 = dataFilt[,samples.primary.tumour],Cond1type = "Normal",Cond2type = "Tumor",fdr.cut = 0.01 ,logFC.cut = 2,method = "glmLRT",pipeline = "edgeR" ) #在正常和腫瘤樣本中差異基因的表達值 dataDEGsFiltLevel <- TCGAanalyze_LevelTab(FC_FDR_table_mRNA = dataDEGs,typeCond1 = "Tumor",typeCond2 = "Normal",TableCond1 = dataFilt[,samplesTP1],TableCond2 = dataFilt[,samplesNT1] )

得到的dataDEGsFiltLevel文件按logFC絕對值排序可得最顯著的top差異表達基因(excel表處理)

五、可視化
ps:得到的圖片有的可以直接看,有的保存在工作路徑上了。
1.PCA主成分分析

TCGAvisualize_PCA()實現主成分分析的主要用法:

TCGAvisualize_PCA(dataFilt, dataDEGsFiltLevel, ntopgenes, group1, group2)

#標準化 dataNorm <- TCGAbiolinks::TCGAanalyze_Normalization(data2, geneInfo)#質量控制 dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,method = "quantile", qnt.cut = 0.25)#選擇正常樣本 group1 <- TCGAquery_SampleTypes(colnames(dataFilt), typesample = c("NT")) #選擇癌癥樣本 group2 <- TCGAquery_SampleTypes(colnames(dataFilt), typesample = c("TP"))#Principal Component Analysis plot for ntop selected DEGs pca.top200 <- TCGAvisualize_PCA(dataFilt,dataDEGsFiltLevel, ntopgenes = 200,group1, group2)

上面代碼生成的圖如下所示。

2.火山圖

#為了做圖的需要,突出顯示logFC≥8的gene名稱 DEG.BRCA.filt<-dataDEGs[which(abs(dataDEGs$logFC) >= 8), ] str(DEG.BRCA.filt) #'data.frame': 29 obs. of 5 variables: #說明共有29個基因滿足|logFC|≥8TCGAVisualize_volcano(dataDEGs$logFC, dataDEGs$FDR,filename = "TumorvsNormal_FC8.edgeR.pdf", xlab = "logFC",names = rownames(dataDEGs), show.names = "highlighted",x.cut = 1, y.cut = 0.01, highlight = rownames(dataDEGs)[which(abs(DEG.LIHC.edgeR$logFC) >= 8)],highlight.color = "orange",title = "volcano plot by edgeR")

上面代碼生成的圖如下所示。突出顯示了logFC≥8的gene名稱

3.GO功能分析條形圖
TCGAbiolinks 輸出條形圖,其中包含三個本體的主要類別(分別為GO:生物過程、GO:細胞成分和GO:分子功能)的基因數量。

ansEA <- TCGAanalyze_EAcomplete(TFname = "DEA genes Normal Vs Tumor",RegulonList = dataDEGs$gene_name ) TCGAvisualize_EAbarplot(tf = rownames(ansEA$ResBP),GOBPTab = ansEA$ResBP,GOCCTab = ansEA$ResCC,GOMFTab = ansEA$ResMF,PathTab = ansEA$ResPat,nRGTab = dataDEGs$gene_name,nBar = 10 )

上面代碼生成的圖如下所示。

總結

以上是生活随笔為你收集整理的TCGA差异表达分析|2022.5.1更新的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 黄色视屏在线看 | 成人黄色一级 | 亚洲aa在线观看 | 国产自产一区二区 | 性开放的欧美大片 | 香蕉网av| 女人天堂网站 | 国产女厕一区二区三区在线视 | 99er热精品视频 | 中文字幕第9页 | 日韩一级欧美一级 | 影音av资源 | 精品少妇爆乳无码av无码专区 | 国产午夜精品久久久久久久久久 | 久久久久一区二区三区 | 国产v综合v亚洲欧美久久 | 久久影视精品 | 国产无遮挡又黄又爽在线观看 | 欧美成人一二三 | 依人99 | 狠狠干香蕉 | 男人的天堂你懂的 | www久久久 | 啪视频免费 | 婷婷天堂网 | 国产乱乱| 麻豆视频在线观看免费网站黄 | 高潮一区| 日韩经典午夜福利发布 | 老司机综合网 | 午夜视频在线观看免费视频 | 久久97 | 西野翔之公侵犯中文字幕 | 91看片看淫黄大片 | 精品国产一区二区三区久久久蜜月 | 91视频看看 | 四虎在线影院 | 天天插天天狠天天透 | 亚洲成人黄色在线观看 | 欧美在线性 | 麻豆视频免费入口 | av在线成人 | av播播 | a级片在线免费看 | 丰满少妇在线观看网站 | 国产久久精品 | 亚洲高清在线观看 | 91在线| 青青操精品 | 国内精品视频在线播放 | 中文字幕乱码av | 美女视频一区二区三区 | 插我舔内射18免费视频 | 就爱啪啪网站 | 男女考妣视频 | 国产又猛又黄又爽 | 激情图片在线视频 | 成人h动漫精品一区二区无码 | 灌满闺乖女h高h调教尿h | 亚洲欧美一区在线 | 久久精品激情 | 在线观看日韩国产 | 玖玖色在线 | 久热免费在线视频 | 手机在线看片福利 | 色射影院| 精品免费视频一区二区 | 亚洲黄色大片 | 91亚洲一线产区二线产区 | 亚洲另类色图 | 人人干人人艹 | 茄子视频A | 少妇h视频 | 色七七亚洲 | jiuse九色 | www,日韩 | www.一区| 欧美日韩国产在线 | gav久久| 怡红院亚洲 | 青青草在线免费观看 | 色哟哟官网 | 免费精品一区 | 亚洲一区二区三区四区五区午夜 | 国产在线拍揄自揄拍无码视频 | 国产成人精品一区二区色戒 | 天海翼视频在线观看 | 亚洲va欧美va国产综合久久 | 在线观看成年人视频 | 国产亚洲精品女人久久久久久 | 亚洲一区二区三区四区在线 | chinese xxxx videos andvr | 善良的老师伦理bd中字 | 伊人国产在线 | 天天干在线观看 | 欧美专区综合 | 91在线一区 | 亚洲一区二三区 | 欧美色图一区 |