TCGA数据下载

By Kaiyi Fu

获取mRNAseq表达矩阵等

1、从GDC官网下载

https://mp.weixin.qq.com/s/QhBkJ_x2noeSNYWFSPt33Amp.weixin.qq.com

https://mp.weixin.qq.com/s/naJDLK6fmdJFtRnUGRcL6gmp.weixin.qq.com

2、用TCGAbiolinks下载


# 1. 加载R包
library(TCGAbiolinks)
library(dplyr)
library(SummarizedExperiment)
library(data.table)

# 2. 设定研究项目
project_name <-"TCGA-STAD"
output_dir <- paste0("./", project_name)
# 创建输出文件夹
# 创建输出文件夹
if (!dir.exists(output_dir)) { 
  dir.create(output_dir, recursive = TRUE)
  }

# 3. 构建查询信息
# 筛选标准：转录组 -> 基因表达量 -> STAR流程
query <- GDCquery(project = project_name, data.category ="Transcriptome Profiling",
                  data.type ="Gene Expression Quantification", workflow.type ="STAR - Counts")

# 4. 执行下载# method = "api" 适合较小数据集；大数据集建议配置 gdc-client
GDCdownload(query = query, method ="api", files.per.chunk =10)

# 5. 数据准备与整合
# GDCprepare 会将零散的单样本文件整合成一个完整的 SummarizedExperiment 对象
data_se <- GDCprepare(query = query)

# 6. 提取并保存基因注释信息
# 包含 Ensembl ID, Gene Symbol, 染色体位置等
ann_df <- as.data.frame(rowRanges(data_se)) %>% 
  select(gene_id, gene_name, gene_type, seqnames, start, end)
fwrite(ann_df, file = file.path(output_dir, "gene_annotation.csv"))

#7. 提取表达矩阵
# 提取 Raw Counts (用于 DESeq2/edgeR 差异分析)
counts_mat <- assay(data_se,"unstranded")
counts_df <- cbind(Symbol = ann_df$gene_name,
                   as.data.frame(counts_mat))
fwrite(counts_df, file = file.path(output_dir, "counts_matrix.csv"))
# 提取 TPM (用于聚类、免疫浸润等分析)
tpm_mat <- assay(data_se, "tpm_unstrand")
tpm_df <- cbind(Symbol = ann_df$gene_name, as.data.frame(tpm_mat))
fwrite(tpm_df, file = file.path(output_dir, "tpm_matrix.csv"))

#8. 提取临床信息
clinical <- GDCquery_clinic(project = project_name, type = "clinical")#可能有error
fwrite(clinical, file = file.path(output_dir, "clinical_info.csv"))

3、从cBioPortal下载

cBioPortal for Cancer Genomicswww.cbioportal.org

#cBioPortal 的 “RNASeq RSEM” 通常是 log2 转换 + 标准化后的派生矩阵，并非原始 RSEM，不应直接输入 CIBERSORT等，应优先下载线性、非负的 RSEM/TPM 原始矩阵

获取临床信息

https://mp.weixin.qq.com/s/VbiJIPbhZ0VWGjFyCB2xlQmp.weixin.qq.com

https://mp.weixin.qq.com/s/FSdQ3UbsGSzop2ETVNkwkAmp.weixin.qq.com

获取生存信息等

TCGA-PAN CDR

GDC官方发表在cell上的文章：An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics

这篇文章提取出了4种TCGA的随访结局（详情自己读文章）：

OS：overall survival，总生存
DSS：disease-specific survival，疾病特异生存
DFI：disease-free interval，无病生存
PFI：progression-free interval，无进展生存

这个结果可以直接下载：https://api.gdc.cancer.gov/data/1b5f413e-a8d1-4d10-92eb-7c4ae739ed81

也可以通过XENA（https://tcga-pancan-atlas-hub.s3.us-east-1.amazonaws.com/download/Survival_SupplementalTable_S1_20171025_xena_sp）下载，但是两者略有区别（不影响使用）。

PreviousCITEseq NextTCGA/CTPAC分析

Last updated 1 month ago

hashtag获取mRNAseq表达矩阵等

hashtag1、从GDC官网下载

hashtag2、用TCGAbiolinks下载

hashtag3、从cBioPortal下载

hashtag获取临床信息

hashtag获取生存信息等

hashtagTCGA-PAN CDR