如何为大型数据集创建 GRange 对象

How to create GRange object for a large dataset

我有一个包含列名的大型数据集:

    "chromosome"      "start"         "end"         "h.gene"        "CPCN_LUNG"     "NCIH524_LUNG"  "SBC5_LUNG"     "NCIH446_LUNG"  "NCIH196_LUNG" 
  "NCIH209_LUNG"  "NCIH1963_LUNG" "NCIH211_LUNG"  "NCIH2196_LUNG" "NCIH526_LUNG"  "NCIH82_LUNG"   "SW1271_LUNG"   "DMS114_LUNG"   "NCIH2029_LUNG" "NCIH2066_LUNG" "NCIH1341_LUNG"
  "NCIH2227_LUNG" "NCIH69_LUNG"   "NCIH1048_LUNG" "DMS53_LUNG"    "SHP77_LUNG"    "NCIH1836_LUNG" "NCIH2141_LUNG" "COLO668_LUNG"  "NCIH1105_LUNG" "NCIH1876_LUNG" "NCIH841_LUNG" 
 "DMS273_LUNG"   "CORL279_LUNG"  "NCIH1092_LUNG" "CORL95_LUNG"   "CORL88_LUNG"   "NCIH1694_LUNG" "NCIH1436_LUNG"

我想在此数据集上创建 GRange 对象。

reference_GRange <- GRanges(seqnames= reference$chromosome,IRanges(start= reference$start,end= reference$end),h.gene=reference$h.gene) 

这将创建只有 2 个元数据列的 Grange 对象。有没有什么方法可以使用参考 table 中的所有信息创建 Grange 对象。 [例如元数据列从 h.gene,CPCN_LUNG, NCIH524_LUNG,....... 到 NCIH1436_LUNG)

reference_GRange <- GRanges(seqnames=参考$染色体,IRanges(开始=参考$开始,结束=参考$结束),h.gene=参考$h.gene,CPCN_LUNG = 参考$CPCN_LUNG, NCIH524_LUNG = 参考$NCIH524_LUNG,..... NCIH1436_LUNG= 参考$NCIH1436_LUNG).

但是在 GRnage 对象中手动添加了每个额外的列,这可能是一件麻烦事!!!

makeGRangesFromDataFrame()keep.extra.columns=TRUE 结合使用。或者如上所述创建 GRanges,然后添加 mcols() 删除无趣的列。

mcols(gr) = reference[,-(1:3)]

欢迎随时在 Bi​​oconductor support forum.

上询问有关 Bioconductor 包的问题