使用 \n AND \t 分隔数据
Separating Data using \n AND \t
我正在尝试在 rstudio 中使用“\n”将数据分成列,然后使用“\t”将该数据进一步分成行。到目前为止,我已经能够用“\n”分隔数据,但我不知道如何进一步用“\t”分隔数据。我在使用的数据中找不到任何 header 名称,因为它是我从 msigdb 网站下载的 table。这是我到目前为止所拥有的:
matrix_sep_by_enter<-read.table("msigdb.v5.2.symbols.txt",sep = "\n")
如何使用“\t”进一步分隔它
谢谢!
我不完全确定您想如何解析 MSigDB。我已经下载了最新的 MSigDB GMT 文件,因此我将向您展示基于该文件的可能性。
读取 GMT 文件。
df <- read.table("msigdb.v6.1.symbols.gmt", sep = "\n");
这将创建一个 data.frame
,其中一列和行数与 GMT 文件中的行数相同。
根据"\t"
将每一行拆分为子字符串
lst <- apply(df, 1, function(x) unname(unlist(strsplit(x, "\t"))));
结果存储在list
字符向量(不同长度)中,其中第一个条目给出基因集名称,第二个条目给出MSigDB基因集网络链接,其余条目是与该基因集相关的基因符号。
str(lst, list.len = 5);
#List of 17786
# $ : chr [1:195] "AAANWWTGC_UNKNOWN" "http://www.broadinstitute.org/gsea/msigdb/cards/AAANWWTGC_UNKNOWN" "MEF2C" "ATP1B1" ...
# $ : chr [1:376] "AAAYRNCTG_UNKNOWN" "http://www.broadinstitute.org/gsea/msigdb/cards/AAAYRNCTG_UNKNOWN" "LTBP1" "PLEKHM1" ...
# $ : chr [1:267] "MYOD_01" "http://www.broadinstitute.org/gsea/msigdb/cards/MYOD_01" "KCNE1L" "FAM126A" ...
# $ : chr [1:255] "E47_01" "http://www.broadinstitute.org/gsea/msigdb/cards/E47_01" "MLIP" "FAM126A" ...
# $ : chr [1:251] "CMYB_01" "http://www.broadinstitute.org/gsea/msigdb/cards/CMYB_01" "FAM126A" "C5orf64" ...
# [list output truncated]
我正在尝试在 rstudio 中使用“\n”将数据分成列,然后使用“\t”将该数据进一步分成行。到目前为止,我已经能够用“\n”分隔数据,但我不知道如何进一步用“\t”分隔数据。我在使用的数据中找不到任何 header 名称,因为它是我从 msigdb 网站下载的 table。这是我到目前为止所拥有的:
matrix_sep_by_enter<-read.table("msigdb.v5.2.symbols.txt",sep = "\n")
如何使用“\t”进一步分隔它
谢谢!
我不完全确定您想如何解析 MSigDB。我已经下载了最新的 MSigDB GMT 文件,因此我将向您展示基于该文件的可能性。
读取 GMT 文件。
df <- read.table("msigdb.v6.1.symbols.gmt", sep = "\n");
这将创建一个
data.frame
,其中一列和行数与 GMT 文件中的行数相同。根据
将每一行拆分为子字符串"\t"
lst <- apply(df, 1, function(x) unname(unlist(strsplit(x, "\t"))));
结果存储在
list
字符向量(不同长度)中,其中第一个条目给出基因集名称,第二个条目给出MSigDB基因集网络链接,其余条目是与该基因集相关的基因符号。str(lst, list.len = 5); #List of 17786 # $ : chr [1:195] "AAANWWTGC_UNKNOWN" "http://www.broadinstitute.org/gsea/msigdb/cards/AAANWWTGC_UNKNOWN" "MEF2C" "ATP1B1" ... # $ : chr [1:376] "AAAYRNCTG_UNKNOWN" "http://www.broadinstitute.org/gsea/msigdb/cards/AAAYRNCTG_UNKNOWN" "LTBP1" "PLEKHM1" ... # $ : chr [1:267] "MYOD_01" "http://www.broadinstitute.org/gsea/msigdb/cards/MYOD_01" "KCNE1L" "FAM126A" ... # $ : chr [1:255] "E47_01" "http://www.broadinstitute.org/gsea/msigdb/cards/E47_01" "MLIP" "FAM126A" ... # $ : chr [1:251] "CMYB_01" "http://www.broadinstitute.org/gsea/msigdb/cards/CMYB_01" "FAM126A" "C5orf64" ... # [list output truncated]