在 csv 中查找字符，在 R 中拆分单元格

Question

我有一个 .csv 文件，其中包含 "AT1G45150" 等基因名称。然而，有些条目有两个基因名称由下划线连接，所以它们看起来像第 135 行中看到的 "AT3G01311_ATCG00940" 。有没有一个简单的命令，也许像 gsub 这样的东西不仅可以找到并消除单元格中从下划线开始的所有内容，但也将第二个基因名称粘贴在紧挨着它所在的单元格下方的单元格中，在同一列但下一行？还想保留该列中已有的所有内容，只需延长列长度即可添加新成员。

"133","AT1G45150","AT1G12200","AT2G25370","AT1G19715","AT2G46830","AT1G20870","AT4G12400","AT1G19660"
"134","AT1G47280","AT1G12410","AT2G26920","AT1G19750","AT2G46850","AT1G21400","AT4G15430","AT1G19690"
"135","AT1G47317","AT1G12530","AT2G27270","AT1G20540","AT3G01311_ATCG00940","AT1G21450","AT5G01970","AT1G19750"
"136","AT1G47420","AT1G12550","AT2G28590","AT1G20570","AT3G03470","AT1G21730","AT1G20800","AT1G19780"
"137","AT1G47500","AT1G12740","AT2G28970","AT1G20580","AT3G03980","AT1G21760","AT3G54740","AT1G19790"
"138","AT1G47570","AT1G12750","AT2G29740","AT1G20610","AT3G05040","AT1G22000","AT4G12400","AT1G19970"

这样就变成了

"133","AT1G45150","AT1G12200","AT2G25370","AT1G19715","AT2G46830","AT1G20870","AT4G12400","AT1G19660"
"134","AT1G47280","AT1G12410","AT2G26920","AT1G19750","AT2G46850","AT1G21400","AT4G15430","AT1G19690"
"135","AT1G47317","AT1G12530","AT2G27270","AT1G20540","AT3G01311","AT1G21450","AT5G01970","AT1G19750"
"136","AT1G47420","AT1G12550","AT2G28590","AT1G20570","ATCG000940","AT1G21730","AT1G20800","AT1G19780"
"137","AT1G47500","AT1G12740","AT2G28970","AT1G20580","AT3G03470","AT1G21760","AT3G54740","AT1G19790"
"138","AT1G47570","AT1G12750","AT2G29740","AT1G20610","AT3G03980","AT1G22000","AT4G12400","AT1G19970"

感谢您的帮助！

编辑：试图提供一个可重现的例子，希望这有帮助：

> dput(droplevels(genes[133:138,]))
structure(list(g99 = structure(1:6, .Label = c("AT1G45150", "AT1G47280", 
"AT1G47317", "AT1G47420", "AT1G47500", "AT1G47570"), class = "factor"), 
g95 = structure(1:6, .Label = c("AT1G12200", "AT1G12410", 
"AT1G12530", "AT1G12550", "AT1G12740", "AT1G12750"), class = "factor"), 
y99 = structure(1:6, .Label = c("AT2G25370", "AT2G26920", 
"AT2G27270", "AT2G28590", "AT2G28970", "AT2G29740"), class = "factor"), 
y95 = structure(1:6, .Label = c("AT1G19715", "AT1G19750", 
"AT1G20540", "AT1G20570", "AT1G20580", "AT1G20610"), class = "factor"), 
a99 = structure(1:6, .Label = c("AT2G46830", "AT2G46850", 
"AT3G01311_ATCG00940", "AT3G03470", "AT3G03980", "AT3G05040"
), class = "factor"), a95 = structure(1:6, .Label = c("AT1G20870", 
"AT1G21400", "AT1G21450", "AT1G21730", "AT1G21760", "AT1G22000"
), class = "factor"), e99 = structure(c(3L, 4L, 5L, 1L, 2L, 
3L), .Label = c("AT1G20800", "AT3G54740", "AT4G12400", "AT4G15430", 
"AT5G01970"), class = "factor"), e95 = structure(1:6, .Label = c("AT1G19660", 
"AT1G19690", "AT1G19750", "AT1G19780", "AT1G19790", "AT1G19970"
), class = "factor")), .Names = c("g99", "g95", "y99", "y95", 
"a99", "a95", "e99", "e95"), row.names = 133:138, class = "data.frame")

Answer 1

我假设这些基因是一个更大的数据框架的一部分，其中包含关于每个基因的更多信息。我会使用 tidyr 和 dplyr。这样的事情应该有效：

library(dplyr)
library(tidyr)

df <- 
  df %>% 
  separate(gene, c('first', 'second'), '_') %>% # Make two columns 
  gather(position, gene, first, second) %>%  
  filter(!is.na(gene))

我使用 separate 将列分成两列，第一列包含第一个基因，第二列包含第二个基因（如果存在）。然后我使用 gather 将所有基因堆叠在一起，并使用 filter 从缺失的第二个基因中删除行。

希望对您有所帮助！

Answer 2

此答案假定您可能希望保留数据帧结构。

首先载入以下三个包： library(stringr); library(purrr); library(dplyr)

然后你的数据框看起来像：

> genes
   V1        V2        V3        V4        V5                  V6        V7        V8        V9
1 133 AT1G45150 AT1G12200 AT2G25370 AT1G19715           AT2G46830 AT1G20870 AT4G12400 AT1G19660
2 134 AT1G47280 AT1G12410 AT2G26920 AT1G19750           AT2G46850 AT1G21400 AT4G15430 AT1G19690
3 135 AT1G47317 AT1G12530 AT2G27270 AT1G20540 AT3G01311_ATCG00940 AT1G21450 AT5G01970 AT1G19750
4 136 AT1G47420 AT1G12550 AT2G28590 AT1G20570           AT3G03470 AT1G21730 AT1G20800 AT1G19780
5 137 AT1G47500 AT1G12740 AT2G28970 AT1G20580           AT3G03980 AT1G21760 AT3G54740 AT1G19790
6 138 AT1G47570 AT1G12750 AT2G29740 AT1G20610           AT3G05040 AT1G22000 AT4G12400 AT1G19970

如果我只是为了攻击 V6 变量，我会使用来自 stringr 的以下命令：

> str_sub(genes$V6, start = 1L, 
          end = ifelse(is.na(str_locate(genes$V6, '_')[,1]), -1,    
          str_locate(genes$V6, '_')[, 1] - 1))
[1] "AT2G46830" "AT2G46850" "AT3G01311" "AT3G03470" "AT3G03980" "AT3G05040"

但我们想将其推广到所有变量，以防您想保留数据框架结构。因此，使用 purrr 中的 map 函数遍历数据框中的所有列（您也可以以类似的方式使用 lapply，但有时很难强制转换为数据框）。

> genes2 <- map(genes, function(x) { str_sub(x, start = 1L, 
               end = ifelse(is.na(str_locate(x, '_'))[,1], -1, 
               str_locate(x, '_')[,1] - 1)) }) 
            %>% as_data_frame()

然后您的数据框如下所示：

> genes2
Source: local data frame [6 x 9]

     V1        V2        V3        V4        V5        V6        V7        V8        V9
  (chr)     (chr)     (chr)     (chr)     (chr)     (chr)     (chr)     (chr)     (chr)
1   133 AT1G45150 AT1G12200 AT2G25370 AT1G19715 AT2G46830 AT1G20870 AT4G12400 AT1G19660
2   134 AT1G47280 AT1G12410 AT2G26920 AT1G19750 AT2G46850 AT1G21400 AT4G15430 AT1G19690
3   135 AT1G47317 AT1G12530 AT2G27270 AT1G20540 AT3G01311 AT1G21450 AT5G01970 AT1G19750
4   136 AT1G47420 AT1G12550 AT2G28590 AT1G20570 AT3G03470 AT1G21730 AT1G20800 AT1G19780
5   137 AT1G47500 AT1G12740 AT2G28970 AT1G20580 AT3G03980 AT1G21760 AT3G54740 AT1G19790
6   138 AT1G47570 AT1G12750 AT2G29740 AT1G20610 AT3G05040 AT1G22000 AT4G12400 AT1G19970

Answer 3

看到您的数据后，我有了新的答案。我对您在数据框中到底想要什么感到有点困惑，但这是针对单个向量的方法。

library(stringr)

> df$a99
[1] "AT2G46830"           "AT2G46850"           "AT3G01311_ATCG00940"
[4] "AT3G03470"           "AT3G03980"           "AT3G05040"          

> unlist(str_split(df$a99, '_'))
[1] "AT2G46830" "AT2G46850" "AT3G01311" "ATCG00940" "AT3G03470" "AT3G03980"
[7] "AT3G05040"

在 csv 中查找字符，在 R 中拆分单元格

Find character in csv, split cells in R

csv

r

gsub

dataframe