将混合字符串拆分为 R 中的列

Question

文本挖掘分析和 R 编码的新手。

我有 200 个混合字符串的基因。我想拆分它们并在一列中粘贴字符串（例如，钙粘蛋白、孤儿受体），在另一列中粘贴数字（例如，2/3）、数字+字符串（例如，7D、7TM）。我使用 strssplit 来拆分单词。请任何关于如何解析它们的建议都会有所帮助。

example:
 > Genes <- c("7D cadherins", "7TM orphan receptors", "7TM orphan receptors RNA18S", "28S ribosomal RNAs  RNA28S", "45S pre-ribosomal RNAs  RNA45S", "5.8S ribosomal RNAs", "Actin related protein 2/3 complex”)

Expected result(2nd and 3rd column):

7D cadherins        cadherins       7D 
7TM orphan receptors        orphan receptors        7TM   
18S ribosomal RNAs  RNA18S  ribosomal RNAs  RNA18S  18S RNA18S
28S ribosomal RNAs  RNA28S  ribosomal RNAs  RNA28S  28S  RNA28S
45S pre-ribosomal RNAs  RNA45S  pre-ribosomal RNAs      45S  RNA45S
5.8S ribosomal RNAs ribosomal RNAs  5.8S
Actin related protein 2/3 complex   Actin related protein complex    2/3

Answer 1

使用strsplit拆分名称，grep检测带或不带数字的单词，使用paste折叠单词。将所有内容放在函数中以避免重复：

wordS <- function(x, invert = TRUE) {
  clean <- gsub( '[[:space:]]+', ' ', x )  # to remove extra spaces
  split <- strsplit( clean, ' ' )
  detec <- lapply( split, function(y) grep('[0-9]', y, invert = invert, value = TRUE) )
  words <- sapply( detec, paste, collapse = ' ' )
  return( words )
}

data.frame(
  Gene = Genes,
  column2 = wordS(Genes),
  column3 = wordS(Genes, invert = FALSE)
)

                               Gene                       column2    column3
1                      7D cadherins                     cadherins         7D
2              7TM orphan receptors              orphan receptors        7TM
3       7TM orphan receptors RNA18S              orphan receptors 7TM RNA18S
4         28S ribosomal RNAs RNA28S                ribosomal RNAs 28S RNA28S
5     45S pre-ribosomal RNAs RNA45S            pre-ribosomal RNAs 45S RNA45S
6               5.8S ribosomal RNAs                ribosomal RNAs       5.8S
7 Actin related protein 2/3 complex Actin related protein complex        2/3

将混合字符串拆分为 R 中的列

Split mixed string into columns in R

string

split

r

text-mining