分隔字段内容
Separate contents of field
我敢肯定这很简单,我认为这是使用 separate 和 gather 的情况。
我在数据框中有一个字段,authorlist,pubmed 搜索的编辑导出。它包含出版物的作者。显然,它可以包含单个作者或作者的合作。
例如,这只是可用选项的一部分:
Author
Drijgers RL, Verhey FR, Leentjens AF, Kahler S, Aalten P.
我想做的是创建一个所有作者的列表,这样我就有了类似
的东西
Author
Drijgers RL
Verhey FR
Leentjens AF
Kahler S
Aalten P
我该怎么做?
我以为它会像
authSpread<-authorlist%>%separate(Author,sep =",",extra ="drop")
但它不起作用。
如果我输入 = "NA"
我只在一个专栏中列出了第一作者。
我想做的是将文本复制到 excel 中的列函数,您可以在其中指定要拆分的字符,并且单元格的内容是 cast/spread 到新单元格。然后将它们重新聚集到一栏中。
我不知道作者的最大数量,因此不知道以编程方式拆分的列数(或如何标记它们)。
编辑:澄清
我不知道我是否想制作一个长数据框然后收集 - 因为我不知道会生成多少字段。这是一件明智的事情吗?
我想我可以将由“,”分隔的输出写入一个列表,然后将该列表的内容写为单个数据框。
这听起来更有效率吗?
您正在寻找 separate_rows
。
输入:
df <- data.frame(authors = c("Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P."))
authors
1 Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P.
函数:
library(tidyverse)
df %>% separate_rows(authors, sep = ", ")
输出:
authors
1 Drijgers RL
2 Verhey FR
3 Leentjens AF
4 Köhler S
5 Aalten P.
您可以将它们保存在这样的列表中:
authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors)
输出:
[1] "Drijgers RL" "Verhey FR" "Leentjens AF" "Köhler S" "Aalten P."
如果您的列表中有多篇文章的作者并且您只想要唯一出现的文章,只需在末尾添加 unique()
:
authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors) %>% unique()
我敢肯定这很简单,我认为这是使用 separate 和 gather 的情况。
我在数据框中有一个字段,authorlist,pubmed 搜索的编辑导出。它包含出版物的作者。显然,它可以包含单个作者或作者的合作。
例如,这只是可用选项的一部分:
Author
Drijgers RL, Verhey FR, Leentjens AF, Kahler S, Aalten P.
我想做的是创建一个所有作者的列表,这样我就有了类似
的东西Author
Drijgers RL
Verhey FR
Leentjens AF
Kahler S
Aalten P
我该怎么做? 我以为它会像
authSpread<-authorlist%>%separate(Author,sep =",",extra ="drop")
但它不起作用。 如果我输入 = "NA" 我只在一个专栏中列出了第一作者。 我想做的是将文本复制到 excel 中的列函数,您可以在其中指定要拆分的字符,并且单元格的内容是 cast/spread 到新单元格。然后将它们重新聚集到一栏中。 我不知道作者的最大数量,因此不知道以编程方式拆分的列数(或如何标记它们)。
编辑:澄清 我不知道我是否想制作一个长数据框然后收集 - 因为我不知道会生成多少字段。这是一件明智的事情吗? 我想我可以将由“,”分隔的输出写入一个列表,然后将该列表的内容写为单个数据框。 这听起来更有效率吗?
您正在寻找 separate_rows
。
输入:
df <- data.frame(authors = c("Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P."))
authors
1 Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P.
函数:
library(tidyverse)
df %>% separate_rows(authors, sep = ", ")
输出:
authors
1 Drijgers RL
2 Verhey FR
3 Leentjens AF
4 Köhler S
5 Aalten P.
您可以将它们保存在这样的列表中:
authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors)
输出:
[1] "Drijgers RL" "Verhey FR" "Leentjens AF" "Köhler S" "Aalten P."
如果您的列表中有多篇文章的作者并且您只想要唯一出现的文章,只需在末尾添加 unique()
:
authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors) %>% unique()