dplyr unnest() 不适用于以逗号分隔的大数据

Question

尝试使用dplyr 的unnest 函数拆分以逗号分隔的大型字符数据集。数据集的形式为：

id                                     keywords
 835a24fe-c276-9824-0f4d-35fc81319cca  Analytics,Artificial Intelligence,Big Data,Health Care

我想创建一个 table，它在第一列中具有“id”，并且每个“关键字”在具有相同“id”的单独列中

我正在使用代码：

CB_keyword <- tibble(id=organizations$uuid[organizations$uuid %in% org_uuid ] , 
                     keyword=organizations$category_list[organizations$uuid %in% org_uuid]) %>% unnest(keyword, names_sep = ",")

%in% 代码正在从另一个 table 中选择“id”和“关键字”信息……并且它正在正确执行此操作。 unnest 的管道似乎什么都不做。标题保持不变，只是列名现在是“keyword,keyword”而不是“keyword”，但数据与未使用 unnest 命令时相同。

Answer 1

如果 keywords 是字符串列，请使用 separate_rows 而不是 unnest

library(dplyr)
library(tidyr)
df1 %>%
    separate_rows(keywords, sep=",\s*")

dplyr unnest() 不适用于以逗号分隔的大数据

dplyr unnest() not working for large comma separated data

r

unnest

dplyr