r 中数据框内的文本分析

Text analysis within data frame in r

我正在研究 Google 存储元数据并将其作为数据框。每个应用程序都有关于单个单元格中所请求权限的信息,作为长文本,例如:

READ SENSITIVE LOG DATA|RETRIEVE RUNNING APPS|FIND ACCOUNTS ON THE DEVICE|READ YOUR OWN CONTACT CARD|READ YOUR CONTACTS|

我想把“|”之间的文字分开将字符放入不同的单元格(列)中,这样我就可以分析现有的权限。我以前没有用 R 分析过文本。我尝试使用字符串函数,但是,在查看单元格内的信息时,它不被识别为字符串。

有什么建议和方向吗?谢谢!

你可以这样做: 示例字符串 -

strin1 <- "READ SENSITIVE LOG DATA|RETRIEVE RUNNING APPS|FIND ACCOUNTS ON THE DEVICE|READ YOUR OWN CONTACT CARD|READ YOUR CONTACTS|"

read.table(text = strin1, sep ='|', colClasses = character)

成功了。

一个更好的解决方案是在这个答案中使用 tidyr 包:Splitting a dataframe string column into multiple different columns