r 中数据框内的文本分析
Text analysis within data frame in r
我正在研究 Google 存储元数据并将其作为数据框。每个应用程序都有关于单个单元格中所请求权限的信息,作为长文本,例如:
READ SENSITIVE LOG DATA|RETRIEVE RUNNING APPS|FIND ACCOUNTS ON THE DEVICE|READ YOUR OWN CONTACT CARD|READ YOUR CONTACTS|
我想把“|”之间的文字分开将字符放入不同的单元格(列)中,这样我就可以分析现有的权限。我以前没有用 R 分析过文本。我尝试使用字符串函数,但是,在查看单元格内的信息时,它不被识别为字符串。
有什么建议和方向吗?谢谢!
你可以这样做:
示例字符串 -
strin1 <- "READ SENSITIVE LOG DATA|RETRIEVE RUNNING APPS|FIND ACCOUNTS ON THE DEVICE|READ YOUR OWN CONTACT CARD|READ YOUR CONTACTS|"
read.table(text = strin1, sep ='|', colClasses = character)
成功了。
一个更好的解决方案是在这个答案中使用 tidyr
包:Splitting a dataframe string column into multiple different columns
我正在研究 Google 存储元数据并将其作为数据框。每个应用程序都有关于单个单元格中所请求权限的信息,作为长文本,例如:
READ SENSITIVE LOG DATA|RETRIEVE RUNNING APPS|FIND ACCOUNTS ON THE DEVICE|READ YOUR OWN CONTACT CARD|READ YOUR CONTACTS|
我想把“|”之间的文字分开将字符放入不同的单元格(列)中,这样我就可以分析现有的权限。我以前没有用 R 分析过文本。我尝试使用字符串函数,但是,在查看单元格内的信息时,它不被识别为字符串。
有什么建议和方向吗?谢谢!
你可以这样做: 示例字符串 -
strin1 <- "READ SENSITIVE LOG DATA|RETRIEVE RUNNING APPS|FIND ACCOUNTS ON THE DEVICE|READ YOUR OWN CONTACT CARD|READ YOUR CONTACTS|"
read.table(text = strin1, sep ='|', colClasses = character)
成功了。
一个更好的解决方案是在这个答案中使用 tidyr
包:Splitting a dataframe string column into multiple different columns