将文本文件加载到 R 中以分析聊天记录

Loading text file into R to analyze chat log

所以,我一直在尝试把一个文本文件(每一行都是一个聊天记录)转成R,转成数据框,进一步整理数据。

我正在使用 read.Lines,因此我可以将每个日志作为一行。因为 read.Lines 读取了一个 long char;然后我将它们转换为字符串(我需要解析日志);如下

rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- c(lapply(rawchat, toString))

当我想将此列表转换为数据框时,我的问题来了:

rawchat <- as.data.frame(rawchat)

它将列表变成一个数据框,包含 42,000 个变量的 1 个观察值。目的是将其转化为一个变量的 42,000 个观察值。

有什么帮助吗?

顺便说一下,我对在 R 中整理原始数据还很陌生。


所以,我遇到了另一个障碍:

我按照下面的方式加载了一个文本文件作为数据框。

rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE)
names(rawchat) <- "chat"

我目前正在尝试识别以数字 16 开头的任何行 (42000)。我似乎无法正确应用 startsWith() 函数或 dplyr starts_with() ,甚至 grepl 与正则表达式。

莫非是数据框观察的格式(chr)?

问题出在你的rawchat <- c(lapply(rawchat, toString)) 只需使用

rawchat <- readLines("disc-W-App-avec-loy.txt")")
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE)