如何读取 quanteda 中的文本文件,将每一行存储为文档
how to read text files in quanteda, storing each line as a document
我将文本存储在多个文件中。
在文件中,每一行都是一个文档(博客文本 post、推文文本等)。
如果我以 doc/examples 中显示的默认方式使用 readtext 包阅读,每个文件的内容将是一个文档,而不是每一行都是一个文档。
我的目标是使用 quanteda 语料库,将每一行存储为一个文档。
我正在使用 readtext,因为它是 quanteda 的配套包,但使用 readtext 并不是一个严格的要求。
我想避免手动将原始文件拆分为较小的文件,每个文件对应一行。
方法一:readLines()
与list.files()
结合使用:
txt <- character()
for (f in list.files("your-folder")) {
txt <- c(txt, readLines(f))
}
corp <- corpus(txt)
方法 2:您可以使用 corpus_segment()
:
在语料库中拆分行
corp <- corpus(readtext("your-folder"))
corp_line <- corpus_segment(corp, "\n", extract_pattern = FALSE, pattern_position = "after")
我将文本存储在多个文件中。
在文件中,每一行都是一个文档(博客文本 post、推文文本等)。
如果我以 doc/examples 中显示的默认方式使用 readtext 包阅读,每个文件的内容将是一个文档,而不是每一行都是一个文档。
我的目标是使用 quanteda 语料库,将每一行存储为一个文档。
我正在使用 readtext,因为它是 quanteda 的配套包,但使用 readtext 并不是一个严格的要求。
我想避免手动将原始文件拆分为较小的文件,每个文件对应一行。
方法一:readLines()
与list.files()
结合使用:
txt <- character()
for (f in list.files("your-folder")) {
txt <- c(txt, readLines(f))
}
corp <- corpus(txt)
方法 2:您可以使用 corpus_segment()
:
corp <- corpus(readtext("your-folder"))
corp_line <- corpus_segment(corp, "\n", extract_pattern = FALSE, pattern_position = "after")