应用字典后如何在 quanteda 中查看标记

Question

第一次在这里提问，如有不当之处还望见谅。我使用 R 包 quanteda 来分析文本文档。

我现在的问题是，我想在应用我开发的词典后查看文本。为了应用字典，我对语料库进行了标记化，但后来找不到允许我查看标记化文本的函数或方法。我查看了 quanteda 网站和作弊 sheet 但找不到任何解决方案。这基本上是我代码的重要部分：

tokens_text_dict <- tokens_text %>% 
  tokens_lookup(dict_Info_priv, exclusive = FALSE)

编辑：将代码从评论移至问题：

text1 <- "a b c"
corpus1 <- corpus(text1)
tokens <- tokens(corpus1)
dict1 <- dictionary(list(A = "a")
tokens1_dict <- tokens_text %>% 
   tokens_lookup(dict1, exclusive = FALSE)

我正在寻找会给出 "A b c" 的命令，现在应该在 tokens1_dict.

中

非常感谢您的帮助！

祝福

雅尼克

Answer 1

有两种简单的方法可以查看您的代币。在 quanteda v2 中，有用于将令牌对象打印到控制台的选项。（参见 ?`print-quanteda`）

> print(tokens1_dict, max_ndoc = -1, max_ntok = -1)
Tokens consisting of 1 document.
text1 :
[1] "A" "b" "c"

或者，可以使用View()函数，调用display方法查看列表（其中tokens对象是一种特殊类型）。通过单击“环境”窗格中的对象名称，也会在 RStudio 中触发此操作。

> View(tokens1_dict)

应用字典后如何在 quanteda 中查看标记

How to view tokens in quanteda after applying a dictionary

nlp

r

text-mining

access-token

quanteda