应用字典后如何在 quanteda 中查看标记

How to view tokens in quanteda after applying a dictionary

第一次在这里提问,如有不当之处还望见谅。 我使用 R 包 quanteda 来分析文本文档。

我现在的问题是,我想在应用我开发的词典后查看文本。为了应用字典,我对语料库进行了标记化,但后来找不到允许我查看标记化文本的函数或方法。我查看了 quanteda 网站和作弊 sheet 但找不到任何解决方案。 这基本上是我代码的重要部分:

tokens_text_dict <- tokens_text %>% 
  tokens_lookup(dict_Info_priv, exclusive = FALSE)

编辑:将代码从评论移至问题:

text1 <- "a b c"
corpus1 <- corpus(text1)
tokens <- tokens(corpus1)
dict1 <- dictionary(list(A = "a")
tokens1_dict <- tokens_text %>% 
   tokens_lookup(dict1, exclusive = FALSE)

我正在寻找会给出 "A b c" 的命令,现在应该在 tokens1_dict.

非常感谢您的帮助!

祝福

雅尼克

有两种简单的方法可以查看您的代币。在 quanteda v2 中,有用于将令牌对象打印到控制台的选项。 (参见 ?`print-quanteda`

> print(tokens1_dict, max_ndoc = -1, max_ntok = -1)
Tokens consisting of 1 document.
text1 :
[1] "A" "b" "c"

或者,可以使用View()函数,调用display方法查看列表(其中tokens对象是一种特殊类型)。通过单击“环境”窗格中的对象名称,也会在 RStudio 中触发此操作。

> View(tokens1_dict)