不同语言的文本预处理
Text preprocessing in a different language
使用此选项可以对英语语言进行预处理文本分析
dflemma <-
spacy_parse(structure(df2$term, names = df2$id), lemma = TRUE, pos = FALSE) %>%
group_by(id = sub("(.+)-(.+)", "\1", doc_id)) %>%
summarise(text = paste(lemma, collapse = " "))
myCorpus <- corpus(dflemma[["text"]], docnames = dflemma[["id"]])
mystopwords <- c("can")
myDfm <- myCorpus %>%
tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE) %>%
tokens_remove(pattern = c(stopwords(source = "smart"), mystopwords)) %>%
dfm(verbose = FALSE)
如何为德语和希腊语删除停用词和词干提取?
德语和希腊语都可以在词干提取和停用词语言列表中找到,因此它们应该很容易应用于 quanteda。
library("quanteda")
## Package version: 3.2.0.9000
## Unicode version: 13.0
## ICU version: 69.1
## Parallel computing: 8 of 8 threads used.
## See https://quanteda.io for tutorials and examples.
txt_german <- "Wie kann ich eine natürliche Sprachverarbeitung für Texte in anderen Sprachen durchführen?"
txt_greek <- "Πώς μπορώ να πραγματοποιήσω επεξεργασία φυσικής γλώσσας σε κείμενα σε άλλες γλώσσες;"
tokens(txt_german, remove_punct = TRUE) %>%
tokens_remove(stopwords("de")) %>%
tokens_wordstem(language = "de")
## Tokens consisting of 1 document.
## text1 :
## [1] "natur" "Sprachverarbeit" "Text" "Sprach"
## [5] "durchfuhr"
tokens(txt_greek, remove_punct = TRUE) %>%
tokens_remove(stopwords("de")) %>%
tokens_wordstem(language = "de")
## Tokens consisting of 1 document.
## text1 :
## [1] "Πώς" "μπορώ" "να" "πραγματοποιήσω"
## [5] "επεξεργασία" "φυσικής" "γλώσσας" "σε"
## [9] "κείμενα" "σε" "άλλες" "γλώσσες"
使用此选项可以对英语语言进行预处理文本分析
dflemma <-
spacy_parse(structure(df2$term, names = df2$id), lemma = TRUE, pos = FALSE) %>%
group_by(id = sub("(.+)-(.+)", "\1", doc_id)) %>%
summarise(text = paste(lemma, collapse = " "))
myCorpus <- corpus(dflemma[["text"]], docnames = dflemma[["id"]])
mystopwords <- c("can")
myDfm <- myCorpus %>%
tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE) %>%
tokens_remove(pattern = c(stopwords(source = "smart"), mystopwords)) %>%
dfm(verbose = FALSE)
如何为德语和希腊语删除停用词和词干提取?
德语和希腊语都可以在词干提取和停用词语言列表中找到,因此它们应该很容易应用于 quanteda。
library("quanteda")
## Package version: 3.2.0.9000
## Unicode version: 13.0
## ICU version: 69.1
## Parallel computing: 8 of 8 threads used.
## See https://quanteda.io for tutorials and examples.
txt_german <- "Wie kann ich eine natürliche Sprachverarbeitung für Texte in anderen Sprachen durchführen?"
txt_greek <- "Πώς μπορώ να πραγματοποιήσω επεξεργασία φυσικής γλώσσας σε κείμενα σε άλλες γλώσσες;"
tokens(txt_german, remove_punct = TRUE) %>%
tokens_remove(stopwords("de")) %>%
tokens_wordstem(language = "de")
## Tokens consisting of 1 document.
## text1 :
## [1] "natur" "Sprachverarbeit" "Text" "Sprach"
## [5] "durchfuhr"
tokens(txt_greek, remove_punct = TRUE) %>%
tokens_remove(stopwords("de")) %>%
tokens_wordstem(language = "de")
## Tokens consisting of 1 document.
## text1 :
## [1] "Πώς" "μπορώ" "να" "πραγματοποιήσω"
## [5] "επεξεργασία" "φυσικής" "γλώσσας" "σε"
## [9] "κείμενα" "σε" "άλλες" "γλώσσες"