我正在寻找用于技术产品审查的荷兰语分词器
I am looking for a dutch language tokenizer for technical product review
我正在尝试为荷兰语 NLP 问题找出更好的文本清理方法。我将荷兰语版本用于 pos 标签,将 nltk 用于删除停用词。但是我没有得到想要的结果。
你试过荷兰语的这种方法吗?
from nltk.util import ngrams
from nltk.corpus import alpino
print(alpino.words())
quadgrams=ngrams(alpino.words(),4)
for i in quadgrams:
print(i)
我正在尝试为荷兰语 NLP 问题找出更好的文本清理方法。我将荷兰语版本用于 pos 标签,将 nltk 用于删除停用词。但是我没有得到想要的结果。
你试过荷兰语的这种方法吗?
from nltk.util import ngrams
from nltk.corpus import alpino
print(alpino.words())
quadgrams=ngrams(alpino.words(),4)
for i in quadgrams:
print(i)