在 Python 中进行法语文本分析的最佳方法是什么？

Question

我想对法语文本进行文本分析，以可视化这些文本之间的相似性，可能 class 取决于所使用的单词。我请求你的帮助，因为我刚开始使用 Python，考虑到我的文本是法语，我想知道在 Python 中进行文本分析的最佳方法？

是否有专门为法语文本设计的库？用途是清理数据，并进一步分析数据。

我已经可以了:

清理：删除了所有特殊字符，将每个单词都变成小写并禁止停用词
标签：法语单词不是最佳的（测试的图书馆：StanfordPostagger，Tag.pos de NLTK）。
Lemmatize：对于法语单词（FrenchLefffLemmatizer、WordNetLemmatizer）不是最优的 (--)
词干提取：FrenchStemmer snowball

我不能用法语单词做什么：传递给单数，传递动词给不定式...

Answer 1

Spacy 库和 Treetagger 工具（您可以通过 treetaggerwrapper 库使用）有良好的法语支持。

使用 spacy 的示例：

import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

打印：

je
avoir
manger
un
pomme
hier

Treetagger 更难安装，但 this can help you and here 是 python 包装器的文档。

在 Python 中进行法语文本分析的最佳方法是什么？

What is the best way to do french text analysis in Python?

python

natural-language-processing