在 Python 中进行法语文本分析的最佳方法是什么?
What is the best way to do french text analysis in Python?
我想对法语文本进行文本分析,以可视化这些文本之间的相似性,可能 class 取决于所使用的单词。
我请求你的帮助,因为我刚开始使用 Python,考虑到我的文本是法语,我想知道在 Python 中进行文本分析的最佳方法?
是否有专门为法语文本设计的库?用途是清理数据,并进一步分析数据。
我已经可以了:
- 清理:删除了所有特殊字符,将每个单词都变成小写并禁止停用词
- 标签:法语单词不是最佳的(测试的图书馆:StanfordPostagger,Tag.pos de NLTK)。
- Lemmatize:对于法语单词(FrenchLefffLemmatizer、WordNetLemmatizer)不是最优的 (--)
- 词干提取:FrenchStemmer snowball
我不能用法语单词做什么:传递给单数,传递动词给不定式...
Spacy 库和 Treetagger 工具(您可以通过 treetaggerwrapper 库使用)有良好的法语支持。
使用 spacy 的示例:
import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
print(token.lemma_)
打印:
je
avoir
manger
un
pomme
hier
Treetagger 更难安装,但 this can help you and here 是 python 包装器的文档。
我想对法语文本进行文本分析,以可视化这些文本之间的相似性,可能 class 取决于所使用的单词。 我请求你的帮助,因为我刚开始使用 Python,考虑到我的文本是法语,我想知道在 Python 中进行文本分析的最佳方法?
是否有专门为法语文本设计的库?用途是清理数据,并进一步分析数据。
我已经可以了:
- 清理:删除了所有特殊字符,将每个单词都变成小写并禁止停用词
- 标签:法语单词不是最佳的(测试的图书馆:StanfordPostagger,Tag.pos de NLTK)。
- Lemmatize:对于法语单词(FrenchLefffLemmatizer、WordNetLemmatizer)不是最优的 (--)
- 词干提取:FrenchStemmer snowball
我不能用法语单词做什么:传递给单数,传递动词给不定式...
Spacy 库和 Treetagger 工具(您可以通过 treetaggerwrapper 库使用)有良好的法语支持。
使用 spacy 的示例:
import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
print(token.lemma_)
打印:
je
avoir
manger
un
pomme
hier
Treetagger 更难安装,但 this can help you and here 是 python 包装器的文档。