如何使用 Rapid Miner 处理波斯文本？

How can I process Persian texts using Rapid Miner?

我正在从事波斯语分类项目。波斯语文本与阿拉伯语文本非常相似。当我使用 Tokenize 时，它不会在其单词列表页面和示例集页面中显示任何单词，将显示下图：

我需要将波斯语文本分类到某个类别，但我不知道如何分类？

我按照这样的步骤操作：

1- 读取 Excel（使用读取 Excel 组件）具有 2 列的数据集 => col1:persian 文本，col2：类别

2-我使用Set角色组件来标注数据

3- 我使用来自数据组件的流程文档，其中包含：（令牌化（任何模式都不会改变任何东西）和过滤器令牌（最小值：5，最大值：25）在其中）

4- 然后我使用交叉验证组件通过 SVM 或 Basian 进行训练，并在测试模式下获得性能。

程序运行正确，性能也不错，例如准确率为 50%，但我认为我的工作是错误的。

如有任何帮助，我们将不胜感激。

首先，确保您的文本数据具有 UTF-8 编码 如果你使用过滤器标记（按长度）5 是太多最小尝试 2 或至少 3 另外，我建议使用 Filter Stopwords (Dictionary) 运算符，并且字典的每一行都应该有波斯语停用词希望对你有帮助