如何使用 Rapid Miner 处理波斯文本?

How can I process Persian texts using Rapid Miner?

我正在从事波斯语分类项目。波斯语文本与阿拉伯语文本非常相似。当我使用 Tokenize 时,它​​不会在其单词列表页面和示例集页面中显示任何单词,将显示下图:

我需要将波斯语文本分类到某个类别,但我不知道如何分类?

我按照这样的步骤操作:

1- 读取 Excel(使用读取 Excel 组件)具有 2 列的数据集 => col1:persian 文本,col2:类别

2-我使用Set角色组件来标注数据

3- 我使用来自数据组件​​的流程文档,其中包含:(令牌化(任何模式都不会改变任何东西)和过滤器令牌(最小值:5,最大值:25)在其中)

4- 然后我使用交叉验证组件通过 SVM 或 Basian 进行训练,并在测试模式下获得性能。

程序运行正确,性能也不错,例如准确率为 50%,但我认为我的工作是错误的。

如有任何帮助,我们将不胜感激。

首先,确保您的文本数据具有 UTF-8 编码 如果你使用过滤器标记(按长度)5 是 太多 最小尝试 2 或至少 3 另外,我建议使用 Filter Stopwords (Dictionary) 运算符,并且字典的每一行都应该有波斯语停用词 希望对你有帮助