如何混合 Weka Tokenizer 结果

How to mix Weka Tokenizer results

我有英文和西班牙文文本，我想使用 Weka 分别对每个文本进行标记化，然后将两种结果合并为一个输出。

例如，如果我复制英语的属性，然后复制西班牙语的属性，以相同的方式为两个实验生成数据，则西班牙语属性的索引（在西班牙语数据中）将指向英语的。

如果我把课文混在一起。不知道每种语言会生成多少个属性（我希望每个语言的属性个数都一样）

在 Weka 中，是否存在任何方式将两种结果混合在同一输出中，每种语言具有相同数量的属性？或者存在一种模式来配置 Tokenizer 的字典，因为它使用我自己的字典？

提前致谢。

您可以构建一个分层模型。

在第 1 级，您为每种语言构建一个单独且独立的模型，无论它们具有什么标记（不同的标记）。然后你输出他们对任何最终类的预测概率，作为文本（任何语言）和类（最终任务的共同点，可能是中间特征）之间的映射。

使用这些常见的类构建一个 2 级模型，您可以在其中将他们的预测映射到您的最终类。