如何混合 Weka Tokenizer 结果

How to mix Weka Tokenizer results

我有英文和西班牙文文本,我想使用 Weka 分别对每个文本进行标记化,然后将两种结果合并为一个输出。

例如,如果我复制英语的属性,然后复制西班牙语的属性,以相同的方式为两个实验生成数据,则西班牙语属性的索引(在西班牙语数据中)将指向英语的。

如果我把课文混在一起。不知道每种语言会生成多少个属性(我希望每个语言的属性个数都一样)

在 Weka 中,是否存在任何方式将两种结果混合在同一输出中,每种语言具有相同数量的属性?或者存在一种模式来配置 Tokenizer 的字典,因为它使用我自己的字典?

提前致谢。

您可以构建一个分层模型。

在第 1 级,您为每种语言构建一个单独且独立的模型,无论它们具有什么标记(不同的标记)。然后你输出他们对任何最终 类 的预测概率,作为文本(任何语言)和 类(最终任务的共同点,可能是中间特征)之间的映射。

使用这些常见的 类 构建一个 2 级模型,您可以在其中将他们的预测映射到您的最终 类。