IBM Watson NLC - 使用超过 20,000 个文本示例进行训练?

IBM Watson NLC - Training with more than 20,000 text examples?

我们目前正在开发一个系统,可以从文本输入中 return ICD10-CM 代码(medical/diagnosis 编码系统)。例子

问题是,ICD10-CM 有 70,000 到 100,000 个代码,因此在我从 .csv 文件上传所有这些文本示例后,它不会让我训练模型。

使用多个模型是解决方案还是我应该切换到 Google 的 AutoML?

如果您有 70-100k 个代码或 classes,您将无法仅用 20k 个示例训练出有用的模型。相比之下,ImageNet 数据集有 20k 个类别,但也有 1400 万个示例。

我不知道 ICD10-CM 是否有更广泛的类别,但如果有,你可以 训练模型来预测这些。

另一种选择是将自己限制在示例中出现至少 100 次的代码,并将所有其他代码放在一个 class 中。这意味着您将有很多输入,您将无法 return 代码。

无论如何,我认为将您的模型仅包含 20k 个示例用于实际医疗目的是危险的。