使用 CoreNLP ColumnDataClassifier 对大型语料库进行文档分类

Using CoreNLP ColumnDataClassifier for document classification with a large corpus

我正在尝试使用 CoreNLP ColumnDataClassifier 对大量文档进行分类。我有大约 20000 个标签的 100 万多份文档。

这在内存需求方面是否可行? (我目前只有16GB)

是否有可能以迭代方式训练分类器,将输入分成许多较小的文件?

作为实验我运行:

1.) 500,000 documents, each with 100 random words
2.) a label set of 10,000

即使我给它 40 GB 的 RAM,它也会因内存错误而崩溃。

我也运行:

1.) same 500,000 documents
2.) a label set of 6

这 运行 使用 16 GB RAM 成功完成。

我不确定在什么时候增加标签集会导致崩溃,但我的建议是缩小可能的标签集并进行实验。