使用 CoreNLP ColumnDataClassifier 对大型语料库进行文档分类
Using CoreNLP ColumnDataClassifier for document classification with a large corpus
我正在尝试使用 CoreNLP ColumnDataClassifier 对大量文档进行分类。我有大约 20000 个标签的 100 万多份文档。
这在内存需求方面是否可行? (我目前只有16GB)
是否有可能以迭代方式训练分类器,将输入分成许多较小的文件?
作为实验我运行:
1.) 500,000 documents, each with 100 random words
2.) a label set of 10,000
即使我给它 40 GB 的 RAM,它也会因内存错误而崩溃。
我也运行:
1.) same 500,000 documents
2.) a label set of 6
这 运行 使用 16 GB RAM 成功完成。
我不确定在什么时候增加标签集会导致崩溃,但我的建议是缩小可能的标签集并进行实验。
我正在尝试使用 CoreNLP ColumnDataClassifier 对大量文档进行分类。我有大约 20000 个标签的 100 万多份文档。
这在内存需求方面是否可行? (我目前只有16GB)
是否有可能以迭代方式训练分类器,将输入分成许多较小的文件?
作为实验我运行:
1.) 500,000 documents, each with 100 random words
2.) a label set of 10,000
即使我给它 40 GB 的 RAM,它也会因内存错误而崩溃。
我也运行:
1.) same 500,000 documents
2.) a label set of 6
这 运行 使用 16 GB RAM 成功完成。
我不确定在什么时候增加标签集会导致崩溃,但我的建议是缩小可能的标签集并进行实验。