ColumnDataClassifier 的最大数量 类

maximum number of classes for ColumnDataClassifier

我在使用 ColumnDataClassifier 时可以拥有的 类 的最大数量是否有限制?我有一些要分配给 10k 组织的地址,但即使我将 -xmx 数字设置为最大值后,我仍将 运行 存入内存问题。

标签集的大小没有明确的限制,但 10k 是一个非常大的集合,我对您遇到内存问题并不感到惊讶。您应该尝试使用更小的标签集(约 100 个标签)进行一些实验,看看您的问题是否消失。我不知道有多少标签可以实际使用,但我怀疑它不会接近 10,000。我会尝试更小的集合,只是为了了解内存使用量是如何随着标签集大小的增长而增长的。

您可能必须具有标签层次结构和不同的分类器。您可以想象第一个标签是 "California-organization",然后有第二个分类器 select 各个加利福尼亚组织,等等...