不应使用 Spark MMLIB 的常见用例有哪些

What are the common use cases for which Spark MMLIB should not be used

我有兴趣了解不应使用 Spark MMLIB 的用例。

根据经验,您应该在以下情况重新考虑您的选择:

  • 您需要精确解或定义明确的错误。 Spark MLlib 通常使用针对 Spark 架构额外调整的启发式算法。有些通常会给出很好的结果,有些可能需要复杂的调整。
  • 您的数据很薄/维数很少(最多几千)或数据适合单个节点的内存(今天很容易达到 256GB - 512GB)。在这种情况下,优化的机器学习/线性代数库通常比 Spark 表现更好。
  • 您想在训练过程中收集详细的诊断信息。 MLlib 算法通常是黑盒。
  • 模型将在 Spark 外部使用。导出选项相当有限。