在没有 Spark 依赖项的情况下使用 MLlib 2+

Using MLlib 2+ without Spark dependencies

由于 MLlib 在后台使用 Breeze,是否有一种方法可以将 MLlib 与 Breeze 数据结构一起使用,这样我就不需要整个 Spark 生态系统,但仍然可以仅在本地使用 MLlib?

你不能那样做。即使可以取消依赖,也不能在没有 spark-core 的情况下使用 spark-mllib。

不过,如果您想以独立方式从 MLLib 运行 算法,则需要以独立模式安装 spark。在这种情况下不需要真正的集群,但解决方案显然无法扩展。

完全同意@Eliasah

您甚至可以在 IDE 项目设置中 运行 MLlib。我有一个 Gradle 项目到 运行 MLlib -

dependencies {
    implementation 'org.scala-lang:scala-library:2.11.12'
    compile group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.4.4'
    compile group: 'org.apache.spark', name: 'spark-sql_2.11', version: '2.4.4'
    compile group: 'org.apache.spark', name: 'spark-mllib_2.11', version: '2.4.4'

    runtime group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.4.4'
    runtime group: 'org.apache.spark', name: 'spark-sql_2.11', version: '2.4.4'
    runtime group: 'org.apache.spark', name: 'spark-mllib_2.11', version: '2.4.4'
}