阿帕奇星火与阿帕奇星火 2

Apache Spark vs Apache Spark 2

与 Apache Spark 相比,Apache Spark2 带来了哪些改进?

  1. 从架构的角度
  2. 从应用的角度
  3. 或更多

架构上没有太大区别,概括起来还是DAG和RDD,这是最重要的部分!

尽管 Spark 2.0 更加优化并且具有 DataSet Api,这为开发人员提供了更强大的功能。 所以我想说架构是一样的,只是 Spark 2.0 提供了很多优化并且有一组丰富的 Api !

Apache Spark 2.0 提供的主要内容如下:

  • 我能看到的最大变化是 DataSet 和 DataFrame API 将被合并。
  • 来自 Spark 的最新最好的将是一个整体 与前辈相比,效率更高。 Spark 2.0将要 专注于 Parquet 和缓存的结合以实现更好的效果 吞吐量。
  • 结构化流是另一件大事!
  • 这将是 第一个版本将专注于 ETL。后续版本将为 ETL 添加更多运算符和库

更多信息请看这里:https://www.quora.com/What-are-special-features-and-advantages-of-Apache-Spark-2-0-over-earlier-versions

Apache Spark 2.0.0 APIs have stayed largely similar to 1.X, Spark 2.0.0 does have API breaking changes

Apache Spark 2.0.0 是 2.x 行的第一个版本。主要更新是 API 可用性、SQL 2003 支持、性能改进、结构化流、R UDF 支持以及操作改进

New in spark 2:

  • 我能看到的最大变化是 DataSet 和 DataFrame APIs 将被合并。
  • 与前辈相比,Spark 的最新和最强大的产品将更加高效。 Spark 2.0 将专注于 Parquet 和缓存的组合,以实现更好的吞吐量。
  • 结构化流是另一件大事!
  • 这将是第一个专注于 ETL 的版本。后续版本将为 ETL 添加更多运算符和库

您可以浏览 Spark release 2.0.0,其中解释了以下几点的更新:

  • API稳定性
  • 核心与火花SQL
  • MLlib
  • SparkR
  • 流媒体
  • 依赖、打包和操作
  • 删除、行为更改和弃用
  • 已知问题