什么是阿帕奇飞艇?

What is apache zeppelin?

由于我们经常听到有关 apache zeppelin 的信息,因此我们想到的问题很少:

  1. 什么是 Apache zeppelin?
  2. 它为大数据生态系统添加了哪些新的 and/or 额外内容?
  3. 它是否已经取代了一些框架/工具 存在于大数据生态系统中?

什么是笔记本界面?

用于交互式 运行 编码、探索和可视化数据的界面。它们允许您混合叙述、富媒体和数据。


简答: 启用数据驱动的基于 Web 的笔记本, SQL、Scala 等交互式数据分析和协作文档。

长答案:

  1. Zeppelin notebook 为您提供了一种在网络笔记本中执行任意代码的简单直接的方法。您可以执行 Scala,SQL,甚至可以定期将作业(通过 cron)安排到 运行。

  2. 首先,更容易在同一个笔记本中混合使用多种语言。你可以做一些 SQL,scala,然后 markdown 来一起记录它。您还可以轻松地将您的笔记本转换为演示文稿样式 - 以便向管理层展示或在仪表板中使用。

  3. Jupyter(以前称为 IPython)笔记本在 Python 社区中非常受欢迎。我不能使用“替换”这个词,我会使用类似的...

Further more .

  • Zeppelin supports Spark, PySpark, Spark R, Spark SQL with dependency loader.

  • Zeppelin lets you connect any JDBC data sources seamlessly. Postgresql, Mysql, MariaDB, Redshift, Apache Hive and so on.

  • Python is supported with Matplotlib, Conda, Pandas SQL and PySpark integrations.

Zeppelin 是一个很棒的工具。它允许在单个笔记本中使用不同的 backend/languages。这是一个简单的用例。

  1. 使用 Markdown 写一些描述
  2. 使用 Shell 准备数据。例如使用 curl/wget 下载文件,注入 HDFS
  3. 用Spark做数据分析
  4. 使用 SQL
  5. 的简单可视化
  6. 用Shell导出结果
  7. 发布图表 link

所有这些步骤都可以在一个笔记本中完成。一个笔记本可以做更多的事情。

Zeppelin 非常接近 Databricks.com 在线解决方案