需要 Bluemix Analytics for Apache Spark 日志文件信息

Bluemix Analytics for Apache Spark log file information required

我在调试我的 spark notebook 时想要更多信息。我找到了一些日志文件:

!ls $HOME/notebook/logs/

文件是:

bootstrap-nnnnnnnn_nnnnnn.log
jupyter-nnnnnnnn_nnnnnn.log   
kernel-pyspark-nnnnnnnn_nnnnnn.log
kernel-scala-nnnnnnnn_nnnnnn.log
logs-nnnnnnnn.tgz
monitor-nnnnnnnn_nnnnnn.log
spark160master-ego.log

哪些应用程序记录到这些文件,哪些信息写入了每个文件?

调试笔记本时,kernel-*-*.log 文件就是您要查找的文件。

按逻辑顺序...

  1. bootstrap-*.log是在服务启动的时候写的。每次启动一个文件,时间戳表示发生的时间。包含初始化用户环境、创建内核规范、准备 Spark 配置等的启动脚本的输出。

  2. bootstrap-*_allday.log对当天的每个服务起止都有记录

  3. jupyter-*.log 包含来自 Jupyter 服务器的输出。 bootstrap-*.log 的初始化完成后,Jupyter 服务器启动。那就是创建这个文件的时候。当笔记本内核启动或停止,以及笔记本被保存时,您将看到日志条目。

  4. monitor-*.log 包含随服务一起启动的监视脚本的输出。监控脚本必须检测 Jupyter 服务器正在监听哪个端口。之后,它会关注服务 activity 并在空闲时间过长时关闭服务。

  5. kernel-*-*.log 包含笔记本内核的输出。每个内核都有一个单独的日志文件,时间戳表示内核何时启动。文件名中的第二个字表示内核的类型。

  6. spark*-ego.log 包含 Spark 作业调度的输出。监控脚本使用它来检测 Spark 是否处于活动状态,尽管笔记本内核处于空闲状态。

  7. logs-*.tgz 包含相应日期的归档日志。它们将在几天后自动删除。

使用 DSX 中最近启用的 "environment" 功能,日志已移至目录 /var/pod/logs/。您仍会看到当前会话的 kernel-*-*.logjupyter-*.log 文件。但是,它们对调试没有用。

在 Spark 即服务后端中,每个内核都有一个 Spark 驱动程序进程,该进程记录到 kernel-*-*.log 文件。环境特性没有 Spark,内核本身不会为日志文件生成输出。