我可以将 Papermill 和 Scrapbook 与 AWS EMR 笔记本一起使用吗?

Can I use Papermill and Scrapbook with AWS EMR Notebooks?

我有几本笔记本,它们是 运行 使用造纸机的 "driver" 笔记本。这些笔记本使用剪贴簿库与 driver 交流信息。 driver 然后将此信息作为参数传递给其他笔记本。我想用EMR Notebooks来优化这个"notebook pipeline"的执行效率。 AWS EMR Notebooks 是否支持剪贴簿和造纸厂,或者我是否需要重构我的笔记本?

到目前为止,没有。你不能直接这样做。 您可以做的(我们正在做的)如下:

  1. 使用 hadoop 用户
  2. 在您的 EMR 主节点上创建一个 python 环境
  3. 在您的环境中安装 sparkmagic 并按照 README.md sparkmagic
  4. 文件中的描述配置所有内核
  5. 直接从 s3 位置复制你的笔记本到 master node/use它
  6. 安装 papermill 和 运行 with papermill :

    papermill s3://path/to/notebook/input.ipynb s3://path/to/notebook/output.ipynb -p param=1