YARN 上的 Samza 在哪里放置其 KV 状态存储?

Where does Samza on YARN place its KV state stores?

我需要找到 YARN 上的 Samza 放置其 KV 状态存储的位置。我怀疑它和所有 YARN 应用程序一样位于 YARN 本地应用程序目录中,但我相信它是可配置的,因为我几个月前在不同的环境中这样做(将文件夹映射到内存)但现在不记得了。

为此,我需要能够将 samza KV 存储与其他应用程序的其他 YARN 应用程序数据分开。

这是解决方案。它打印在 Samza 作业日志输出中:

[WARN] No override was provided for logged store base directory. This disables local state re-use on application restart. If you want to enable this feature, set LOGGED_STORE_BASE_DIR as an environment variable in all machines running the Samza container

LOGGED_STORE_BASE_DIR 可以设置为 NodeManager 启动的一部分。例如:

# Typical environment setup.
export JAVA_HOME=...
export YARN_CONF_DIR=...
export YARN_LOG_DIR=...
export HADOOP_LOG_DIR=...
export YARN_MASTER=...
export YARN_PID_DIR=...
export YARN_IDENT_STRING=...
export YARN_NICENESS=...
export YARN_OPTS="-XX:+UseG1GC -XX:ErrorFile=logs/hs_err.log -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintTenuringDistribution -XX:ErrorFile=logs/hs_err.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintTenuringDistribution -Xloggc:logs/gc.log"

# Location of samza-kv stores for host affinity (should be on an SSD).
export LOGGED_STORE_BASE_DIR="/mnt/myssd/samza/logged-stores"

# Startup the Yarn NodeManager
./yarn-daemon.sh" --config "$YARN_CONF_DIR" nodemanager

仅当商店启用了更新日志时,商店路径才可配置。

存储位置由环境变量控制LOGGED_STORE_BASE_DIR

此处提供了更多详细信息:http://samza.apache.org/learn/documentation/0.11/yarn/yarn-host-affinity.html