如何在 Dockerfile 中跨多个 CMD 语句保留 R 工作区?
How to persist an R workspace across multiple CMD statements in a Dockerfile?
我正在创建一个 docker 容器来接受来自客户端的输入数据,然后获取一个 R 脚本,该脚本 运行 对给定数据进行分析并将三个图作为 PDF 输出到工作目录。我正在 运行 解决 Docker 文件中需要两个 CMD 语句的问题,这是 Docker 引擎不允许的。我需要在 运行 时间读取用户数据,以便可以根据用户更改数据集。在 R 工作区中将用户数据作为 table 对象读入后,需要获取 R 脚本的源代码。发生的情况是,数据读入很好,但一条错误消息表明第二行 CMD 用于获取 R 脚本,找不到刚刚读入的数据。我理解这是因为 Docker文件在构建时单独执行,但我不知道如何解决这个问题。我研究了卷、主管的使用以及使用多个容器的可能性。我也可能制作一个 Python 脚本来动态编程我的 R 脚本,但这可能仍然需要两条 CMD 行。我还没有找到足够具体的例子来说明我的情况。你们会如何解决这个问题?
这是我的 R 脚本,用于从数据框创建 3 个图 'x':
library(iq)
norm_data <- iq::preprocess(x, median_normalization = FALSE, pdf_out = NULL)
protein_list <- iq::create_protein_list(norm_data)
# basic protein plot
pdf(file = "Protein P00366.pdf")
iq::plot_protein(protein_list$P00366, main = "Protein P00366", split = NULL)
dev.off()
protein_table <- iq::create_protein_table(protein_list)
#MaxLFQ plot
pdf(file = "MaxLFQ quantification of P00366.pdf")
iq::plot_protein(rbind(protein_list$P00366,
MaxLFQ = iq::maxLFQ(protein_list$P00366)$estimate),
main = "MaxLFQ quantification of P00366",
col = c(rep("gray", nrow(protein_list$P00366)), "green"),
split = NULL)
dev.off()
# ground truth
MaxLFQ_estimate <- iq::maxLFQ(protein_list$P12799)$estimate
ground_truth <- log2(rep(c(200, 125.99, 79.37, 50, 4, 2.52, 1.59, 1), each = 3))
ground_truth <- ground_truth - mean(ground_truth) + mean(MaxLFQ_estimate)
#ground truth plot
pdf(file = "P12799 MaxLFQ versus groundtruth.pdf")
iq::plot_protein(rbind(MaxLFQ = MaxLFQ_estimate,
Groundtruth = ground_truth),
main = "P12799 - MaxLFQ versus groundtruth",
split = 0.75,
col = c("green", "gold"))
dev.off()
这是我的Docker文件:
FROM r-base:latest
ENV SCRIPT=""
ENV DATA=""
RUN R -e "install.packages('iq', repos='http://cran.rstudio.com/')"
WORKDIR /home/iq/
CMD R -e "x <- read.table(\"$DATA\", header = TRUE, sep = ",", fill = TRUE)" \
&& R -e "source('$SCRIPT')"
在路径为 /home/iq 的文件夹中,我有名为 iqTest.R 的脚本、Docker 文件和 data.csv。
我一直在使用以下命令构建和 运行 连接我的容器:
$ cd iq
$ docker build -t my_image .
$ docker run -it -v /home/user/iq:/home/iq --env DATA=data.csv --env SCRIPT=iqTest.R my_image:latest
尝试 运行 后,我从 R 工作区收到以下错误消息:
> source('iqTest.R')
Error in iq::preprocess(x, median_normalization = FALSE, pdf_out = NULL) :
object 'x' not found
Calls: source -> withVisible -> eval -> eval -> <Anonymous>
编辑:我最近发现这个问题更多地与 R 相关:您可以使用 ;
将多行 R 代码连接成一行,从而解决了多个 CMD 语句的问题。愿此作为连接 R 和 Docker 的任何人的示例。
例如,新 Docker 文件用分号到 link 行:
FROM r-base:latest
ENV SCRIPT=""
ENV DATA=""
RUN mkdir /home/analysis/
RUN R -e "install.packages('iq', repos='http://cran.rstudio.com/')"
WORKDIR /home/analysis/
CMD R -e "x = read.csv(\"$DATA\", header = TRUE, sep = ",", fill = TRUE); source('$SCRIPT')"
如果您想通过环境变量配置数据路径,那么我建议您使用 Sys.getenv()
在脚本中访问该变量。这也允许您使用 Rscript
而不是 R -e "source...
.
以下是对我有用的方法:
script.R
cat(Sys.getenv('SCRIPT'), '\n');
cat(Sys.getenv('DATA'), '\n')
Dockerfile
FROM r-base:latest
ENV SCRIPT="script.R"
ENV DATA="data.csv"
WORKDIR /workspace
CMD R -q -e "source('$SCRIPT')"
# alternative: CMD Rscript $SCRIPT
用法
daniel@nuest /tmp/Whosebug []$ docker build --tag Whosebug .
Sending build context to Docker daemon 4.608kB
Step 1/5 : FROM r-base:latest
---> 46edce0e80af
Step 2/5 : ENV SCRIPT="script.R"
---> Using cache
---> 8f26d34d9c0a
Step 3/5 : ENV DATA="data.csv"
---> Using cache
---> 16c83c16a4c8
Step 4/5 : WORKDIR /workspace
---> Running in fce8619af30b
Removing intermediate container fce8619af30b
---> a8278f609d9a
Step 5/5 : CMD R -q -e "source('$SCRIPT')"
---> Running in 765bafeb8681
Removing intermediate container 765bafeb8681
---> ff7d7b09dffb
Successfully built ff7d7b09dffb
Successfully tagged Whosebug:latest
daniel@nuest /tmp/Whosebug []$ docker run --rm -it -v $(pwd):/workspace Whosebug
> source('script.R')
script.R
data.csv
>
>
或者,您可以尝试将数据路径作为参数传递给脚本文件,请参阅 https://swcarpentry.github.io/r-novice-inflammation/05-cmdline/
顺便说一句:固定特定的 R 版本比使用 :latest
更好,以实现可重复性。
我正在创建一个 docker 容器来接受来自客户端的输入数据,然后获取一个 R 脚本,该脚本 运行 对给定数据进行分析并将三个图作为 PDF 输出到工作目录。我正在 运行 解决 Docker 文件中需要两个 CMD 语句的问题,这是 Docker 引擎不允许的。我需要在 运行 时间读取用户数据,以便可以根据用户更改数据集。在 R 工作区中将用户数据作为 table 对象读入后,需要获取 R 脚本的源代码。发生的情况是,数据读入很好,但一条错误消息表明第二行 CMD 用于获取 R 脚本,找不到刚刚读入的数据。我理解这是因为 Docker文件在构建时单独执行,但我不知道如何解决这个问题。我研究了卷、主管的使用以及使用多个容器的可能性。我也可能制作一个 Python 脚本来动态编程我的 R 脚本,但这可能仍然需要两条 CMD 行。我还没有找到足够具体的例子来说明我的情况。你们会如何解决这个问题?
这是我的 R 脚本,用于从数据框创建 3 个图 'x':
library(iq)
norm_data <- iq::preprocess(x, median_normalization = FALSE, pdf_out = NULL)
protein_list <- iq::create_protein_list(norm_data)
# basic protein plot
pdf(file = "Protein P00366.pdf")
iq::plot_protein(protein_list$P00366, main = "Protein P00366", split = NULL)
dev.off()
protein_table <- iq::create_protein_table(protein_list)
#MaxLFQ plot
pdf(file = "MaxLFQ quantification of P00366.pdf")
iq::plot_protein(rbind(protein_list$P00366,
MaxLFQ = iq::maxLFQ(protein_list$P00366)$estimate),
main = "MaxLFQ quantification of P00366",
col = c(rep("gray", nrow(protein_list$P00366)), "green"),
split = NULL)
dev.off()
# ground truth
MaxLFQ_estimate <- iq::maxLFQ(protein_list$P12799)$estimate
ground_truth <- log2(rep(c(200, 125.99, 79.37, 50, 4, 2.52, 1.59, 1), each = 3))
ground_truth <- ground_truth - mean(ground_truth) + mean(MaxLFQ_estimate)
#ground truth plot
pdf(file = "P12799 MaxLFQ versus groundtruth.pdf")
iq::plot_protein(rbind(MaxLFQ = MaxLFQ_estimate,
Groundtruth = ground_truth),
main = "P12799 - MaxLFQ versus groundtruth",
split = 0.75,
col = c("green", "gold"))
dev.off()
这是我的Docker文件:
FROM r-base:latest
ENV SCRIPT=""
ENV DATA=""
RUN R -e "install.packages('iq', repos='http://cran.rstudio.com/')"
WORKDIR /home/iq/
CMD R -e "x <- read.table(\"$DATA\", header = TRUE, sep = ",", fill = TRUE)" \
&& R -e "source('$SCRIPT')"
在路径为 /home/iq 的文件夹中,我有名为 iqTest.R 的脚本、Docker 文件和 data.csv。 我一直在使用以下命令构建和 运行 连接我的容器:
$ cd iq
$ docker build -t my_image .
$ docker run -it -v /home/user/iq:/home/iq --env DATA=data.csv --env SCRIPT=iqTest.R my_image:latest
尝试 运行 后,我从 R 工作区收到以下错误消息:
> source('iqTest.R')
Error in iq::preprocess(x, median_normalization = FALSE, pdf_out = NULL) :
object 'x' not found
Calls: source -> withVisible -> eval -> eval -> <Anonymous>
编辑:我最近发现这个问题更多地与 R 相关:您可以使用 ;
将多行 R 代码连接成一行,从而解决了多个 CMD 语句的问题。愿此作为连接 R 和 Docker 的任何人的示例。
例如,新 Docker 文件用分号到 link 行:
FROM r-base:latest
ENV SCRIPT=""
ENV DATA=""
RUN mkdir /home/analysis/
RUN R -e "install.packages('iq', repos='http://cran.rstudio.com/')"
WORKDIR /home/analysis/
CMD R -e "x = read.csv(\"$DATA\", header = TRUE, sep = ",", fill = TRUE); source('$SCRIPT')"
如果您想通过环境变量配置数据路径,那么我建议您使用 Sys.getenv()
在脚本中访问该变量。这也允许您使用 Rscript
而不是 R -e "source...
.
以下是对我有用的方法:
script.R
cat(Sys.getenv('SCRIPT'), '\n');
cat(Sys.getenv('DATA'), '\n')
Dockerfile
FROM r-base:latest
ENV SCRIPT="script.R"
ENV DATA="data.csv"
WORKDIR /workspace
CMD R -q -e "source('$SCRIPT')"
# alternative: CMD Rscript $SCRIPT
用法
daniel@nuest /tmp/Whosebug []$ docker build --tag Whosebug .
Sending build context to Docker daemon 4.608kB
Step 1/5 : FROM r-base:latest
---> 46edce0e80af
Step 2/5 : ENV SCRIPT="script.R"
---> Using cache
---> 8f26d34d9c0a
Step 3/5 : ENV DATA="data.csv"
---> Using cache
---> 16c83c16a4c8
Step 4/5 : WORKDIR /workspace
---> Running in fce8619af30b
Removing intermediate container fce8619af30b
---> a8278f609d9a
Step 5/5 : CMD R -q -e "source('$SCRIPT')"
---> Running in 765bafeb8681
Removing intermediate container 765bafeb8681
---> ff7d7b09dffb
Successfully built ff7d7b09dffb
Successfully tagged Whosebug:latest
daniel@nuest /tmp/Whosebug []$ docker run --rm -it -v $(pwd):/workspace Whosebug
> source('script.R')
script.R
data.csv
>
>
或者,您可以尝试将数据路径作为参数传递给脚本文件,请参阅 https://swcarpentry.github.io/r-novice-inflammation/05-cmdline/
顺便说一句:固定特定的 R 版本比使用 :latest
更好,以实现可重复性。