如何在 Dockerfile 中跨多个 CMD 语句保留 R 工作区?

How to persist an R workspace across multiple CMD statements in a Dockerfile?

我正在创建一个 docker 容器来接受来自客户端的输入数据,然后获取一个 R 脚本,该脚本 运行 对给定数据进行分析并将三个图作为 PDF 输出到工作目录。我正在 运行 解决 Docker 文件中需要两个 CMD 语句的问题,这是 Docker 引擎不允许的。我需要在 运行 时间读取用户数据,以便可以根据用户更改数据集。在 R 工作区中将用户数据作为 table 对象读入后,需要获取 R 脚本的源代码。发生的情况是,数据读入很好,但一条错误消息表明第二行 CMD 用于获取 R 脚本,找不到刚刚读入的数据。我理解这是因为 Docker文件在构建时单独执行,但我不知道如何解决这个问题。我研究了卷、主管的使用以及使用多个容器的可能性。我也可能制作一个 Python 脚本来动态编程我的 R 脚本,但这可能仍然需要两条 CMD 行。我还没有找到足够具体的例子来说明我的情况。你们会如何解决这个问题?

这是我的 R 脚本,用于从数据框创建 3 个图 'x':

library(iq)
norm_data <- iq::preprocess(x, median_normalization = FALSE, pdf_out = NULL)
protein_list <- iq::create_protein_list(norm_data)

# basic protein plot
pdf(file = "Protein P00366.pdf")
iq::plot_protein(protein_list$P00366, main = "Protein P00366", split = NULL)
dev.off()

protein_table <- iq::create_protein_table(protein_list)

#MaxLFQ plot
pdf(file = "MaxLFQ quantification of P00366.pdf")
iq::plot_protein(rbind(protein_list$P00366, 
                       MaxLFQ = iq::maxLFQ(protein_list$P00366)$estimate), 
                 main = "MaxLFQ quantification of P00366", 
                 col = c(rep("gray", nrow(protein_list$P00366)), "green"), 
                 split = NULL)  
dev.off()

# ground truth
MaxLFQ_estimate <- iq::maxLFQ(protein_list$P12799)$estimate

ground_truth <-  log2(rep(c(200, 125.99, 79.37, 50, 4, 2.52, 1.59, 1), each = 3))
ground_truth <- ground_truth - mean(ground_truth) + mean(MaxLFQ_estimate)

#ground truth plot
pdf(file = "P12799 MaxLFQ versus groundtruth.pdf")
iq::plot_protein(rbind(MaxLFQ = MaxLFQ_estimate,
                       Groundtruth = ground_truth), 
                 main = "P12799 - MaxLFQ versus groundtruth",  
                 split = 0.75, 
                 col = c("green", "gold"))  
dev.off()

这是我的Docker文件:

FROM r-base:latest

ENV SCRIPT=""
ENV DATA=""                            

RUN R -e "install.packages('iq', repos='http://cran.rstudio.com/')"

WORKDIR /home/iq/

CMD R -e "x <- read.table(\"$DATA\", header = TRUE, sep = ",", fill = TRUE)" \
   && R -e "source('$SCRIPT')"

在路径为 /home/iq 的文件夹中,我有名为 iqTest.R 的脚本、Docker 文件和 data.csv。 我一直在使用以下命令构建和 运行 连接我的容器:

$ cd iq
$ docker build -t my_image .
$ docker run -it -v /home/user/iq:/home/iq --env DATA=data.csv --env SCRIPT=iqTest.R my_image:latest

尝试 运行 后,我从 R 工作区收到以下错误消息:

> source('iqTest.R')
Error in iq::preprocess(x, median_normalization = FALSE, pdf_out = NULL) : 
  object 'x' not found
Calls: source -> withVisible -> eval -> eval -> <Anonymous>

编辑:我最近发现这个问题更多地与 R 相关:您可以使用 ; 将多行 R 代码连接成一行,从而解决了多个 CMD 语句的问题。愿此作为连接 R 和 Docker 的任何人的示例。 例如,新 Docker 文件用分号到 link 行:

FROM r-base:latest

ENV SCRIPT=""
ENV DATA="" 

RUN mkdir /home/analysis/

RUN R -e "install.packages('iq', repos='http://cran.rstudio.com/')"

WORKDIR /home/analysis/

CMD R -e "x = read.csv(\"$DATA\", header = TRUE, sep = ",", fill = TRUE); source('$SCRIPT')"

如果您想通过环境变量配置数据路径,那么我建议您使用 Sys.getenv() 在脚本中访问该变量。这也允许您使用 Rscript 而不是 R -e "source....

以下是对我有用的方法:

script.R

cat(Sys.getenv('SCRIPT'), '\n');
cat(Sys.getenv('DATA'), '\n')

Dockerfile

FROM r-base:latest

ENV SCRIPT="script.R"
ENV DATA="data.csv"

WORKDIR /workspace

CMD R -q -e "source('$SCRIPT')"
# alternative: CMD Rscript $SCRIPT

用法

daniel@nuest /tmp/Whosebug []$ docker build --tag Whosebug .
Sending build context to Docker daemon  4.608kB
Step 1/5 : FROM r-base:latest
 ---> 46edce0e80af
Step 2/5 : ENV SCRIPT="script.R"
 ---> Using cache
 ---> 8f26d34d9c0a
Step 3/5 : ENV DATA="data.csv"
 ---> Using cache
 ---> 16c83c16a4c8
Step 4/5 : WORKDIR /workspace
 ---> Running in fce8619af30b
Removing intermediate container fce8619af30b
 ---> a8278f609d9a
Step 5/5 : CMD R -q -e "source('$SCRIPT')"
 ---> Running in 765bafeb8681
Removing intermediate container 765bafeb8681
 ---> ff7d7b09dffb
Successfully built ff7d7b09dffb
Successfully tagged Whosebug:latest
daniel@nuest /tmp/Whosebug []$ docker run --rm -it -v $(pwd):/workspace Whosebug
> source('script.R')
script.R 
data.csv 
> 
> 

或者,您可以尝试将数据路径作为参数传递给脚本文件,请参阅 https://swcarpentry.github.io/r-novice-inflammation/05-cmdline/

顺便说一句:固定特定的 R 版本比使用 :latest 更好,以实现可重复性。