使用带有 GPU 的 Azure 容器实例进行模型训练比使用相同容器进行本地测试慢得多

Question

我正在尝试使用我构建的容器来训练 Yolo 计算机视觉模型，其中安装了 Darknet。该容器使用 Nvidia 提供的基础映像：nvcr.io/nvidia/cuda:9.0-devel-ubuntu16.04

在我的本地机器上使用 Nvidia-Docker 和 gtx 1080 ti，训练运行得非常快，但是与具有 P100 gpu 的 Azure 容器实例相同的容器运行训练非常慢。就好像它没有使用 gpu 一样。我还注意到 "nvidia-smi" 命令在 Azure 中的容器运行中不起作用，但是当我在我的机器上本地通过 ssh 进入容器运行时它确实有效。

这是我正在使用的Docker文件

FROM nvcr.io/nvidia/cuda:9.0-devel-ubuntu16.04
LABEL maintainer="alex.c.schultz@gmail.com" \
      description="Pre-Configured Darknet Machine Learning Environment" \
      version=1.0

# Container Dependency Setup
RUN apt-get update
RUN apt-get upgrade -y
RUN apt-get install software-properties-common -y
RUN apt-get install vim -y
RUN apt-get install dos2unix -y
RUN apt-get install git -y
RUN apt-get install wget -y
RUN apt-get install python3-pip -y
RUN apt-get install libopencv-dev -y

# setup virtual environment
WORKDIR /
RUN pip3 install virtualenv
RUN virtualenv venv
WORKDIR venv
RUN mkdir notebooks
RUN mkdir data
RUN mkdir output


# Install Darknet
WORKDIR /venv
RUN git clone https://github.com/AlexeyAB/darknet
RUN sed -i 's/GPU=0/GPU=1/g' darknet/Makefile
RUN sed -i 's/OPENCV=0/OPENCV=1/g' darknet/Makefile
WORKDIR /venv/darknet
RUN make

# Install common pip packages
WORKDIR /venv
COPY requirements.txt ./
RUN . /venv/bin/activate && pip install -r requirements.txt

# Setup Environment
EXPOSE 8888
VOLUME ["/venv/notebooks", "/venv/data", "/venv/output"]
CMD . /venv/bin/activate && jupyter notebook --ip=0.0.0.0 --port=8888 --allow-root

requirements.txt文件如下图：

jupyter
matplotlib
numpy
opencv-python
scipy
pandas
sklearn

Answer 1

问题是我的训练数据位于 Azure 文件共享卷上，网络延迟导致训练速度变慢。我将共享中的数据复制到我的容器中，然后将训练指向它，一切都变得更快运行。

使用带有 GPU 的 Azure 容器实例进行模型训练比使用相同容器进行本地测试慢得多

Model training using Azure Container Instance with GPU much slower than local test with same container

azure

darknet

nvidia-docker

azure-container-instances

yolo