如何编写这个 PyTorch 官方 ImageNet 示例?

How to prepare this PyTorch official ImageNet example?

这是一个关于准备数据集的技术问题。

我正在尝试遵循这个官方示例

https://github.com/pytorch/examples/tree/master/imagenet

但我什至无法开始,因为我不了解这些要求。它说

  1. 安装 PyTorch(pytorch.org)
  2. pip install -r requirements.txt
  3. http://www.image-net.org/ 下载 ImageNet 数据集 然后,使用以下 shell 脚本
  4. 将验证图像移动到标记的子文件夹

对于第一个要求,我正在 Colab 上工作,所以我认为我不需要在我的本地 pc 上再次安装 PyTorch。

第二个不起作用,因为显然没有名为“requirements.txt”的模块。这是我开始意识到这个 git 存储库中有些东西我完全不明白如何使用的地方。无论如何,我可以直接从 git 存储库打开文本文件,它只是说使用 torchtorchvision。好的,导入它们没问题。

第三个要求。所以我去了ImageNet网站并签署了研究使用协议。现在要求告诉我下载 THE ImageNet 数据,但我在那里看到了很多不同的选项(比如出版年份、竞赛目的、分辨率等)。哪个是数据集?

我是 PyTorch 的新手,我想我缺少一些关于 PyTorch 开发社区如何通过这种方式提供示例的协议...

如有任何帮助,我们将不胜感激。谢谢。

there's obviously no module named "requirements.txt"

这是该存储库中的 requirements.txt 文件。您可以在这样的文件中添加包名称,并使用 pip 一次安装所有包,这就是 pip install -r requirements.txt 的原因。当然,因为它只包含 torch 和 torvision,你不需要安装它们,因为它们已经安装在 google colab.

Which one is THE DATASET?

我不能在没有注册的情况下访问这个页面,虽然你可以下载任何数据集(任何年份等),重要的是为了使用 pytorch 使用 Imagefolder api(也就是你提到的repo中使用的那个),它的结构应该是这样的:

train/
    dog/
        xxx.png
        xxy.png
    cat/
        xxz.png
val/
    ...

您可以使用他们提到的用于 Imagenet 数据的脚本来执行此操作。

如果你刚开始使用 pytorch,我建议你完成 pytorch tutorials such as this one