如何在虚拟机上通过命令行获取kaggle比赛数据?

How to get kaggle competition data via command line on virtual machine?

我正在寻找使用 bash 在虚拟机上下载 kaggle 比赛数据(训练和测试)的最简单方法,以便能够在虚拟机上进行训练而无需将其上传到 git。

首先,您需要将 kaggle 站点的 cookie 信息复制到一个文本文件中。有一个 chrome extension 可以帮助你做到这一点。 复制cookie信息,保存为cookies.txt.

现在使用命令

将文件传输到EC2实例
scp -i /path/my-key-pair.pem /path/cookies.txt user-name@ec2-xxx-xx-xxx-x.compute-1.amazonaws.com:~

接受比赛规则并从 kaggle.com 复制要下载的数据集的 URL。例如 URL 下载 Intel & MobileODT Cervical Cancer Screening competition is: https://kaggle.com/c/intel-mobileodt-cervical-cancer-screening/download/sample_submission.csv.zip

的 sample_submission.csv 文件

现在,从终端使用以下命令将数据集下载到实例中。

wget -x --load-cookies cookies.txt https://kaggle.com/c/intel-mobileodt-cervical-cancer-screening/download/sample_submission.csv.zip

安装 CurlWget chrome 扩展程序。

开始下载您的 kaggle 数据集。 CurlWget 会给你完整的 wget 命令。使用 sudo 将此命令粘贴到终端。

任务完成。

  1. 在 chrome 上安装 cookies.txt 扩展并启用它。
  2. 登录kaggle
  3. 转到您要从中获取数据的挑战页面
  4. 点击右上角的 cookie.txt 扩展,它会下载当前页面的 cookie。它将下载 cookies.txt 文件
  5. 中的 cookie
  6. 使用scp或其他方式将文件传输到远程服务
  7. 复制kaggle页面上显示的数据link(右键单击并复制link地址)
  8. 运行 wget -x --load-cookies cookies.txt <datalink>

快进三年后,您可以使用 CLI 使用 Kaggle's API,例如:

kaggle competitions download favorita-grocery-sales-forecasting