如何从 Microsoft Azure 的 Jupyter Notebook 中的 Kaggle 读取文件?

How to read file from Kaggle in Jupyter Notebook in Microsoft Azure?

我在 Microsoft Azure 中使用 Jupyter Notebook。由于我无法在 Azure 中上传大文件,因此我需要从 link 中读取它。我要看的csv文件在Kaggle里

我这样做了:

!pip install kaggle

import os

os.environ['KAGGLE_USERNAME'] = "*********"

os.environ['KAGGLE_KEY'] = "*********"

import kaggle

但我现在不知道如何读取文件。 在其他情况下,我使用 pandas 来读取文件: file = pd.read_csv("file/link") 然后我就可以清理和组织我的数据了。 但它在这种情况下不起作用。 你能帮帮我吗?

我希望能够像 pd.read_csv 一样读取和操作数据,因为我的数据科学项目需要它。 这是我希望能够使用的数据集:https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv

Kaggle 已经为他们的命令行 API here, which has been built using Python and the source can be found here 提供了广泛的文档,因此逆向工程非常简单,以便使用 Kaggle API 蟒蛇。

假设您已经将用户名和密钥导出为环境变量

import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall

或 您已从 Kaggle 帐户页面的 API 部分成功下载 kaggle.json,并将此 JSON 复制到 ~/.kaggle/Kaggle 系统中的配置目录。

然后,您可以在 Jupyter 笔记本中使用以下代码将此数据集加载到 pandas 数据帧:

  1. 导入库
import kaggle as kg
import pandas as pd

  1. 在本地下载数据集
kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)
  1. 读取下载的数据集
df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')