如何从 Microsoft Azure 的 Jupyter Notebook 中的 Kaggle 读取文件?
How to read file from Kaggle in Jupyter Notebook in Microsoft Azure?
我在 Microsoft Azure 中使用 Jupyter Notebook。由于我无法在 Azure 中上传大文件,因此我需要从 link 中读取它。我要看的csv文件在Kaggle里
我这样做了:
!pip install kaggle
import os
os.environ['KAGGLE_USERNAME'] = "*********"
os.environ['KAGGLE_KEY'] = "*********"
import kaggle
但我现在不知道如何读取文件。
在其他情况下,我使用 pandas 来读取文件:
file = pd.read_csv("file/link")
然后我就可以清理和组织我的数据了。
但它在这种情况下不起作用。
你能帮帮我吗?
我希望能够像 pd.read_csv 一样读取和操作数据,因为我的数据科学项目需要它。
这是我希望能够使用的数据集:https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv
Kaggle 已经为他们的命令行 API here, which has been built using Python and the source can be found here 提供了广泛的文档,因此逆向工程非常简单,以便使用 Kaggle API 蟒蛇。
假设您已经将用户名和密钥导出为环境变量
import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall
或
您已从 Kaggle 帐户页面的 API 部分成功下载 kaggle.json
,并将此 JSON 复制到 ~/.kaggle/
即 Kaggle 系统中的配置目录。
然后,您可以在 Jupyter 笔记本中使用以下代码将此数据集加载到 pandas 数据帧:
- 导入库
import kaggle as kg
import pandas as pd
- 在本地下载数据集
kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)
- 读取下载的数据集
df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')
我在 Microsoft Azure 中使用 Jupyter Notebook。由于我无法在 Azure 中上传大文件,因此我需要从 link 中读取它。我要看的csv文件在Kaggle里
我这样做了:
!pip install kaggle
import os
os.environ['KAGGLE_USERNAME'] = "*********"
os.environ['KAGGLE_KEY'] = "*********"
import kaggle
但我现在不知道如何读取文件。
在其他情况下,我使用 pandas 来读取文件:
file = pd.read_csv("file/link")
然后我就可以清理和组织我的数据了。
但它在这种情况下不起作用。
你能帮帮我吗?
我希望能够像 pd.read_csv 一样读取和操作数据,因为我的数据科学项目需要它。 这是我希望能够使用的数据集:https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv
Kaggle 已经为他们的命令行 API here, which has been built using Python and the source can be found here 提供了广泛的文档,因此逆向工程非常简单,以便使用 Kaggle API 蟒蛇。
假设您已经将用户名和密钥导出为环境变量
import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall
或
您已从 Kaggle 帐户页面的 API 部分成功下载 kaggle.json
,并将此 JSON 复制到 ~/.kaggle/
即 Kaggle 系统中的配置目录。
然后,您可以在 Jupyter 笔记本中使用以下代码将此数据集加载到 pandas 数据帧:
- 导入库
import kaggle as kg
import pandas as pd
- 在本地下载数据集
kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)
- 读取下载的数据集
df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')