从 GitHub 存储库加载镶木地板文件

Question

我尝试使用以下脚本读取存储在 GitHub 项目中的 parquet (.parq) 文件：

import pandas as pd
import numpy as np
import ipywidgets as widgets
import datetime
from ipywidgets import interactive
from IPython.display import display, Javascript

import warnings
warnings.filterwarnings('ignore')


parquet_file = r'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq'

df = pd.read_parquet(parquet_file, engine='auto')

它给了我这个错误：

ArrowInvalid: Could not open Parquet input source '': Parquet magic bytes not found in footer. Either the file is corrupted or this is not a parquet file.

有谁知道这条错误消息的含义以及如何将文件加载到我的 GitHub 存储库中？提前谢谢你。

Answer 1

您可以像这样直接从 Web URL 读取 parquet 文件。但是，当从 git 存储库读取数据文件时，您需要确保它是原始文件 url:

url = 'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq?raw=true'

Answer 2

您应该使用域 raw.githubusercontent.com 下的 URL。

以你的例子为例：

parquet_file = 'https://raw.githubusercontent.com/smaanan/sev.en_commodities/main/random_deals.parq'
df = pd.read_parquet(parquet_file, engine='auto')

从 GitHub 存储库加载镶木地板文件

Loading a parquet file from a GitHub repository

python

github

dataframe

pandas

parquet