从 GitHub 存储库加载镶木地板文件

Loading a parquet file from a GitHub repository

我尝试使用以下脚本读取存储在 GitHub 项目中的 parquet (.parq) 文件:

import pandas as pd
import numpy as np
import ipywidgets as widgets
import datetime
from ipywidgets import interactive
from IPython.display import display, Javascript

import warnings
warnings.filterwarnings('ignore')


parquet_file = r'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq'

df = pd.read_parquet(parquet_file, engine='auto')

它给了我这个错误:

ArrowInvalid: Could not open Parquet input source '': Parquet magic bytes not found in footer. Either the file is corrupted or this is not a parquet file.

有谁知道这条错误消息的含义以及如何将文件加载到我的 GitHub 存储库中?提前谢谢你。

您可以像这样直接从 Web URL 读取 parquet 文件。但是,当从 git 存储库读取数据文件时,您需要确保它是原始文件 url:

url = 'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq?raw=true'

您应该使用域 raw.githubusercontent.com 下的 URL。

以你的例子为例:

parquet_file = 'https://raw.githubusercontent.com/smaanan/sev.en_commodities/main/random_deals.parq'
df = pd.read_parquet(parquet_file, engine='auto')