从 GitHub 存储库加载镶木地板文件
Loading a parquet file from a GitHub repository
我尝试使用以下脚本读取存储在 GitHub 项目中的 parquet (.parq
) 文件:
import pandas as pd
import numpy as np
import ipywidgets as widgets
import datetime
from ipywidgets import interactive
from IPython.display import display, Javascript
import warnings
warnings.filterwarnings('ignore')
parquet_file = r'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq'
df = pd.read_parquet(parquet_file, engine='auto')
它给了我这个错误:
ArrowInvalid: Could not open Parquet input source '': Parquet
magic bytes not found in footer. Either the file is corrupted or this
is not a parquet file.
有谁知道这条错误消息的含义以及如何将文件加载到我的 GitHub 存储库中?提前谢谢你。
您可以像这样直接从 Web URL 读取 parquet 文件。但是,当从 git 存储库读取数据文件时,您需要确保它是原始文件 url:
url = 'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq?raw=true'
您应该使用域 raw.githubusercontent.com
下的 URL。
以你的例子为例:
parquet_file = 'https://raw.githubusercontent.com/smaanan/sev.en_commodities/main/random_deals.parq'
df = pd.read_parquet(parquet_file, engine='auto')
我尝试使用以下脚本读取存储在 GitHub 项目中的 parquet (.parq
) 文件:
import pandas as pd
import numpy as np
import ipywidgets as widgets
import datetime
from ipywidgets import interactive
from IPython.display import display, Javascript
import warnings
warnings.filterwarnings('ignore')
parquet_file = r'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq'
df = pd.read_parquet(parquet_file, engine='auto')
它给了我这个错误:
ArrowInvalid: Could not open Parquet input source '': Parquet magic bytes not found in footer. Either the file is corrupted or this is not a parquet file.
有谁知道这条错误消息的含义以及如何将文件加载到我的 GitHub 存储库中?提前谢谢你。
您可以像这样直接从 Web URL 读取 parquet 文件。但是,当从 git 存储库读取数据文件时,您需要确保它是原始文件 url:
url = 'https://github.com/smaanan/sev.en_commodities/blob/main/random_deals.parq?raw=true'
您应该使用域 raw.githubusercontent.com
下的 URL。
以你的例子为例:
parquet_file = 'https://raw.githubusercontent.com/smaanan/sev.en_commodities/main/random_deals.parq'
df = pd.read_parquet(parquet_file, engine='auto')