Pandas .join 无法合并 S&P500 股票数据

Question

我正在学习 PythonProgramming.net 上的财务教程，但当我尝试将多个数据帧组合成一个大数据帧时遇到了运行问题。我创建了一个函数来执行此操作：

def compile_data():
    with open ("sp500tickers.pickle", "rb") as f:
        tickers = pickle.load(f)

    main_df = pd.DataFrame()

    for count,ticker in enumerate(tickers):
        try:
            df = pd.read_csv('stock_dfs/{}.csv'.format(ticker))
            df.set_index('Date', inplace=True)
            df.rename(columns={'Close':ticker}, inplace=True)
            df.drop(['Open','High','Low','Volume'], 1, inplace=True)
            if main_df.empty:
                main_df = df
            else:
                main_df.join(df, how='outer')
                print(main_df.head())
            if count % 10 == 0:
                print(count)
        except Exception:
            pass

    print(main_df.head())
    main_df.to_csv('sp500joinedcloses.csv')

（我在上面的代码中使用 try/except 的原因是因为我有 S&P500 的所有代码列表，但无法从 Google Finance API 对于所有这些......所以这样，如果它试图找到我没有的 csv，它仍然会结合我拥有的 csv 而不会抛出错误。）

当我运行这个函数时，它会创建一个名为 sp500joinedcloses.csv 的 CSV，但它只包含一个代码的数据，即 ABBV。我知道它正在正确地遍历代码，因为如果我在 for 循环中添加一个 print(ticker)，所有正确的代码都会被打印出来。

同样值得注意的是，ABBV 并不是我拥有的第一个应该包含在数据框中的 csv。他们首先应该有一个文件的代码是AAPL，然后是ABBV。不知道为什么它似乎跳过了 AAPL。

如有任何帮助，我将不胜感激。我是 pandas 的初学者，我真的很想尽我所能地学习它。

Answer 1

IIUC:

您不想使用 join，如果您从一个空数据框开始，您无论如何也不能。使用 pd.concat 代替：

main_df = pd.concat([main_df, df], axis=1)

但是，我会推荐这个来代替你的整个过程：

def read_file(ticker):
    df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)).set_index('Date')
    return df.Close.rename(ticker)

with open ("sp500tickers.pickle", "rb") as f:
    tickers = pickle.load(f)

main_df = pd.concat([read_file(t) for t in tickers], axis=1)

Pandas .join 无法合并 S&P500 股票数据

Pandas .join not working to combine S&P500 stock data

python

csv

dataframe

pandas

pandas-datareader