如何处理包含多个 csv 文件的数据集？

Question

我正在实施 LSTM，但我遇到了数据集问题。我的数据集是多个 CSV 文件的形式（不同的问题实例）我在一个目录中有 100 多个 CSV 文件，我想读取并将它们加载到 python 中。我的问题是我应该如何着手构建用于训练和测试的数据集。有没有办法将每个 csv 文件分成两部分（80% 的训练和 20% 的测试），然后将每个 80% 的数据分组为训练数据，并将 20% 的数据分组以进行测试。还是有另一种更有效的做事方式我如何将这些多个 CSV 作为输入来训练和 tet LSTM？这是我的 csv 文件结构的一部分 CSV file structure 这是我的 csvs 文件的屏幕（问题实例）csvs files

Answer 1

您可以使用 pandas pd.concat() 将多个数据帧与相同的列 (pandas docs) 合并。

您可以 iterate through that directory 创建一个 csv 文件名列表，使用 pd.read_csv() 读取每个 csv，然后使用如下内容连接成最终数据帧：

final_df=pd.DataFrame(columns=[<YOUR COLUMNS>])
for csv_path in csv_files_list:
    df=pd.read_csv(csv_path)
    final_df=pd.concat(final_df, df)

在这里，您可以使用 sklearn 或您喜欢的任何其他方法拆分训练和测试数据。

如何处理包含多个 csv 文件的数据集？

How to deal with dataset containing multiple csv files?

python

lstm

tf.keras