如何处理包含多个 csv 文件的数据集?

How to deal with dataset containing multiple csv files?

我正在实施 LSTM,但我遇到了数据集问题。 我的数据集是多个 CSV 文件的形式(不同的问题实例)我在一个目录中有 100 多个 CSV 文件,我想读取并将它们加载到 python 中。我的问题是我应该如何着手构建用于训练和测试的数据集。有没有办法将每个 csv 文件分成两部分(80% 的训练和 20% 的测试),然后将每个 80% 的数据分组为训练数据,并将 20% 的数据分组以进行测试。 还是有另一种更有效的做事方式 我如何将这些多个 CSV 作为输入来训练和 tet LSTM? 这是我的 csv 文件结构的一部分 CSV file structure 这是我的 csvs 文件的屏幕(问题实例)csvs files

您可以使用 pandas pd.concat() 将多个数据帧与相同的列 (pandas docs) 合并。

您可以 iterate through that directory 创建一个 csv 文件名列表,使用 pd.read_csv() 读取每个 csv,然后使用如下内容连接成最终数据帧:

final_df=pd.DataFrame(columns=[<YOUR COLUMNS>])
for csv_path in csv_files_list:
    df=pd.read_csv(csv_path)
    final_df=pd.concat(final_df, df)

在这里,您可以使用 sklearn 或您喜欢的任何其他方法拆分训练和测试数据。