如何使用 python 中的数据集库从磁盘上的三个文件创建数据集?
how to create a dataset from three files on disk with datasets library in python?
我在磁盘上有三个名为 train.xlsx、validation.xlsx 和 test.xlsx 的文件。
我需要一个包含这三个文件的数据集库的数据集。
这是我的代码:
from google.colab import drive
from datasets import Dataset
import pandas as pd
drive.mount('/content/drive')
train_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/train.xlsx')
validation_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/valid.xlsx')
test_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/test.xlsx')
print(train_data.shape)
print(validation_data.shape)
print(test_data.shape)
现在我需要一个数据集,其中包含来自相应文件的这些键:
数据集['train']和数据集['validation']和数据集['test']
谁能帮帮我?
试试这个
train_data = train_data.values.tolist()
validation_data = validation_data.values.tolist()
test_data = test_data.values.tolist()
d = {'train_data ' : train_data ,
'validation_data ' : validation_data ,
'test_data ' : test_data
}
df = pd.DataFrame(data = d)
值得注意的是,如果这些数据框只有一列,则 .values.tolist()
有效,如果没有,请指定它 例如:train_data ['COLUMN'].values.tolist()
试试这个
import pandas as pd
paths = ['train.xlsx', 'validate.xlsx', 'test.xlsx']
dfs = {p: pd.read_excel(p) for p in paths}
我在磁盘上有三个名为 train.xlsx、validation.xlsx 和 test.xlsx 的文件。 我需要一个包含这三个文件的数据集库的数据集。 这是我的代码:
from google.colab import drive
from datasets import Dataset
import pandas as pd
drive.mount('/content/drive')
train_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/train.xlsx')
validation_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/valid.xlsx')
test_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/test.xlsx')
print(train_data.shape)
print(validation_data.shape)
print(test_data.shape)
现在我需要一个数据集,其中包含来自相应文件的这些键: 数据集['train']和数据集['validation']和数据集['test'] 谁能帮帮我?
试试这个
train_data = train_data.values.tolist()
validation_data = validation_data.values.tolist()
test_data = test_data.values.tolist()
d = {'train_data ' : train_data ,
'validation_data ' : validation_data ,
'test_data ' : test_data
}
df = pd.DataFrame(data = d)
值得注意的是,如果这些数据框只有一列,则 .values.tolist()
有效,如果没有,请指定它 例如:train_data ['COLUMN'].values.tolist()
试试这个
import pandas as pd
paths = ['train.xlsx', 'validate.xlsx', 'test.xlsx']
dfs = {p: pd.read_excel(p) for p in paths}