python 中如何检查数据集是否正常?
how do i check if a data set is normal or not in python?
所以我正在 python 从头开始创建机器学习的主程序,我要做的第一步是检查数据集是否正常。
ps :数据集可以有很多特征,也可以只有一个特征。
必须在python3.
中实施
此外,可以通过以下函数对数据进行归一化:
# Find the min and max values for each column
def dataset_minmax(dataset):
minmax = list()
for i in range(len(dataset[0])):
col_values = [row[i] for row in dataset]
value_min = min(col_values)
value_max = max(col_values)
minmax.append([value_min, value_max])
return minmax
# Rescale dataset columns to the range 0-1
def normalize_dataset(dataset, minmax):
for row in dataset:
for i in range(len(row)):
row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])
提前致谢!
您的问题似乎不和谐:如果您的特征不是来自正态分布,就改变它们的分布而言,您不能 "normalize" 它们。如果你想检查他们是否有平均 0 和 1 的 SD 那是一个不同的球场游戏。
所以我正在 python 从头开始创建机器学习的主程序,我要做的第一步是检查数据集是否正常。 ps :数据集可以有很多特征,也可以只有一个特征。
必须在python3.
中实施此外,可以通过以下函数对数据进行归一化:
# Find the min and max values for each column
def dataset_minmax(dataset):
minmax = list()
for i in range(len(dataset[0])):
col_values = [row[i] for row in dataset]
value_min = min(col_values)
value_max = max(col_values)
minmax.append([value_min, value_max])
return minmax
# Rescale dataset columns to the range 0-1
def normalize_dataset(dataset, minmax):
for row in dataset:
for i in range(len(row)):
row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])
提前致谢!
您的问题似乎不和谐:如果您的特征不是来自正态分布,就改变它们的分布而言,您不能 "normalize" 它们。如果你想检查他们是否有平均 0 和 1 的 SD 那是一个不同的球场游戏。