python 中如何检查数据集是否正常?

how do i check if a data set is normal or not in python?

所以我正在 python 从头开始​​创建机器学习的主程序,我要做的第一步是检查数据集是否正常。 ps :数据集可以有很多特征,也可以只有一个特征。

必须在python3.

中实施

此外,可以通过以下函数对数据进行归一化:

# Find the min and max values for each column
def dataset_minmax(dataset):
    minmax = list()
    for i in range(len(dataset[0])):
        col_values = [row[i] for row in dataset]
        value_min = min(col_values)
        value_max = max(col_values)
        minmax.append([value_min, value_max])
    return minmax

# Rescale dataset columns to the range 0-1
def normalize_dataset(dataset, minmax):
    for row in dataset:
        for i in range(len(row)):
            row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])

提前致谢!

您的问题似乎不和谐:如果您的特征不是来自正态分布,就改变它们的分布而言,您不能 "normalize" 它们。如果你想检查他们是否有平均 0 和 1 的 SD 那是一个不同的球场游戏。