多个子特征的特征提取
Feature extraction for multiple sub-features
我想对包含子特征的数据集进行一些特征提取(或聚类)。
例如,数据集如下所示。目标是使用数据对机器人的类型进行分类。
Samples : 100 robot samples [Robot 1, Robot 2, ..., Robot 100]
Classes : 2 types [Type A, Type B]
Variables : 6 parts, and 3 sub-features for each parts (total 18 variables)
[Part1_weight, Part1_size, Part1_strength, ..., Part6_size, Part6_strength, Part6_weight]
我想对[重量、尺寸、强度]进行特征提取,并将提取的特征作为零件的代表值。
简而言之,我的目标是将特征减少到 6 - [Part1_total, Part2_total, ..., Part6_total] - 然后,对机器人的类型进行分类具有这 6 个功能。所以,用'weight'、'size'组合特征,'strength'就是要解决的问题。
首先我想到了应用PCA(主成分分析),因为它是最流行的特征提取算法之一。但它单独考虑了所有 18 个特征,因此 'Part1_weight' 可以认为比 'Part2_weight' 更重要。但是我要知道的是样本中'weights'、'sizes'、'strengths'的重要性,所以PCA好像不适用
有什么办法可以解决这个问题吗?
如果Part编号使它们彼此不同(例如Part1与Part2不同,无论它们的尺寸、重量、强度参数是否相同),您可以为每个Part做一次PCA。仅使用当前Part的尺寸、重量和强度作为当前PCA中的参数。
或者,如果 Parts 数组顺序无关紧要,您可以使用所有(尺寸、重量、强度)参数三元组仅执行一个 PCA,而不是按零件号区分它们。
如果您希望每个部分只具有一个特征,我认为除了部分执行特征缩减之外别无他法。但是,可能有比简单 PCA 更好的选择。例如,如果零件大部分是实心的,则它们的重量可能与尺寸的三次方相关,因此您可以在执行 PCA 之前取重量的立方根或尺寸的立方。或者,您可以取两个值的对数,这同样会导致线性相关性。
当然,您还可以使用更多奇特的转换。在统计学中,Box-Cox Transformation 用于实现数据的正常分布。
您还应该考虑在执行 PCA 之前对转换后的数据进行归一化,即减去平均值并除以每个变量的标准差。它将消除测量单位的影响。 IE。无论您用公斤、原子单位还是太阳质量来衡量重量都没有关系。
我想对包含子特征的数据集进行一些特征提取(或聚类)。 例如,数据集如下所示。目标是使用数据对机器人的类型进行分类。
Samples : 100 robot samples [Robot 1, Robot 2, ..., Robot 100]
Classes : 2 types [Type A, Type B]
Variables : 6 parts, and 3 sub-features for each parts (total 18 variables)
[Part1_weight, Part1_size, Part1_strength, ..., Part6_size, Part6_strength, Part6_weight]
我想对[重量、尺寸、强度]进行特征提取,并将提取的特征作为零件的代表值。
简而言之,我的目标是将特征减少到 6 - [Part1_total, Part2_total, ..., Part6_total] - 然后,对机器人的类型进行分类具有这 6 个功能。所以,用'weight'、'size'组合特征,'strength'就是要解决的问题。
首先我想到了应用PCA(主成分分析),因为它是最流行的特征提取算法之一。但它单独考虑了所有 18 个特征,因此 'Part1_weight' 可以认为比 'Part2_weight' 更重要。但是我要知道的是样本中'weights'、'sizes'、'strengths'的重要性,所以PCA好像不适用
有什么办法可以解决这个问题吗?
如果Part编号使它们彼此不同(例如Part1与Part2不同,无论它们的尺寸、重量、强度参数是否相同),您可以为每个Part做一次PCA。仅使用当前Part的尺寸、重量和强度作为当前PCA中的参数。
或者,如果 Parts 数组顺序无关紧要,您可以使用所有(尺寸、重量、强度)参数三元组仅执行一个 PCA,而不是按零件号区分它们。
如果您希望每个部分只具有一个特征,我认为除了部分执行特征缩减之外别无他法。但是,可能有比简单 PCA 更好的选择。例如,如果零件大部分是实心的,则它们的重量可能与尺寸的三次方相关,因此您可以在执行 PCA 之前取重量的立方根或尺寸的立方。或者,您可以取两个值的对数,这同样会导致线性相关性。
当然,您还可以使用更多奇特的转换。在统计学中,Box-Cox Transformation 用于实现数据的正常分布。
您还应该考虑在执行 PCA 之前对转换后的数据进行归一化,即减去平均值并除以每个变量的标准差。它将消除测量单位的影响。 IE。无论您用公斤、原子单位还是太阳质量来衡量重量都没有关系。