多个子特征的特征提取

Question

我想对包含子特征的数据集进行一些特征提取（或聚类）。例如，数据集如下所示。目标是使用数据对机器人的类型进行分类。

Samples : 100 robot samples [Robot 1, Robot 2, ..., Robot 100]
Classes : 2 types [Type A, Type B]
Variables : 6 parts, and 3 sub-features for each parts (total 18 variables)
[Part1_weight, Part1_size, Part1_strength, ..., Part6_size, Part6_strength, Part6_weight]

我想对[重量、尺寸、强度]进行特征提取，并将提取的特征作为零件的代表值。

简而言之，我的目标是将特征减少到 6 - [Part1_total, Part2_total, ..., Part6_total] - 然后，对机器人的类型进行分类具有这 6 个功能。所以，用'weight'、'size'组合特征，'strength'就是要解决的问题。

首先我想到了应用PCA（主成分分析），因为它是最流行的特征提取算法之一。但它单独考虑了所有 18 个特征，因此 'Part1_weight' 可以认为比 'Part2_weight' 更重要。但是我要知道的是样本中'weights'、'sizes'、'strengths'的重要性，所以PCA好像不适用

有什么办法可以解决这个问题吗？

Answer 1

如果Part编号使它们彼此不同（例如Part1与Part2不同，无论它们的尺寸、重量、强度参数是否相同），您可以为每个Part做一次PCA。仅使用当前Part的尺寸、重量和强度作为当前PCA中的参数。

或者，如果 Parts 数组顺序无关紧要，您可以使用所有（尺寸、重量、强度）参数三元组仅执行一个 PCA，而不是按零件号区分它们。

Answer 2

如果您希望每个部分只具有一个特征，我认为除了部分执行特征缩减之外别无他法。但是，可能有比简单 PCA 更好的选择。例如，如果零件大部分是实心的，则它们的重量可能与尺寸的三次方相关，因此您可以在执行 PCA 之前取重量的立方根或尺寸的立方。或者，您可以取两个值的对数，这同样会导致线性相关性。

当然，您还可以使用更多奇特的转换。在统计学中，Box-Cox Transformation 用于实现数据的正常分布。

您还应该考虑在执行 PCA 之前对转换后的数据进行归一化，即减去平均值并除以每个变量的标准差。它将消除测量单位的影响。 IE。无论您用公斤、原子单位还是太阳质量来衡量重量都没有关系。

多个子特征的特征提取

Feature extraction for multiple sub-features

machine-learning

feature-extraction

pca

feature-selection