识别分类中最薄弱的特征

Question

基本的机器学习练习是对某些数据执行回归。例如，估计一条鱼的长度是体重和年龄的函数。

这通常是通过拥有大量训练数据集（体重、年龄、身长）然后应用一些回归分析来完成的。然后可以根据重量和年龄估计一条新鱼的长度。

但是，假设我想解决这个问题："I have a fish with a known weight W, age A and length L. Assuming I want the length to be M instead of L, how should I adjust W and A"。

这似乎是一个常见问题，但我不知道它叫什么。有人可以帮助我朝着正确的方向前进吗？如果它是线性的，你如何处理这个问题，如果它是非线性的呢？

Answer 1

您正在寻找功能依赖性

f: IR -> IR^2,  f(Weight) = (Age, Length)^T

您基本上可以使用与现在相同的方法来完成此操作。只是目标是二维的，所以你需要调整你的损失函数。

二维中的简单欧几里得距离 space 将不再适用于此，因为预测变量的大小和单位不同。因此，您必须在这里发挥创意——例如，您可以将两个预测变量归一化为 [0,1]，将归一化值输入欧几里德或 L1 距离损失函数。

获得合适的损失函数后，照常进行：选择机器学习方法，拟合数据，进行预测。

关于选择方法：这可以从简单的和不相关的——例如两个不相关的线性回归，或更一般的将两个一维输出方法叠加在一起——到相关的和更复杂的：例如具有两个输出节点的人工神经网络，其中 ANN 参数是绑定的。

最后，这里是线性回归的例子。在那里你做了 ansatz

(Age, Length)^T =  (a1 + b1* Weight, a2 + b2*Weight)^T

并通过最小化损失函数 L 找到参数 a1, b1, a2, b2，在最简单的情况下就是

L(a1,b1,a2,b2) = || Age - a1 + b1 * Weight ||^2 + || Length - a2 + b2 * Weight ||^2

这个选择相当于两个分离的一维线性回归。很好。

但是，通常您还希望目标参数之间保持一致——直觉上：您更喜欢 (Age, Length) 中的两个小偏差，而不是一个大偏差和一个零偏差。这是相关方法和损失函数进入的地方。

识别分类中最薄弱的特征

Identify weakest feature in classification

regression

machine-learning

linear-regression

non-linear-regression