数据挖掘——K最近邻
Data Mining - K nearest neighbor
这是我的作业。我不是要你在这里做功课,我需要提示才能继续。
我知道什么是 K 最近邻算法,但是我在图表上看到的总是不是这样的。你们能告诉我我应该怎么做吗?我一直在试图弄清楚如何开始这样做,但我做不到。非常感谢你们的小提示。
此作业可帮助您理解 KNN 中的步骤。
KNN 基于距离。找到 K 个最近的邻居,然后可能对分类问题进行投票。
您的训练数据可以视为 (x1,x2, y):年龄和利润是特征 (x1, x2),而买或不买是 label/output y。
要应用 Knn,您需要根据特征计算距离。由于这两个特征共享不同的单位(年、美元),您应该将它们转换为非单位特征,这在您的讲义中称为归一化,第 4.1 部分。之后,特征向量将看起来像 (-0.4,-0.8)。如果使用第 4.1 部分中建议的公式,该数字应介于 -1 和 0 之间。
然后使用归一化特征来计算每个训练数据点与您感兴趣的公司(也归一化)之间的距离(讲义中的欧几里得)。这在 4.2 中是必需的。
最后一步应该是选择 K 个最近的邻居,并根据这些邻居的输出来决定买入或不买入。 (也许是简单的投票?)
这是我的作业。我不是要你在这里做功课,我需要提示才能继续。
我知道什么是 K 最近邻算法,但是我在图表上看到的总是不是这样的。你们能告诉我我应该怎么做吗?我一直在试图弄清楚如何开始这样做,但我做不到。非常感谢你们的小提示。
此作业可帮助您理解 KNN 中的步骤。 KNN 基于距离。找到 K 个最近的邻居,然后可能对分类问题进行投票。
您的训练数据可以视为 (x1,x2, y):年龄和利润是特征 (x1, x2),而买或不买是 label/output y。
要应用 Knn,您需要根据特征计算距离。由于这两个特征共享不同的单位(年、美元),您应该将它们转换为非单位特征,这在您的讲义中称为归一化,第 4.1 部分。之后,特征向量将看起来像 (-0.4,-0.8)。如果使用第 4.1 部分中建议的公式,该数字应介于 -1 和 0 之间。
然后使用归一化特征来计算每个训练数据点与您感兴趣的公司(也归一化)之间的距离(讲义中的欧几里得)。这在 4.2 中是必需的。
最后一步应该是选择 K 个最近的邻居,并根据这些邻居的输出来决定买入或不买入。 (也许是简单的投票?)