我应该如何使用 OneHotEncod 一列(8128 行和)2058 个数字?
How should I OneHotEncod a column of (8128 rows and) 2058 nuniques?
标题,差不多。
我只想知道对具有 2058 个数字的列进行 OneHotEncode 的最佳和最有效的方法。对所述列执行 fit_transform,我知道我将得到一个 2058(当你先删除时减去 1)列的数组。这是正确的方法吗?除此之外,我还有一个专栏有大约 441 个 uniques,所以这是我需要处理的另一个头痛问题。
我知道第一列(具有 2058 个数字的列)对于数据集非常重要。它基本上是汽车的品牌名称,在现实世界中这是一个人是否购买汽车的决定性因素;所以我知道这很重要,但考虑到数据集,我只是想排除它,因为它具有绝对的独特价值,而且我必须对其进行 OneHotEncode。
所以归结为:是否有另一种方法来处理这么多独特的价值,或者我可以做些什么?
为了这个问题:
- 有 2058 个 nuniques 的列 = df['A']
- 有 441 个 nuniques 的列 = df['B']
标题,差不多。
我只想知道对具有 2058 个数字的列进行 OneHotEncode 的最佳和最有效的方法。对所述列执行 fit_transform,我知道我将得到一个 2058(当你先删除时减去 1)列的数组。这是正确的方法吗?除此之外,我还有一个专栏有大约 441 个 uniques,所以这是我需要处理的另一个头痛问题。
我知道第一列(具有 2058 个数字的列)对于数据集非常重要。它基本上是汽车的品牌名称,在现实世界中这是一个人是否购买汽车的决定性因素;所以我知道这很重要,但考虑到数据集,我只是想排除它,因为它具有绝对的独特价值,而且我必须对其进行 OneHotEncode。
所以归结为:是否有另一种方法来处理这么多独特的价值,或者我可以做些什么?
为了这个问题:
- 有 2058 个 nuniques 的列 = df['A']
- 有 441 个 nuniques 的列 = df['B']