在忽略 nas 的同时将因子转换为数字
Convert factor to numeric while ignoring nas
我有一个数据框,其中包含一些已分解的数字列,我需要将它们转换为数字。这是一个示例:
y <- structure(list(y = structure(c(2L, NA, 3L, 1L, 4L, 2L), .Label = c(" 1,000,000.00 ", " 1,200,000.00 ", " 150,000.00 ", " 200,000.00 "), class = "factor")), .Names = "y", row.names = c(NA, -6L), class = "data.frame")
数据框包含 nas,因此当我尝试将因子水平转换为数字时,我得到了 return 中的所有 nas。这是我尝试过的。
y <- as.data.frame(y)
y <- as.numeric(levels(y))
y$y <- as.numeric(levels(y$y)[y$y])
而这 return 仅适用于 NA。如何将这些因子水平转换为数字,同时保持 nas 为 na?
您需要删除逗号
as.numeric(gsub(",", "", levels(y$y)[y$y]))
[1] 1200000 NA 150000 1000000 200000 1200000
您只想保留数字,因此您可以使用 gsub
删除其他所有内容:
levels(y$y) <- gsub("[^0-9]", "", levels(y$y))
levels(y$y) <- as.numeric(levels(y$y))
# y
# 1 1.2e+08
# 2 <NA>
# 3 1.5e+07
# 4 1e+08
# 5 2e+07
# 6 1.2e+08
我有一个数据框,其中包含一些已分解的数字列,我需要将它们转换为数字。这是一个示例:
y <- structure(list(y = structure(c(2L, NA, 3L, 1L, 4L, 2L), .Label = c(" 1,000,000.00 ", " 1,200,000.00 ", " 150,000.00 ", " 200,000.00 "), class = "factor")), .Names = "y", row.names = c(NA, -6L), class = "data.frame")
数据框包含 nas,因此当我尝试将因子水平转换为数字时,我得到了 return 中的所有 nas。这是我尝试过的。
y <- as.data.frame(y)
y <- as.numeric(levels(y))
y$y <- as.numeric(levels(y$y)[y$y])
而这 return 仅适用于 NA。如何将这些因子水平转换为数字,同时保持 nas 为 na?
您需要删除逗号
as.numeric(gsub(",", "", levels(y$y)[y$y]))
[1] 1200000 NA 150000 1000000 200000 1200000
您只想保留数字,因此您可以使用 gsub
删除其他所有内容:
levels(y$y) <- gsub("[^0-9]", "", levels(y$y))
levels(y$y) <- as.numeric(levels(y$y))
# y
# 1 1.2e+08
# 2 <NA>
# 3 1.5e+07
# 4 1e+08
# 5 2e+07
# 6 1.2e+08