当我们在 R 的拆分函数中指定列名时会发生什么？

Question

R中这两行代码有什么区别？

split = sample.split(dataset$Customer_Segment, SplitRatio = 0.8)

split = sample.split(dataset, SplitRatio = 0.8)

Answer 1

如果你的意思是caTools::sample.split，函数基于对象的length值。

假设数据集有 100 行和 10 列

length(dataset$Customer_Segment) 是 100（等于 nrow(dataset)），所以函数 return 向量 80 TRUE 和 20 FALSE value

因为 length(dataset) 是 10（等于 ncol(dataset)）所以函数 return 向量 8 TRUE 和 2 FALSE

what happens when we specify column name in split function in R?