从 h2o 中的 csv 导入选定的列

Import selected columns from csv in h2o

我有一个超过 20GB 的 csv 文件。我可以使用 readlines 读取前几行,然后找出我想要导入的列。是否可以使用 h2o.importFile() 或 h2o 中的其他方式仅导入这些列,这样我就不会加载不必要的列?

h2o.importFile() 函数不支持仅加载列的子集。以下是一些解决方法:

  • 加载整个数据集并在任何建模函数中使用 x 参数来忽略某些列。 fit <- h2o.gbm(x = good_cols, y = y, training_frame = train)
  • 加载整个数据集,然后创建一个只包含所需列的新 H2OFrame。 newdf <- df[, good_cols]
  • 在磁盘上创建只包含所需列的数据副本。使用 cut 工具 (example here) 很容易做到这一点。 cut -d, -f2-4,6-10 train.csv > newtrain.csv