RevoScaleR 中的 rxImport 潜在问题

Question

我有一个 SQL 连接到我的 SQL 服务器上的 table，我已使用以下行导入它：

master_table <- RxSqlServerData(etc...)

然后，我的目标是 save/import 这个 table 使用 rxImport 并将其保存到一个 .xdf 文件，我称之为 readTest <- 'read_test.xdf

table 相当大，所以我在我的 rxImport 中设置了这个：

rxImport(master_table, outFile=readTest, rowsPerRead=100000,reportProgress=1)

但是，现在运行ning 已经 10 分钟了，屏幕上没有打印 read/imported 行的任何进展。我这样做正确吗？我想输出类似的 "progress"，当 ML 算法是运行时打印出来，比如 RxForest 或类似的？

谢谢。

Answer 1

可能与您的SQL服务器数据库的连接比较慢，报告进度只有在一批行完成后才会显示进度。如果行比较大，你可能会在终端上看到很长一段时间没有返回。

为了获得 rxImport() 的最佳性能，请确保 rowsPerRead 是本地机器内存可以处理的最大可能大小。这会减少进度报告的频率，但会缩短导入时间。唯一不是这样的情况是在导入 XDF 文件时。

rxImport potential issue in RevoScaleR