RevoScaleR 中的 rxImport 潜在问题
rxImport potential issue in RevoScaleR
我有一个 SQL 连接到我的 SQL 服务器上的 table,我已使用以下行导入它:
master_table <- RxSqlServerData(etc...)
然后,我的目标是 save/import 这个 table 使用 rxImport 并将其保存到一个 .xdf 文件,我称之为 readTest <- 'read_test.xdf
table 相当大,所以我在我的 rxImport 中设置了这个:
rxImport(master_table, outFile=readTest, rowsPerRead=100000,reportProgress=1)
但是,现在 运行ning 已经 10 分钟了,屏幕上没有打印 read/imported 行的任何进展。我这样做正确吗?我想输出类似的 "progress",当 ML 算法是 运行 时打印出来,比如 RxForest 或类似的?
谢谢。
可能与您的SQL服务器数据库的连接比较慢,报告进度只有在一批行完成后才会显示进度。如果行比较大,你可能会在终端上看到很长一段时间没有返回。
为了获得 rxImport() 的最佳性能,请确保 rowsPerRead 是本地机器内存可以处理的最大可能大小。这会减少进度报告的频率,但会缩短导入时间。唯一不是这样的情况是在导入 XDF 文件时。
我有一个 SQL 连接到我的 SQL 服务器上的 table,我已使用以下行导入它:
master_table <- RxSqlServerData(etc...)
然后,我的目标是 save/import 这个 table 使用 rxImport 并将其保存到一个 .xdf 文件,我称之为 readTest <- 'read_test.xdf
table 相当大,所以我在我的 rxImport 中设置了这个:
rxImport(master_table, outFile=readTest, rowsPerRead=100000,reportProgress=1)
但是,现在 运行ning 已经 10 分钟了,屏幕上没有打印 read/imported 行的任何进展。我这样做正确吗?我想输出类似的 "progress",当 ML 算法是 运行 时打印出来,比如 RxForest 或类似的?
谢谢。
可能与您的SQL服务器数据库的连接比较慢,报告进度只有在一批行完成后才会显示进度。如果行比较大,你可能会在终端上看到很长一段时间没有返回。
为了获得 rxImport() 的最佳性能,请确保 rowsPerRead 是本地机器内存可以处理的最大可能大小。这会减少进度报告的频率,但会缩短导入时间。唯一不是这样的情况是在导入 XDF 文件时。