R:使用 RODBC 和 SQL 服务器读取性能非常慢
R: Painfully slow read performance using RODBC & SQL Server
我是 R 的新手,但有兴趣使用 Shiny 使用存储在 SQL 服务器数据库中的数据创建动态图表。为了实现交互性,我想从数据库中引入原始数据并在 R
内执行计算,而不是让数据库汇总数据。
我能够使用 RODBC
连接到数据库,执行查询,并在 data.frame
中接收结果。但是,R
中的读取时间比 SQL Server Management Studio (SSMS) 中执行的相同查询长约 12 倍。 SSMS 大约需要 600 毫秒,而 R
大约需要 7.6 秒。我的问题是我是否做错了什么,或者 R
只是数据库访问真的很慢?如果是这样,是否有更快的替代方案(例如将数据库输出写入文件并读取文件)?
有关查询的一些信息可能会有所帮助:查询检索大约 250K 行和 4 列。第一列是日期,其他三列是数值。机器运行 R
和SSMS 是一个高端的Win 7 工作站,内存为32GB。我是运行的R
命令是:
system.time(df <- sqlQuery(cn, query))
哪个returns:
user system elapsed
7.17 0.01 7.58
有趣的是,从 SQL 到我的机器的数据传输似乎很快,但是 R
在返回 data.frame
之前在内部忙着做几秒钟的事情。我看到这个是因为网络利用率在第一秒出现峰值,几乎立即 returns 接近 0。然后几秒钟后,R
data.frame
returns.
我会试试 RJDBC
http://cran.r-project.org/web/packages/RJDBC/RJDBC.pdf
使用这些驱动程序https://msdn.microsoft.com/en-us/sqlserver/aa937724.aspx
library(RJDBC)
drv <- JDBC("com.microsoft.sqlserver.jdbc.SQLServerDriver","/sqljdbc4.jar")
con <- dbConnect(drv, "jdbc:sqlserver://server.location", "username", "password")
dbGetQuery(con, "select column_name from table")
我会确保您的 R 时区 - 例如 Sys.setenv(TZ='GMT')
设置为 GMT - 与您从中提取数据的 SQL 服务器的时区相同。可能是日期列需要很长时间才能被解释,尤其是当它有时间戳时。
RJDBC 将 运行 更快,因为它将日期转换为字符,并将其他所有内容转换为数字。 RODBC 将尝试保留 SQL table.
的数据类型
我是 R 的新手,但有兴趣使用 Shiny 使用存储在 SQL 服务器数据库中的数据创建动态图表。为了实现交互性,我想从数据库中引入原始数据并在 R
内执行计算,而不是让数据库汇总数据。
我能够使用 RODBC
连接到数据库,执行查询,并在 data.frame
中接收结果。但是,R
中的读取时间比 SQL Server Management Studio (SSMS) 中执行的相同查询长约 12 倍。 SSMS 大约需要 600 毫秒,而 R
大约需要 7.6 秒。我的问题是我是否做错了什么,或者 R
只是数据库访问真的很慢?如果是这样,是否有更快的替代方案(例如将数据库输出写入文件并读取文件)?
有关查询的一些信息可能会有所帮助:查询检索大约 250K 行和 4 列。第一列是日期,其他三列是数值。机器运行 R
和SSMS 是一个高端的Win 7 工作站,内存为32GB。我是运行的R
命令是:
system.time(df <- sqlQuery(cn, query))
哪个returns:
user system elapsed
7.17 0.01 7.58
有趣的是,从 SQL 到我的机器的数据传输似乎很快,但是 R
在返回 data.frame
之前在内部忙着做几秒钟的事情。我看到这个是因为网络利用率在第一秒出现峰值,几乎立即 returns 接近 0。然后几秒钟后,R
data.frame
returns.
我会试试 RJDBC http://cran.r-project.org/web/packages/RJDBC/RJDBC.pdf
使用这些驱动程序https://msdn.microsoft.com/en-us/sqlserver/aa937724.aspx
library(RJDBC)
drv <- JDBC("com.microsoft.sqlserver.jdbc.SQLServerDriver","/sqljdbc4.jar")
con <- dbConnect(drv, "jdbc:sqlserver://server.location", "username", "password")
dbGetQuery(con, "select column_name from table")
我会确保您的 R 时区 - 例如 Sys.setenv(TZ='GMT')
设置为 GMT - 与您从中提取数据的 SQL 服务器的时区相同。可能是日期列需要很长时间才能被解释,尤其是当它有时间戳时。
RJDBC 将 运行 更快,因为它将日期转换为字符,并将其他所有内容转换为数字。 RODBC 将尝试保留 SQL table.
的数据类型