如何使用 RSQLite 从数据库中检索大量数据? (缓冲区溢出?)

How to retrieve large numbers from database with RSQLite? (Buffer overflow?)

我有一个包含各种令牌和频率计数的数据库。当我尝试使用 RSQLite 从 R 中检索这些时,我得到的负数很低,因此可能存在缓冲区溢出问题。如果我在 say sqliteman 中打开数据库并手动查询它,数据将正确返回,所以它必须与 DBI 或 RSQLite 有关。

有没有办法通过 RSQLite 检索非常大的 integers/floating 点值而不出现这个问题?

这是一个最小的例子:

library("DBI"); library("RSQLite")
db.h <- dbConnect(RSQLite::SQLite(), dbname=":memory:")
dbGetQuery(db.h, "CREATE TABLE test (a TEXT, b INT)")
dbGetQuery(db.h, "INSERT INTO test VALUES ('value1',   282817178)")
dbGetQuery(db.h, "INSERT INTO test VALUES ('value2', 15620693910)")
result = dbGetQuery(db.h, "SELECT * FROM test")
result
dbDisconnect(db.h)

我得到的输出如下:

>        a           b
> 1 value1   282817178
> 2 value2 -1559175274

我在 32 位 Windows7 上使用 RStudio 0.98.501(R 版本 3.0.2),如果相关的话。

编辑:请注意,SQLite 3 对内存和请求处理中的所有值使用 64 位整数。按照下面评论中的建议使用 BIGINT 代替 INT 会产生相同的溢出问题。

This post on the RSQLite issue tracker 表明这似乎是一个已知的 issue/limitation 实现。它说这是(至少部分)与 R 不能很好地管理 SQLite 使用的 64 位整数有关。

这里有一个似乎对我有用的解决方法:在 SQL 查询中将具有大整数的列转换为 TEXT,然后在 R 中手动将其重新调整为数值。

工作示例:

library("DBI"); library("RSQLite")
db.h <- dbConnect(RSQLite::SQLite(), dbname=":memory:")
dbGetQuery(db.h, "CREATE TABLE test (a TEXT, b INT)")
dbGetQuery(db.h, "INSERT INTO test VALUES ('value1',   282817178)")
dbGetQuery(db.h, "INSERT INTO test VALUES ('value2', 15620693910)")
result = dbGetQuery(db.h, "SELECT a, CAST(b as TEXT) as b FROM test")
result$b <- as.numeric(result$b); result
dbDisconnect(db.h)

输出:

       a           b
1 value1   282817178
2 value2 15620693910