R:DuckDB DBconnect 非常慢 - 为什么?

R: DuckDB DBconnect is very slow - Why?

我有一个包含柱状数字和字符串的 *.csv 文件(磁盘上 13GB),我将其导入到新的 duckdb(或 sqlite)数据库中并保存它以便稍后在 R 中访问它。但是重新连接会复制它而且很慢,这是错误的吗?

在 R 中,我正在执行以下操作:

library(duckdb)
library(dplyr)
library(DBI)

#Create the DB
con <- dbConnect(duckdb::duckdb(), "FINAL_data.duckdb")

#Read in the csv
duckdb_read_csv(con, "data", "FINAL_data_new.csv") 

然后我关闭 R 并重新启动它以查看它是否有效:

#这超级慢(大约10分钟),因为它看起来像是在某处再次写入DB。但是为什么?

con <- dbConnect(duckdb::duckdb(), "FINAL_data.duckdb")

注意。我添加了 sqlite 作为标签,因为我认为这不是 duckdb 特有的

您遇到的减速是由于启动时的数据库检查点造成的。这已经在 master 分支上修复了。