VoltDB 通过在一次调用中执行多个插入,C++ API

VoltDB pass execute multiple inserts in one invoke, C++ API

我目前有一个模型需要在同一个 table 上完成大量插入(不是在启动时)。目前我准备在C++代码中设置插入值,然后单独调用插入存储过程。

例如

INSERT ... VALUES ('1','2')
INSERT ... VALUES ('3','4')
INSERT ... VALUES ('5','6')

我想知道是否有可能(使用 VoltDB 和 C++ 客户端):

1) 批量插入 例如

INSERT ... VALUES ('1','2'), ('3','4'), ('5','6')

2) 将包含自定义定界符的数组或字符串传递到存储过程中,然后在内部对其进行解析并在存储过程本身中调用各个插入。

INSERT ... VALUES ('1,2|3,4|5,6') or similar

然后在程序中拆分字符串。

如果可能的话,请给我指出一个例子,或者 C++ API 语法,以便于实现? (例如在存储过程中循环,以解析字符串 and/or 字符串操作函数等)

我想尝试其中一个选项,以测试相对性能。虽然我读过个别插入应该足够快,但我认为这可能会因用例而异。

如果您调用 table 的默认插入过程,则单个插入会更快,例如“TABLENAME.insert”,它采用与 INSERT ... VALUES 相同的值,但绕过 AdHoc SQL 解析器并更直接地路由到分区。这将为您提供为每一行使用单独的过程调用来插入记录的最佳性能。

在 java 客户端上,有一个 API 可以帮助批量加载 table。这里有一个示例教程:https://github.com/VoltDB/voltdb/tree/master/examples/HOWTOs/bulkloader

如果数据存在于 CSV 或带分隔符的文件中,您可以利用 csvloader 应用程序,它使用相同的 bulkloader API。

C++ 客户端没有批量加载器的实现 API,所以虽然这并非不可能,但会困难得多。

VoltDB 不支持 INSERT ... VALUES ('1','2'),('3','4'),... 形式的批量插入。

您描述的另一种方法是可行的。您可以编写一个 Java 存储过程,将 VoltTable 作为输入参数,并从 C++ 客户端构建一个 Table 对象,它对应于 Java。或者,您可以传入值数组。但是,VoltTable 或数组都不能作为该过程的分区键参数。因此,如果您正在尝试做一些大规模的事情,您可能希望分区键有一个单独的参数值,并且您需要发送一组都属于同一分区的记录。这可能很难做到。最简单的方法是编写自己的简单哈希函数。当您生成或接收新记录时,您可以使用您的函数对它们进行哈希处理并将它们分组到存储桶中,然后将这些记录集批量发送到数据库,并将哈希值作为分区键。但是您必须在 table 中为该散列值包含一列。因此,具有相同散列值的记录将属于同一分区。

披露:我在 VoltDB 工作。