用indexedDb高效存储和检索时序数据
Efficient storage and retrieval of time series data with indexedDb
我正在考虑在 Web 浏览器中使用 javascript 存储和检索时间序列数据。我期望每秒有 500 - 5000 个浮点项趋势。存储每个项目时都会有一个唯一的标签名称、相同的时间戳 (Date.now()) 和一个浮点值。
在检索数据时,我通常对获取时间戳在指定范围内的单个标签名称的值数组感兴趣。
我的问题是我不了解 indexedDb 数据模型和 API。是否可以通过一次调用存储我所有的新值(每秒为所有 1000 个标签生成一次)?
我用 Dexie 作为 indexedDb 的包装器做了一些实验,这是我的测试代码:
async function start() {
// Define database
await Dexie.delete('trendDatabase');
var db = new Dexie("trendDatabase");
db.version(1).stores({
trends: '++id,trendId,timestamp,value'
});
console.log ("Using Dexie v" + Dexie.semVer);
// Query Database
var result1 = await db.open();
//add 1000 values for two trends
var trendId1 = "FI-100";
var trendId2 = "FI-200";
var t1 = Date.now();
for (var i=0; i<1000; i++) {
var timestamp1 = t1 - (1000 + i) * 1000;
var value1 = Math.sin(i/10)*8;
var storeResult = await db.trends.add({trendId: trendId1, timestamp: timestamp1, value: value1});
var value2 = Math.cos(i/100)*4;
var storeResult = await db.trends.add({trendId: trendId2, timestamp: timestamp1, value: value1});
}
var t2 = Date.now();
console.log("Took: ", t2 - t1);
var t3 = Date.now();
console.log("Took: ", t3 - t2);
console.log(result3);
var result4 = db.delete();
}
最大的问题是存储速度太慢。在我的笔记本电脑上,存储 2000 个数据点需要 52 秒(但检索 1000 个点只需要 11 毫秒)。在我的带有 Optane 存储的桌面上,存储大约需要 2 秒。在任何一种情况下,这都太慢了。我需要能够每秒存储一次,所以我需要 < 1000 毫秒的存储速度,理想情况下 < 100 毫秒。
是否有更好的方法在 indexedDb 中构建时间序列数据?
我的一个想法是,我可以一次存储所有趋势的最近 100 个点的数据,然后为每个单独的趋势写入 100 个点的块(按每个趋势的轮换顺序)以减少write calls by factor of 100. 这也可以用于检索最近的数据(在过去的 100 秒内),当我只想要其中的一小部分时,我最终会得到所有 1000 个标签的值,所以我必须做一些过滤掉不相关的数据。这种方法可能是可行的,但我想在解决所有问题之前查询社区,看看是否有更好的方法或任何其他方法 projects/libraries 来做这样的事情。
嗯,我应该在问之前做更多的研究。看起来有一个 dexie.bulkAdd 命令可以解决我的问题并且已经快了 100 倍以上。
很好,您发现可以使用 Table.bulkAdd() 而不是 Table.add()(看到您自己对问题的回答)
对于查询部分,我了解到您想在查询中同时包含标签和时间范围。
我想标签部分和trendId是一样的吧?
如果是这样,我建议您迁移架构以使用 [trendId+timestamp] 的复合索引来提高查询效率。
还建议您将数据库实例保留在 start() 函数之外。在模块中声明它并导出它。
db.js
// db.js
export const db = new Dexie('trendDatabase');
db.version(1).stores({
trends: '++id,trendId,timestamp,value'
});// (Keep version 1 if you or your users have it installed)
// Migrate schema:
db.version(2).stores({
trends: '++id, [trendId+timestamp]'
});
query.js
// query.js
import { db } from './db';
export function query(trendId, timeFrom, timeTo) {
return db.trends
.where('[trendId+timestamp]')
.between([trendId, timeFrom], [trendId, timeTo])
.toArray();
}
log.js
import { db } from './db';
export async function log(trends) {
await db.trends.bulkAdd(trends);
}
如您所见,您只需要索引将在 where 子句中使用的属性。这并不意味着您可以为每个对象存储其他属性。
我正在考虑在 Web 浏览器中使用 javascript 存储和检索时间序列数据。我期望每秒有 500 - 5000 个浮点项趋势。存储每个项目时都会有一个唯一的标签名称、相同的时间戳 (Date.now()) 和一个浮点值。
在检索数据时,我通常对获取时间戳在指定范围内的单个标签名称的值数组感兴趣。
我的问题是我不了解 indexedDb 数据模型和 API。是否可以通过一次调用存储我所有的新值(每秒为所有 1000 个标签生成一次)?
我用 Dexie 作为 indexedDb 的包装器做了一些实验,这是我的测试代码:
async function start() {
// Define database
await Dexie.delete('trendDatabase');
var db = new Dexie("trendDatabase");
db.version(1).stores({
trends: '++id,trendId,timestamp,value'
});
console.log ("Using Dexie v" + Dexie.semVer);
// Query Database
var result1 = await db.open();
//add 1000 values for two trends
var trendId1 = "FI-100";
var trendId2 = "FI-200";
var t1 = Date.now();
for (var i=0; i<1000; i++) {
var timestamp1 = t1 - (1000 + i) * 1000;
var value1 = Math.sin(i/10)*8;
var storeResult = await db.trends.add({trendId: trendId1, timestamp: timestamp1, value: value1});
var value2 = Math.cos(i/100)*4;
var storeResult = await db.trends.add({trendId: trendId2, timestamp: timestamp1, value: value1});
}
var t2 = Date.now();
console.log("Took: ", t2 - t1);
var t3 = Date.now();
console.log("Took: ", t3 - t2);
console.log(result3);
var result4 = db.delete();
}
最大的问题是存储速度太慢。在我的笔记本电脑上,存储 2000 个数据点需要 52 秒(但检索 1000 个点只需要 11 毫秒)。在我的带有 Optane 存储的桌面上,存储大约需要 2 秒。在任何一种情况下,这都太慢了。我需要能够每秒存储一次,所以我需要 < 1000 毫秒的存储速度,理想情况下 < 100 毫秒。
是否有更好的方法在 indexedDb 中构建时间序列数据?
我的一个想法是,我可以一次存储所有趋势的最近 100 个点的数据,然后为每个单独的趋势写入 100 个点的块(按每个趋势的轮换顺序)以减少write calls by factor of 100. 这也可以用于检索最近的数据(在过去的 100 秒内),当我只想要其中的一小部分时,我最终会得到所有 1000 个标签的值,所以我必须做一些过滤掉不相关的数据。这种方法可能是可行的,但我想在解决所有问题之前查询社区,看看是否有更好的方法或任何其他方法 projects/libraries 来做这样的事情。
嗯,我应该在问之前做更多的研究。看起来有一个 dexie.bulkAdd 命令可以解决我的问题并且已经快了 100 倍以上。
很好,您发现可以使用 Table.bulkAdd() 而不是 Table.add()(看到您自己对问题的回答)
对于查询部分,我了解到您想在查询中同时包含标签和时间范围。
我想标签部分和trendId是一样的吧?
如果是这样,我建议您迁移架构以使用 [trendId+timestamp] 的复合索引来提高查询效率。
还建议您将数据库实例保留在 start() 函数之外。在模块中声明它并导出它。
db.js
// db.js
export const db = new Dexie('trendDatabase');
db.version(1).stores({
trends: '++id,trendId,timestamp,value'
});// (Keep version 1 if you or your users have it installed)
// Migrate schema:
db.version(2).stores({
trends: '++id, [trendId+timestamp]'
});
query.js
// query.js
import { db } from './db';
export function query(trendId, timeFrom, timeTo) {
return db.trends
.where('[trendId+timestamp]')
.between([trendId, timeFrom], [trendId, timeTo])
.toArray();
}
log.js
import { db } from './db';
export async function log(trends) {
await db.trends.bulkAdd(trends);
}
如您所见,您只需要索引将在 where 子句中使用的属性。这并不意味着您可以为每个对象存储其他属性。