使用 indexedDb 高效存储和检索时间序列数据答案

【问题标题】：Efficient storage and retrieval of time series data with indexedDb使用 indexedDb 高效存储和检索时间序列数据
【发布时间】：2019-07-14 08:32:53
【问题描述】：

我正在研究在 Web 浏览器中使用 javascript 存储和检索时间序列数据。我期望有 500 - 5000 个浮点项目以每秒一次的间隔呈现趋势。存储每个项目时，都会有一个唯一的标签名称、相同的时间戳 (Date.now()) 和一个浮点值。

在检索数据时，我通常对获取单个标签名称的值数组感兴趣，其中时间戳位于指定范围内。

我的问题是我不了解 indexedDb 数据模型和 API。是否可以通过一次调用存储我所有的新值（为所有 1000 个标签每秒生成一次）？

我已经用 Dexie 作为 indexedDb 的包装器做了一些试验，这是我的测试代码：

async function start() {

  // Define database

  await Dexie.delete('trendDatabase');
  var db = new Dexie("trendDatabase");
  db.version(1).stores({
    trends: '++id,trendId,timestamp,value'
  });

  console.log ("Using Dexie v" + Dexie.semVer);

  // Query Database
  var result1 = await db.open();

  //add 1000 values for two trends

  var trendId1 = "FI-100";
  var trendId2 = "FI-200";
  var t1 = Date.now(); 
  for (var i=0; i<1000; i++) {
      var timestamp1 = t1 - (1000 + i) * 1000;
      var value1 = Math.sin(i/10)*8;
      var storeResult = await db.trends.add({trendId: trendId1, timestamp: timestamp1, value: value1});
      var value2 = Math.cos(i/100)*4;
      var storeResult = await db.trends.add({trendId: trendId2, timestamp: timestamp1, value: value1});
  }
  var t2 = Date.now();
  console.log("Took: ", t2 - t1);
  var t3 = Date.now();
  console.log("Took: ", t3 - t2);
  console.log(result3); 
  var result4 = db.delete();

}

最大的问题是存储速度有多慢。在我的笔记本电脑上，存储 2000 个数据点需要 52 秒（但检索 1000 个数据点只需 11 毫秒）。在我的带有 Optane 存储的桌面上，存储大约需要 2 秒。无论哪种情况，这都太慢了。我需要能够每秒存储一次，所以我需要

有没有更好的方法在 indexedDb 中构建时间序列数据？

我的一个想法是，我可以一次存储所有趋势的最新 100 点数据，然后为每个单独的趋势写入 100 点的块（按每个趋势的轮换顺序），以减少写入调用的次数乘以 100 倍。这也可以用于检索最近的数据（在最后 100 秒内），当我只想要其中的一小部分时，我最终会获得所有 1000 个标签的值，所以我必须做一些工作过滤剔除不相关的数据。这种方法可能是可行的，但我想在遇到所有麻烦之前查询社区，看看是否有更好的方法或任何其他项目/库来做这样的事情。

【问题讨论】：

如果不需要立即读取值，则不需要等待值的写入完成。

标签： javascript time-series indexeddb dexie

【解决方案1】：

很好，您发现使用 Table.bulkAdd() 而不是 Table.add()（看到您自己对问题的回答）

对于查询部分，我知道您希望在查询中同时包含标签和时间范围。

我猜tag部分和trendId是一样的？

如果是这样，我建议您迁移架构以使用 [trendId+timestamp] 的复合索引来进行更高效的查询。

还建议您将 db 实例保留在 start() 函数之外。在模块中声明并导出。

db.js

// db.js
export const db = new Dexie('trendDatabase');

db.version(1).stores({
  trends: '++id,trendId,timestamp,value'
});// (Keep version 1 if you or your users have it installed)

// Migrate schema:
db.version(2).stores({
  trends: '++id, [trendId+timestamp]'
});

查询.js

// query.js
import { db } from './db';

export function query(trendId, timeFrom, timeTo) {
  return db.trends
    .where('[trendId+timestamp]')
    .between([trendId, timeFrom], [trendId, timeTo])
    .toArray();
}

log.js

import { db } from './db';

export async function log(trends) {
  await db.trends.bulkAdd(trends);
}

如您所见，您只需要索引将在 where 子句中使用的属性。这并不意味着您可以为每个对象存储其他属性。

【讨论】：

【解决方案2】：

好吧，我应该在问之前做更多的研究。看起来有一个 dexie.bulkAdd 命令可以解决我的问题，并且速度已经提高了 100 倍以上。

【讨论】：