【发布时间】:2016-08-04 11:53:19
【问题描述】:
我们使用 ArangoDB 和 PostgreSQL 来存储几乎相同的数据。 PostgreSQL 用于执行关系数据库可以很好地执行的一般类型的查询。选择 ArangoDB 来执行图形遍历、查找最短路径等查询。
目前我们在 PostgreSQL 中有一个包含 160000 条记录的表,在 ArangoDB 中有一个包含相同数量文档的集合。
我们正在开发的 API 将被多个用户同时使用,所以我想检查的第一点是 ArangoDB 和 PostgreSQL 在负载下的表现。我创建了一个简单的负载测试,它作为工作负载使用过滤器对 ArangoDB 和 PostgreSQL 执行简单的选择查询。
查询使用按日期字段过滤的前 N 个记录/文档。
当我运行负载测试时,对 PostgreSQL 的所有查询都在 0.5 秒内执行,我将用户数量从 10 增加到 100,并且完全不影响执行时间。
当您从单个用户开始时,对 ArangoDB 的相同查询大约需要 2 秒,然后响应时间与并发用户数量成正比增长。对于 30 个并发用户,所有查询都会在等待 60 秒的回复后超时。
我尝试调试 arangojs 连接器,发现:
var maxTasks = typeof agent.maxSockets === 'number' ? agent.maxSockets * 2 : Infinity;
还有这个:
Connection.agentDefaults = {
maxSockets: 3,
keepAlive: true,
keepAliveMsecs: 1000
};
这意味着默认的 arangojs 行为是同时向 ArangoDB 发送不超过 6 个并发查询,这导致所有其余查询在 Node.js 端排队。我试图增加数量,但没有帮助,现在看起来所有查询都在 ArandoDB 端排队。现在,如果我运行负载并尝试使用 ArangoDB Web 界面执行一些查询,则查询将等待不可预测的时间(取决于目前的用户数量),然后返回结果并告诉我它已被执行在大约 4 秒内,这是不正确的。对我来说,看起来 ArangoDB 一次只能执行一个查询,而所有其他查询都在排队......
我错过了什么吗?是否有任何设置可以调整 ArangoDB 并提高其在负载下的性能?
更新:
我们使用 ArangoDB 3.0 并将其作为具有 1.5 GB RAM 的 Docker 容器(来自官方图像)运行。
示例文档(我们有大约 16 000 个):
{
"type": "start",
"from_date": "2016-07-28T10:22:16.000Z",
"to_date": "9999-06-19T18:40:00.000Z",
"comment": null,
"id": "13_start",
"version_id": 1
}
AQL 查询:
FOR result IN @@collection
FILTER (result.version_id == 1)
FILTER (result.to_date > '2016-08-02T15:57:45.278Z')
SORT result._key
LIMIT 100
RETURN result
【问题讨论】:
-
能否请您添加您的系统规格、您正在使用的 ArangoDB 版本以及示例文档和实际查询?
-
添加到上面的帖子中。
-
使用
db._explain(yourQuery)您的查询是否使用索引?虽然你LIMIT结果集,SORT将导致所有项目都必须被检查,只有返回的结果是有限的。根据结果大小可用 RAM 的数量可能有点少。根据可用的 CPU 资源,更多server.threads可能有助于提高速度。 -
为了更好地了解 ArangoDB 内部发生的事情,我们需要更多信息。这些查询的 db._explain() 输出将是一个好的开始。我们需要找出,使用了哪些指标,以及我们是否可以改善这种情况。
_key和to_date上的组合跳过列表索引很可能可以改善这种情况。我们应该了解,LIMIT以何种方式掩盖了上述错误的副作用 - 如果必须手动进行排序,则必须提前处理大量文档。
标签: node.js concurrency performance-testing arangodb arangojs