【发布时间】:2016-11-25 08:29:52
【问题描述】:
我一直在浏览文档,但无法确定批量加载的一般准则。
据我所知,将数据批量加载到 graphdb 的最佳方法是使用LoadRDF tool。
但是,我并不熟悉适当设置的一般规则。 首先,如果您有一个带有 SSD 驱动器的“普通”服务器,那么什么样的解析速度是可以接受的? 1.000 条语句/秒、10.000 条语句/秒还是更多还是更少?
还有什么好的设置?例如,您可以设置 -Dpool.buffer.size 的默认值为 200.000 条语句,但如果您有 10gig 的 ram,那么增加这个的经验法则是什么?如果您有 100 或 300 gig 的 ram?
另一个选项是 -Dinfer.pool.size,它设置为最大线程数,因为 CPU 最少为 4。因此 1 核 = 4 线程,32 核为 32 线程。我认为这不需要任何额外的调整,或者只有当你想减少 CPU 负载并且如果你有 32 个内核时不超过 64 个线程时才需要这样做?
turtle 文件还提供了额外的选项,configs/templates 中的示例可能是 owlim:cache-memory 和 owlim:tuple-index-memory加载期间有用,加载后其他设置更有用吗?
最后,如果您有 100 个单独的文件而不是一个大的海龟文件和/或压缩文件是否会提高加载速度还是只会减少初始磁盘使用量,这也很重要?
就我个人而言,我目前设置了 290gb 内存和 32 个内核和 1.8T raid 0 SSD 驱动器(加载后会有备份)并尝试进行 30 亿三倍的初始加载,从 SSD 到相同SSD,全球速度为每秒 16.461 条语句,需要一段时间,但我不确定是否以及如何改进。
【问题讨论】:
标签: performance graphdb