【发布时间】:2014-10-30 21:14:56
【问题描述】:
我是 elasticsearch 新手,但我真的不知道如何考虑设置河流(在我的例子中是 mysql 河流)所涉及的磁盘空间和内存使用情况。
河流的开销是多少?特别是关于磁盘空间和内存使用情况? This has been asked 但没有得到答复。
换句话说,假设我有一个包含 3 列的表:primary_key(整数)、url(varchar)和 document_text(文本)。另外,假设我目前正在 mysql 中进行 100% 的全文搜索(我知道这很愚蠢,但只是为了论证)。 3 列中的每一列都有一个索引,其中“document_text”索引是全文索引。这是一个非常大的表,我想尽量减少重复数据。
我应该如何考虑使用 mysql 河发生了什么? 对于一条河流,我是否只需从“document_text”列中删除全文index并将其移至elasticsearch(以及mysql中的primary_key)? Elasticsearch 不需要索引“url”,因为我们没有搜索它,对吗? document_text 的数据存储在 mysql 中,但索引存储在 elasticsearch 中,因此使用的磁盘空间实际上是零增长?
编辑:
我想我的主要问题是我将基础数据存储两次还是 elasticsearch 只存储索引?
【问题讨论】:
标签: mysql search elasticsearch diskspace overhead