elasticserach - 爱码网

原文链接：https://zhuanlan.zhihu.com/p/62892586

反向索引。

加入我要根据一个关键字去查找文档，由于没有关键字到文档这种索引。我只能从1号文档遍历到最后一个文档，看文档中有没有关键字。

但是如果我将文档进行分词，以这些分词作为key, 文档的位置作为value，就可以直接通过key去找到value了。

索引，类型，文档

举个例子怎么存储数据

比如一首诗，有诗题、作者、朝代、字数、诗内容等字段，那么首先，我们可以建立一个名叫 Poems 的索引，然后创建一个名叫 Poem 的类型，类型是通过 Mapping 来定义每个字段的类型。

比如诗题、作者、朝代都是 Keyword 类型，诗内容是 Text 类型，而字数是 Integer 类型，最后就是把数据组织成 Json 格式存放进去了。
elasticserach

分布式：主从架构，master，slave。
可扩展：分片，类似于分布式文档。
高可用：副本，一个挂掉，还有副本可用。
实时：并没有增加一条数据就写入磁盘，而是延迟写。
写写入内存，达到一秒或内存满，再写入硬盘。从内存中拿，很快，实现实时。
- 内存数据丢失：日志系统，记录还没有持久化到磁盘的数据。
- 写入内存，并记录到日志。
- 内存满或达到一秒，写入硬盘。
- 日志达到30分钟，或日志满，写入硬盘。

Keyword 类型是不会分词的，直接根据字符串内容建立反向索引，Text 类型在存入 Elasticsearch 的时候，会先分词，然后根据分词后的内容建立反向索引。

Elasticsearch 也是会对数据进行切分，同时每一个分片会保存多个副本，其原因和 HDFS 是一样的，都是为了保证分布式环境下的高可用。

绿色块时数据数据块。
是主从架构，在 Elasticsearch 中，节点是对等的，节点间会通过自己的一些规则选取集群的 Master，Master 会负责集群状态信息的改变，并同步给其他节点。
只有建立索引和类型需要经过 Master，数据的写入有一个简单的 Routing 规则，可以 Route 到集群中的任意节点，所以数据写入压力是分散在整个集群的。

什么规则选举master？

怎么routing？
hash(routing) % number_of_primary_shards
routing: 默认为文档的id。
number_of_primary_shards: 分片数量
所以分片数量不会改变

elasticserach

用 Elasticsearch 搭建 ELK 系统，也就是日志分析系统。其中 E 就是 Elasticsearch，L 是 Logstash，是一个日志收集系统，K 是 Kibana，是一个数据可视化平台。