Elasticsearch面试核心

Elasticsearch面试核心问题解答

1. Elasticsearch 的核心概念有哪些？

Index（索引）：类似于数据库中的表，用于存储文档数据。每个索引可以包含多个类型的数据（在Elasticsearch 7.x及以后版本中，多类型已被废弃，每个索引只包含一种类型的数据）。
Document（文档）：最小的可检索单元，类似于数据库中的一行记录，以JSON格式存储。
Shard（分片）：索引的数据会被分片存储，每个索引会分为多个分片来提高性能和数据容量。分片分为主分片和副本分片。
Replica（副本）：分片的副本，用于高可用性和容错。副本分片不能存储在主分片所在的同一节点上，以确保数据的可靠性。

2. Elasticsearch 如何实现高可用和数据冗余？

Elasticsearch通过分片（Shards）和副本（Replicas）实现高可用性。每个索引都会被分成多个分片，并且每个分片可以有多个副本。主分片负责数据写入，副本用于容错和查询。如果某个节点失效，副本可以迅速接管角色，保障数据不会丢失，从而实现高可用性和数据冗余。

3. Elasticsearch 的倒排索引是什么？它是如何工作的？

倒排索引是Elasticsearch的核心数据结构，用于实现高效的全文检索。它将文档中的每个词与包含这个词的文档ID关联起来。
在查询时，倒排索引能够快速找到包含某个词的所有文档集合，从而实现全文搜索。这种索引方式极大地提高了搜索效率，使得Elasticsearch能够处理大规模的数据集。

4. Elasticsearch 的分片机制是如何工作的？为什么需要分片？

5. Elasticsearch 如何实现水平扩展？

Elasticsearch通过分片机制实现水平扩展。索引的数据会被分割成多个分片，并分布到不同的节点上。
随着数据量的增加，可以通过添加新的节点，将已有的分片重新分配到这些新节点上，从而增加系统的存储和处理能力。这种扩展方式无需停机或中断服务，具有高度的灵活性和可扩展性。

6. Elasticsearch 中的 Mapping 是什么？它有什么作用？

Mapping是定义文档中各字段的数据类型和处理方式的过程。它类似于关系型数据库中的表结构定义。
在Mapping中，可以指定字段类型（如字符串、数值、日期等）以及如何索引这些字段（如是否需要分词，是否存储等）。
Mapping的作用是为文档中的字段提供明确的类型定义和索引策略，从而优化查询效率和节省存储空间。合理的Mapping设计有助于提高Elasticsearch的性能和可靠性。

7. 什么是集群再平衡（Cluster Rebalancing）？它的作用是什么？

8. Elasticsearch 如何处理写入冲突（Write Conflicts）？

9. Elasticsearch 中如何优化查询性能？

10. Elasticsearch 是如何实现数据持久化的？

11. 什么是 Elasticsearch 的refresh机制？它与flush有什么区别？

Refresh：是指将最新的文档写入段文件，并使其可见。默认每隔1秒会自动执行一次refresh操作，但它并不会将数据从内存刷到磁盘上。Refresh适用于实时性要求高的场景，可以确保新添加的文档能够立即被查询到。
Flush：是指将数据从事务日志（Translog）持久化到磁盘上，并清空Translog。Flush通常在集群关闭或日志积累过多时执行，用于数据的持久化保障。Flush操作会将内存中的数据写入到磁盘上的段文件中，并释放相关资源。
区别在于，refresh操作是轻量级的，不会将数据持久化到磁盘上；而flush操作是重量级的，会将数据持久化到磁盘上并清空Translog。

12. Elasticsearch 中如何防止“分片过多”问题？

热门标签