Elasticsearch面试题

博主： xinyu_he
发布时间：2025 年 07 月 02 日
89 次浏览
暂无评论
1212字数
分类：面试题（持续更新）

通关Elasticsearch面试：核心原理+高频问题+实战加分技巧

1.elasticsearch 了解多少，说说公司 es 的集群架构，索引数据大小，分片有多少，以及一些调优手段。

集群规模：共 15 个节点，其中：
- 3 个 Master 节点（专职选举与管理）
- 2 个 Coordinating 节点（主要用于处理查询和请求协调）
- 10 个 Data 节点（负责数据的存储与检索）
ES 版本：使用的是 Elasticsearch 7.17（或者你实际使用的版本）
部署方式：Kubernetes 上 StatefulSet 部署，使用持久化存储（如 Ceph 或 SSD）

✅ 数据与索引设计：

数据总量：每天新增数据在 5000 万 \~ 1 亿条左右，当前历史数据总体量大约在 数百 GB 到 TB 之间，我们定期归档旧数据。
索引设计：
- 按业务通道 + 日期维度进行分索引，比如 log-<channel>-yyyy.MM.dd
- 每天新建 20\~30 个索引，单索引控制在 10 分片（primary）+ 1 副本，这样便于并发写入和检索。
- 热数据保留 7 天在热节点，使用 Index Lifecycle Management (ILM) 自动迁移至温节点。

✅ 分片设计与调优：

分片规划：
- 使用 shrink 机制对冷数据索引做分片合并，减少 segment 数量，降低存储与查询开销
- 分片数量控制在每节点不超过 50 个活跃分片，避免集群不稳定（根据社区推荐 best practice）
性能调优：
- 写入方面：
  - 使用 Bulk API 写入，单批控制在 5MB\~10MB，避免堆积和 GC 压力
  - 减少 refresh 频率（index.refresh_interval: 30s）来提升写入吞吐
- 查询方面：
  - 使用 keyword 字段做聚合/过滤，text 字段做全文检索
  - 重要查询加 caching，比如 aggregations、scroll、search\_after 分页
- 存储方面：
  - 启用 doc_values 供排序和聚合使用
  - 禁用 _all 字段，节省空间
  - 热节点采用高性能 SSD，冷节点使用普通机械盘

✅ 使用场景：

日志系统：业务日志、接口请求日志、告警记录、链路追踪等
全文检索：搜索业务关键词,如歌华搜索节目,走的就是es

正文到此结束

本文作者：xinyu.he
文章标题：Elasticsearch面试题
本文地址：https://www.hxy.bj.cn/archives/519/
版权说明：若无注明，本文皆Xinyu.he blog原创，转载请保留文章出处。

最后修改：2025 年 07 月 02 日

© 允许规范转载

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址 *

rain

1150475697

VIP6

LV69 👑🌙⭐

升级剩余天数: 35天

总注册天数: 5145天

今日已经过去小时

这周已经过去天

本月已经过去天

今年已经过去个月

Elasticsearch面试题

xinyu_he • 2025 年 07 月 02 日

<h1>通关Elasticsearch面试：核心原理+高频问题+实战加分技巧</h1><h3>1.elasticsearch 了解多少，说说公司 es 的集群架构，索引数据大小，分片有多少，以及一些调优手段 。</h3><ul><li><p><strong>集群规模</strong>：共 15 个节点，其中：</p><ul><li>3 个 Master 节点（专职选举与管理）</li><li>2 个 Coordinating 节点（主要用于处理查询和请求协调）</li><li>10 个 Data 节点（负责数据的存储与检索）</li></ul></li><li><strong>ES 版本</strong>：使用的是 Elasticsearch 7.17（或者你实际使用的版本）</li><li><strong>部署方式</strong>：Kubernetes 上 StatefulSet 部署，使用持久化存储（如 Ceph 或 SSD）</li></ul><p>✅ 数据与索引设计：</p><ul><li><strong>数据总量</strong>：每天新增数据在 5000 万 \~ 1 亿条左右，当前历史数据总体量大约在 <strong>数百 GB 到 TB 之间</strong>，我们定期归档旧数据。</li><li><p><strong>索引设计</strong>：</p><ul><li>按业务通道 + 日期维度进行分索引，比如 <code>log-&lt;channel&gt;-yyyy.MM.dd</code></li><li>每天新建 20\~30 个索引，单索引控制在 <strong>10 分片（primary）+ 1 副本</strong>，这样便于并发写入和检索。</li><li>热数据保留 7 天在热节点，使用 <strong>Index Lifecycle Management (ILM)</strong> 自动迁移至温节点。</li></ul></li></ul><hr><p>✅ 分片设计与调优：</p><ul><li><p><strong>分片规划</strong>：</p><ul><li>使用 <code>shrink</code> 机制对冷数据索引做分片合并，减少 segment 数量，降低存储与查询开销</li><li>分片数量控制在每节点不超过 50 个活跃分片，避免集群不稳定（根据社区推荐 best practice）</li></ul></li><li><p><strong>性能调优</strong>：</p><ul><li><p>写入方面：</p><ul><li>使用 Bulk API 写入，单批控制在 5MB\~10MB，避免堆积和 GC 压力</li><li>减少 refresh 频率（<code>index.refresh_interval: 30s</code>）来提升写入吞吐</li></ul></li><li><p>查询方面：</p><ul><li>使用 keyword 字段做聚合/过滤，text 字段做全文检索</li><li>重要查询加 caching，比如 aggregations、scroll、search\_after 分页</li></ul></li><li><p>存储方面：</p><ul><li>启用 <code>doc_values</code> 供排序和聚合使用</li><li>禁用 <code>_all</code> 字段，节省空间</li><li>热节点采用高性能 SSD，冷节点使用普通机械盘</li></ul></li></ul></li></ul><hr><p>✅ 使用场景：</p><ul><li><strong>日志系统</strong>：业务日志、接口请求日志、告警记录、链路追踪等</li><li><strong>全文检索</strong>：搜索业务关键词,如歌华搜索节目,走的就是es</li></ul>