线上kafka遇到消息积压，怎么解决？-Ally Halo Blog

前段时间公司大促活动，系统突然出现订单处理延迟问题。经过排查，发现 Kafka 消费者端消息积压超过 50 万条，导致下游的库存扣减关键业务处理严重滞后。我全程参与了此次问题的应急处理与原因分析，在本文中总结整理了当遇到 kafka 消息积压时，应该如何处理的方案。

一、消息积压可能带来的影响面

消息积压的本质：生产速率 > 消费速率

生产者生产速度过快：生产者突发流量（如大促秒杀活动）远超消费者处理能力时，消息生产量不断累积从而导致消息积压。
消费者处理速度过慢：消费者由于消费逻辑低效（单条消息处理耗时过长，如复杂事务、外部接口调用）或资源瓶颈（消费者实例 CPU/内存不足），无法及时消费掉生产者发送的消息。
broker节点数据处理速率：Kafka 的处理能力不足，整体吞吐量较低。
分区数量不合理：如果分区数量过少，无法满足高并发的消息处理需求，也会导致消息积压。

当监控告警提示积压时，测试团队需配合运维快速响应：

1. 监控告警确认

2. 临时扩容方案验证

线上问题缓解后，需在测试环境精准定位原因，避免重复发生。

1. 复现积压场景

2. 定位性能瓶颈

3. 解决方案

通过 Kafka 的性能指标和告警机制，实时监控 Kafka 消息队列的状态，可以及时发现和处理消息积压的情况。例如，可以监控Kafka的队列大小、消费者消费速度、生产者发送速度等指标，并根据实际情况设置告警阈值。当达到告警阈值时，可以通过短信、邮件等方式及时通知相关人员进行处理。