场景面试题--下游服务全宕机？如何避免失败请求的大量堆积

原创已于 2025-07-20 15:44:03 修改 · 971 阅读

16 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

RPC(Java)

于 2025-07-20 15:43:17 首次发布

在分布式系统中，“下游服务全宕机” 是最棘手的故障之一 —— 如果客户端持续向已崩溃的服务发送请求，会导致失败请求堆积（如线程阻塞、队列满溢），最终引发 “雪崩效应”（客户端自身被拖垮，进而影响上游服务）。熔断器（Circuit Breaker）正是解决这一问题的核心机制，它能像电路保险丝一样，在故障时 “自动断电”，阻止无效请求，保护系统稳定。

一、为什么需要熔断器？—— 从 “雪崩效应” 说起

当下游服务（如支付服务）所有节点都宕机时，若客户端不做限制：

客户端发起的所有请求都会超时或失败；
失败请求会占用客户端资源（如线程、连接池）；
随着请求增多，客户端资源耗尽，无法处理其他正常请求；
故障从下游扩散到客户端，再扩散到上游服务，最终导致整个链路崩溃。

熔断器的作用就是在故障时快速 “熔断” 调用链路：当检测到下游服务不可用时，直接阻止新请求发送，避免无效请求堆积，给下游服务留出恢复时间，同时保护客户端资源。

二、熔断器核心原理：三个状态的智能切换

熔断器的工作机制类似家庭电路的保险丝，通过三个状态的动态切换实现 “故障隔离” 与 “自动恢复”：

1. 关闭状态（Closed）：正常工作模式

状态说明：默认状态，允许请求通过，同时统计请求的失败率（或失败次数）。
触发条件：当失败率超过预设阈值（如 50% 的请求失败），熔断器从 “关闭” 切换为 “打开”。

2. 打开状态（Open）：快速失败模式

状态说明：拒绝所有请求，直接返回 “服务暂时不可用” 的响应（不发送到下游服务）。
持续时间：维持一段时间（如 10 秒），给下游服务留出恢复窗口。
状态切换：等待时间结束后，切换为 “半开” 状态，试探下游是否恢复。

3. 半开状态（Half-Open）：试探恢复模式

状态说明：允许少量请求通过（如 10 个请求），检测下游服务是否已恢复。
状态切换：
- 若这些请求多数成功（如 80% 成功），说明下游已恢复，切换为 “关闭” 状态；
- 若仍大量失败，说明下游未恢复，切换回 “打开” 状态，继续等待。

三、熔断器如何避免失败请求堆积？

在 “打开状态” 时，熔断器直接拦截所有请求，不再将其发送到已宕机的下游服务：

客户端无需等待超时，瞬间收到失败响应；
线程、连接等资源不会被无效请求占用，避免堆积；
下游服务在 “无请求干扰” 的情况下，更易恢复。

四、简化实现：一个基础的熔断器代码框架

以下是熔断器核心逻辑的 Java 实现（基于状态机设计）：

public class CircuitBreaker {
    // 状态定义
    private enum State { CLOSED, OPEN, HALF_OPEN }

    private State state = State.CLOSED; // 初始状态：关闭
    private int failureCount = 0;       // 失败次数
    private int totalCount = 0;         // 总请求次数
    private long openEndTime = 0;       // 打开状态结束时间（毫秒）

    // 配置参数
    private final double failureThreshold = 0.5; // 失败率阈值（50%）
    private final int minRequestCount = 10;      // 最小请求数（避免少量请求误判）
    private final long openDuration = 10000;     // 打开状态持续时间（10秒）

    // 尝试调用下游服务
    public <T> T execute(Supplier<T> request) {
        // 检查状态，决定是否允许请求
        if (state == State.OPEN) {
            if (System.currentTimeMillis() < openEndTime) {
                // 打开状态且未到时间：直接失败
                throw new RuntimeException("服务暂时不可用（熔断器打开）");
            } else {
                // 打开状态超时：切换为半开状态
                state = State.HALF_OPEN;
            }
        }

        try {
            // 执行请求（调用下游服务）
            T result = request.get();
            // 请求成功：重置失败计数，状态处理
            onSuccess();
            return result;
        } catch (Exception e) {
            // 请求失败：更新失败计数，判断是否触发熔断
            onFailure();
            throw e;
        }
    }

    // 处理请求成功
    private void onSuccess() {
        if (state == State.HALF_OPEN) {
            // 半开状态下成功：切换为关闭状态，重置计数
            state = State.CLOSED;
            resetCounts();
        } else if (state == State.CLOSED) {
            // 关闭状态下成功：减少失败计数
            failureCount = Math.max(0, failureCount - 1);
            totalCount++;
        }
    }

    // 处理请求失败
    private void onFailure() {
        if (state == State.CLOSED) {
            // 关闭状态下失败：累加计数，判断是否触发熔断
            failureCount++;
            totalCount++;
            if (totalCount >= minRequestCount && 
                (double) failureCount / totalCount >= failureThreshold) {
                // 失败率达标：切换为打开状态，记录结束时间
                state = State.OPEN;
                openEndTime = System.currentTimeMillis() + openDuration;
            }
        } else if (state == State.HALF_OPEN) {
            // 半开状态下失败：切换回打开状态
            state = State.OPEN;
            openEndTime = System.currentTimeMillis() + openDuration;
            resetCounts();
        }
    }

    // 重置计数
    private void resetCounts() {
        failureCount = 0;
        totalCount = 0;
    }
}