Redis 缓存穿透、击穿、雪崩三大问题及解决方案详解

原创 2025-07-31 09:56:17编程技术

638

引言

在分布式系统架构中，Redis作为核心缓存组件，通过减少数据库直接访问显著提升系统性能。然而，在高并发场景下，缓存穿透、缓存击穿、缓存雪崩三大问题可能引发数据库过载甚至系统崩溃。本文ZHANID工具网将系统解析三大问题的本质、成因及解决方案，结合电商秒杀、热点新闻等典型场景，提供可落地的技术实践指南。

一、缓存穿透：穿透防护网的恶意请求

1.1 问题定义与典型场景

缓存穿透指客户端请求数据库中不存在的数据，导致缓存层无法命中，所有请求直接穿透至数据库。例如：

恶意攻击：攻击者构造大量随机ID（如-1、0或超长字符串）发起请求，数据库中无对应记录。
业务逻辑缺陷：未校验参数合法性，如用户查询已注销账号的订单信息。

数据流向：
客户端请求 → Redis未命中 → 数据库查询无结果 → 返回空值 → 重复上述流程

1.2 解决方案与实现

方案1：布隆过滤器（Bloom Filter）

原理：概率型数据结构，通过哈希函数将元素映射到位数组中，快速判断元素是否可能存在于集合中。
优势：内存占用低（100万数据仅需1MB）、查询效率高（O(1)复杂度）。
局限：存在误判率（可通过调整参数控制，如误判率设为1%时，100万数据需约9.6MB内存）。

代码示例（Java+Guava）：

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

// 初始化布隆过滤器（预期100万元素，误判率1%）
BloomFilter<Long> bloomFilter = BloomFilter.create(
  Funnels.longFunnel(), 
  1_000_000, 
  0.01
);

// 服务启动时加载数据库存在的ID
List<Long> validIds = database.getAllExistingIds();
bloomFilter.putAll(validIds);

// 请求拦截逻辑
public String getProduct(Long id) {
  if (!bloomFilter.mightContain(id)) {
    return "非法ID"; // 直接拦截非法请求
  }
  // 正常查询缓存与数据库
  String value = redis.get("product:" + id);
  if (value == null) {
    value = database.query(id);
    if (value == null) {
      redis.setex("product:" + id, 300, "NULL"); // 缓存空值5分钟
    } else {
      redis.setex("product:" + id, 3600, value);
    }
  }
  return value;
}

方案2：空值缓存

原理：将数据库查询为空的结果也缓存，并设置较短过期时间（如5分钟）。
优势：实现简单，无需额外数据结构。
风险：需合理设置过期时间，避免缓存大量无效键。

代码示例：

public String getUserInfo(String userId) {
  String key = "user:" + userId;
  String value = redis.get(key);
  if ("NULL".equals(value)) {
    return "用户不存在"; // 命中空缓存
  }
  if (value == null) {
    value = database.queryUser(userId);
    if (value == null) {
      redis.setex(key, 300, "NULL"); // 缓存空值
    } else {
      redis.setex(key, 3600, value); // 缓存有效数据1小时
    }
  }
  return value;
}

1.3 适用场景对比

方案	适用场景	内存占用	查询效率	维护成本
布隆过滤器	恶意攻击防护、大规模数据预过滤	低	高	中
空值缓存	业务逻辑缺陷修复、低频空查询场景	中	中	低

二、缓存击穿：热点数据的瞬时崩溃

2.1 问题定义与典型场景

缓存击穿指热点数据的缓存过期时，大量并发请求同时穿透至数据库，导致瞬时压力激增。例如：

秒杀活动：商品库存缓存过期瞬间，万级请求同时查询数据库。
热点新闻：突发新闻的访问量在缓存过期后集中爆发。

数据流向：
并发请求 → Redis缓存过期 → 多线程同时查询数据库 → 数据库连接池耗尽 → 系统崩溃

2.2 解决方案与实现

方案1：互斥锁（Mutex Lock）

原理：通过分布式锁（如Redis的SETNX或Redisson）确保同一时间仅一个线程更新缓存。
优势：强一致性，避免数据库过载。
局限：增加系统延迟（锁等待时间需权衡）。

代码示例（Redisson）：

public String getHotNews(String newsId) {
  String key = "news:" + newsId;
  String value = redis.get(key);
  if (value == null) {
    RLock lock = redisson.getLock(key + ":lock");
    try {
      if (lock.tryLock(3, 30, TimeUnit.SECONDS)) { // 尝试获取锁，超时时间3秒
        // 双重检查避免重复查询
        value = redis.get(key);
        if (value == null) {
          value = database.queryNews(newsId);
          redis.setex(key, 600, value); // 缓存10分钟
        }
      }
    } finally {
      lock.unlock();
    }
  }
  return value;
}

方案2：逻辑过期时间

原理：缓存数据中存储逻辑过期时间，由后台异步线程更新缓存，当前请求仍返回旧数据。
优势：零等待时间，用户体验佳。
风险：数据短暂不一致（通常可接受）。

代码示例：

@Data
class CacheWrapper {
  private String data;
  private Long expireTime; // 逻辑过期时间戳
}

public String getHotProduct(String productId) {
  String key = "hot_product:" + productId;
  CacheWrapper wrapper = redis.get(key);
  if (wrapper == null || wrapper.getExpireTime() < System.currentTimeMillis()) {
    // 启动异步线程更新缓存
    CompletableFuture.runAsync(() -> {
      RLock lock = redisson.getLock(key + ":async_lock");
      try {
        lock.lock();
        // 再次检查避免重复更新
        wrapper = redis.get(key);
        if (wrapper == null || wrapper.getExpireTime() < System.currentTimeMillis()) {
          String dbValue = database.queryProduct(productId);
          CacheWrapper newWrapper = new CacheWrapper();
          newWrapper.setData(dbValue);
          newWrapper.setExpireTime(System.currentTimeMillis() + 30 * 1000);
          redis.setex(key, 60, JSON.toJSONString(newWrapper)); // 物理过期时间设为逻辑过期时间的2倍
        }
      } finally {
        lock.unlock();
      }
    });
    // 返回旧数据或默认值
    return wrapper != null ? wrapper.getData() : "加载中...";
  }
  return wrapper.getData();
}

2.3 适用场景对比

方案	适用场景	一致性要求	响应延迟	实现复杂度
互斥锁	强一致性要求的金融交易场景	高	中	中
逻辑过期时间	新闻、商品详情等可容忍短暂不一致场景	低	低	高

三、缓存雪崩：集体失效的系统级灾难

3.1 问题定义与典型场景

缓存雪崩指大量缓存数据在同一时间失效，导致所有请求涌向数据库，引发系统崩溃。例如：

批量过期：缓存初始化时设置相同的TTL（如1小时），导致整点时刻集体失效。
Redis宕机：主从切换或集群故障导致所有缓存不可用。

数据流向：
大量请求 → Redis集体失效 → 数据库连接池耗尽 → 服务熔断 → 雪崩扩散

3.2 解决方案与实现

方案1：随机过期时间

原理：为每个缓存键设置随机过期时间，避免集体失效。
优势：实现简单，有效分散压力。
代码示例：

public void setProductCache(Long productId, Product product) {
  int baseTtl = 3600; // 基础1小时
  int randomOffset = new Random().nextInt(600); // 随机偏移0-10分钟
  redis.setex("product:" + productId, baseTtl + randomOffset, product.toString());
}

方案2：多级缓存架构

原理：通过本地缓存（如Caffeine）和Redis构建两级缓存，本地缓存作为最后防线。
优势：降低Redis故障影响范围。
架构图：
客户端请求 → 本地缓存（Caffeine） → Redis → 数据库

代码示例：

// 本地缓存配置（Caffeine）
Cache<String, String> localCache = Caffeine.newBuilder()
  .maximumSize(10_000)
  .expireAfterWrite(10, TimeUnit.MINUTES)
  .build();

public String getData(String key) {
  // 1. 查询本地缓存
  String value = localCache.getIfPresent(key);
  if (value != null) {
    return value;
  }
  // 2. 查询Redis
  value = redis.get(key);
  if (value != null) {
    localCache.put(key, value); // 更新本地缓存
    return value;
  }
  // 3. 查询数据库
  value = database.query(key);
  if (value != null) {
    redis.setex(key, 3600, value);
    localCache.put(key, value);
  }
  return value;
}

方案3：熔断降级与限流

原理：通过Hystrix或Sentinel实现熔断（当数据库QPS超过阈值时直接返回默认值）和限流（控制并发请求数）。
优势：防止雪崩扩散，保障核心功能可用。

配置示例（Hystrix）：

@HystrixCommand(
  commandProperties = {
    @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "100"), // 10秒内100个请求
    @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "50"), // 错误率50%时熔断
    @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds", value = "5000") // 熔断5秒后尝试恢复
  },
  fallbackMethod = "getDataFallback"
)
public String getData(String key) {
  // 正常查询逻辑
  return redisDataService.get(key);
}

public String getDataFallback(String key) {
  return "系统繁忙，请稍后再试"; // 熔断时返回默认值
}

3.3 适用场景对比

方案	适用场景	防护层级	实现成本	效果评估
随机过期时间	批量过期导致的雪崩	缓存层	低	★★★★☆
多级缓存	Redis故障或网络分区	应用层	中	★★★★★
熔断降级	数据库过载或依赖服务不可用	服务层	高	★★★☆☆