Redis 哨兵模式详解：自动故障转移配置实战

原创 2025-08-15 09:48:39编程技术

531

一、引言

在分布式系统中，高可用性是保障业务连续性的关键指标。Redis作为高性能的内存数据库，其哨兵模式（Sentinel）通过自动化监控与故障转移机制，为Redis主从架构提供了可靠的高可用解决方案。本文ZHANID工具网将深入解析哨兵模式的核心原理、配置方法及实战操作，帮助开发者快速掌握这一关键技术。

二、哨兵模式的核心原理

2.1 架构组成

哨兵模式由三部分构成：

主节点（Master）：承担写操作的核心节点，通过异步复制将数据同步至从节点。
从节点（Slave）：提供读操作支持，数据与主节点保持最终一致性。
哨兵节点（Sentinel）：独立运行的监控进程，负责检测主从节点状态并执行故障转移。

典型部署架构为 1主+N从+M哨兵（如1主2从+3哨兵）。哨兵节点需独立部署于不同物理机，避免单点故障。

2.2 核心机制

2.2.1 心跳检测与故障判定

主观下线（SDOWN）：单个哨兵在down-after-milliseconds（默认30秒）内未收到节点响应，标记为主观下线。
客观下线（ODOWN）：当超过quorum（法定人数，如3哨兵中2个确认）的哨兵判定主节点主观下线后，触发客观下线状态。

2.2.2 领导者选举与故障转移

Raft算法选举：哨兵集群通过投票选举领导者，负责协调故障转移流程。
新主节点选举规则：

优先级筛选：选择replica-priority值最低的从节点（默认100，0表示不参与选举）。
数据完整性：优先选择复制偏移量（master_repl_offset）最大的从节点。
运行ID最小：若前两项相同，选择运行ID（runid）最小的节点。

2.2.3 配置更新与通知

从节点重定向：领导者哨兵向新主节点发送SLAVEOF NO ONE命令，并通知其他从节点切换复制源。
客户端通知：通过发布/订阅机制（+switch-master频道）通知客户端新主节点地址。

三、哨兵模式配置实战

3.1 环境准备

硬件要求：3台独立服务器（避免伪分布式部署），每台运行Redis 6.0+版本。
网络配置：确保哨兵与主从节点间网络延迟<10ms，防火墙开放26379（哨兵默认端口）和6379（Redis默认端口）。

3.2 主从节点配置

3.2.1 主节点配置（redis.conf）

# 启用主节点角色
bind 0.0.0.0
protected-mode no
port 6379
daemonize yes
pidfile /var/run/redis_6379.pid
logfile "/var/log/redis_6379.log"
# 关闭持久化（仅测试环境，生产环境需启用RDB/AOF）
save ""
appendonly no

3.2.2 从节点配置（redis.conf）

# 复制主节点192.168.1.100:6379
replicaof 192.168.1.100 6379
replica-priority 100 # 参与选举优先级

验证主从复制：

redis-cli -h 192.168.1.101 -p 6379 INFO replication
# 输出应包含：role:slave, master_host:192.168.1.100, master_link_status:up

3.3 哨兵节点配置（sentinel.conf）

3.3.1 基础配置

port 26379
daemonize yes
pidfile /var/run/redis-sentinel_26379.pid
logfile "/var/log/redis-sentinel_26379.log"
# 监控主节点mymaster（IP:192.168.1.100, Port:6379），quorum=2
sentinel monitor mymaster 192.168.1.100 6379 2
# 主节点超时时间（毫秒）
sentinel down-after-milliseconds mymaster 5000
# 故障转移超时时间
sentinel failover-timeout mymaster 180000
# 并行同步从节点数量
sentinel parallel-syncs mymaster 1
# 哨兵认证密码（若主从启用密码）
sentinel auth-pass mymaster MySUPER--secret-0123passw0rd

3.3.2 关键参数说明

sentinel monitor：定义监控的主节点名称、IP、端口及法定人数。
down-after-milliseconds：缩短此值可加快故障检测，但可能误判网络抖动。
parallel-syncs：值为1时，故障转移期间仅1个从节点同步新主节点，减少性能影响。

3.4 启动与验证

3.4.1 启动顺序

启动主节点：

redis-server /etc/redis/6379.conf

启动从节点：

redis-server /etc/redis/6380.conf # 从节点1
redis-server /etc/redis/6381.conf # 从节点2

启动哨兵节点：

redis-sentinel /etc/redis/sentinel_26379.conf
redis-sentinel /etc/redis/sentinel_26380.conf # 哨兵节点2
redis-sentinel /etc/redis/sentinel_26381.conf # 哨兵节点3

3.4.2 验证哨兵状态

redis-cli -p 26379 sentinel masters
# 输出应包含：
# Name: mymaster, IP: 192.168.1.100, Port: 6379, Status: ok
redis-cli -p 26379 sentinel sentinels mymaster
# 查看其他哨兵节点信息

四、故障转移实战

4.1 模拟主节点故障

# 强制停止主节点进程
pkill -9 redis-server
# 或模拟网络分区（生产环境慎用）
iptables -A INPUT -s 192.168.1.100 -j DROP

4.2 观察哨兵日志

# 哨兵日志关键事件（以26379端口哨兵为例）
[12345] 14 Aug 2025 10:00:00.001 * SDOWN master mymaster 192.168.1.100 6379
[12346] 14 Aug 2025 10:00:05.002 * +sdown slave 192.168.1.101:6380 192.168.1.101 6380 @ mymaster 192.168.1.100 6379
[12347] 14 Aug 2025 10:00:10.003 * ODOWN master mymaster 192.168.1.100 6379 (quorum 2/2)
[12348] 14 Aug 2025 10:00:15.004 * +elected-leader master mymaster 192.168.1.100 6379
[12349] 14 Aug 2025 10:00:20.005 * +failover-state-select-slave master mymaster 192.168.1.100 6379
[12350] 14 Aug 2025 10:00:25.006 * +selected-slave slave 192.168.1.102:6381 192.168.1.102 6381 @ mymaster 192.168.1.100 6379
[12351] 14 Aug 2025 10:00:30.007 * +failover-state-send-slaveof-noone slave 192.168.1.102:6381 192.168.1.102 6381 @ mymaster 192.168.1.100 6379
[12352] 14 Aug 2025 10:00:35.008 * +failover-end master mymaster 192.168.1.100 6379
[12353] 14 Aug 2025 10:00:40.009 * +switch-master mymaster 192.168.1.100 6379 192.168.1.102 6381

4.3 验证新主节点

redis-cli -h 192.168.1.102 -p 6381 INFO replication
# 输出应包含：role:master
redis-cli -h 192.168.1.101 -p 6380 INFO replication
# 输出应包含：master_host:192.168.1.102, master_link_status:up

4.4 客户端重连测试

使用Go语言客户端（go-redis/v8）验证自动重连：

package main

import (
	"context"
	"fmt"
	"log"
	"time"
	"github.com/go-redis/redis/v8"
)

func main() {
	rdb := redis.NewFailoverClient(&redis.FailoverOptions{
		MasterName:  "mymaster",
		SentinelAddrs: []string{"192.168.1.103:26379", "192.168.1.104:26380", "192.168.1.105:26381"},
		DB:      0,
	})

	ctx, cancel := context.WithTimeout(context.Background(), 3*time.Second)
	defer cancel()

	// 写入测试数据
	if err := rdb.Set(ctx, "key1", "value1", 0).Err(); err != nil {
		log.Fatalf("写入失败: %v", err)
	}

	// 读取测试数据
	val, err := rdb.Get(ctx, "key1").Result()
	if err != nil {
		log.Fatalf("读取失败: %v", err)
	}
	fmt.Println("读取结果:", val)

	// 订阅主节点切换事件
	sub := rdb.Subscribe(ctx, "+switch-master")
	ch := sub.Channel()
	go func() {
		for msg := range ch {
			fmt.Printf("主节点切换事件: %s\n", msg.Payload)
		}
	}()

	// 保持程序运行
	select {}
}