凌晨三点的部署事故
一行写错的环境变量,让我重新认识了备份的意义。
· #运维 #事故 #深夜
那天晚上我本来只想改个小配置。
手一抖,把生产环境的数据库地址, 指向了一个根本不存在的实例。
服务在我按下回车的瞬间,全线 502。
# 我当时的心跳
$ export DB_HOST=wrong-host # ← 灾难从这里开始
$ pm2 restart all
凌晨三点,整个城市都睡了,只有我对着满屏红色的日志。
还好,还好昨天的自动备份跑成功了。 我花了四十分钟回滚,看着监控面板一格一格变绿, 那是我这辈子见过最好看的绿色。
从那以后我信奉一句话:
没有备份的人,迟早会在某个凌晨学会备份。
现在我的每个项目,第一件事就是先把备份配好。