管理软件推荐榜
在IT运维交接班记录里,我们靠‘被划掉又重写的重启时间’发现了值班工程师的隐形疲劳曲线

上周三凌晨两点,我翻着上个月的Linux服务器交接班日志,本想查个磁盘告警的源头,结果被一行字钉住了:‘2024-04-12 03:17(原写03:02,划掉重写)——主库已重启,无报错’。

这不是第一次了。翻回去看,连续11个夜班记录里,有8次‘计划重启时间’被手写修改过,且几乎全是提前5–15分钟。不是延后,是提前——而且改得潦草、用力,像怕被人看见似的。

我拉了运维组长老陈一起看。他盯着屏幕半天,忽然说:‘你注意没?每次改时间,后面都跟着一句“确认无残留锁”或“跳过慢查询分析”,但没一次写具体怎么确认的。’

我们把这11条记录导出来,按‘原始时间→修改后时间→补充说明→是否后续出问题’四列建了个极简表格。结果发现:所有被提前≥10分钟重启的操作,第二天上午9:30–10:45之间,必有一起关联性极强的中间件超时报警;而只提前3–5分钟、且补写了‘已查pg_stat_activity’的那3次,全程安静。

原来,不是重启本身有问题,是人在凌晨三点的认知带宽塌方了——他们下意识压缩‘确认动作’的时间,把‘该做’变成‘大概做了’。那个被划掉的‘03:02’,其实是身体发出的求救信号:再拖下去,连判断‘要不要多看一眼连接池状态’的力气都没了。

后来我们没急着改SOP,而是先在交接班模板里加了一栏:‘本次确认动作(请手写,至少含1个具体命令或观察项)’。强制留白,不许填‘已确认’‘正常’这类词。头三天,有人写‘ps aux | grep postgres’,有人写‘看了/proc/meminfo第3行’,甚至有个实习生写了‘数了3遍wal_writer进程数,都是1’。

奇怪的是,从第4天起,‘被划掉的时间’消失了。不是没人改,是改之前,会先在空白栏里写满两行操作步骤——仿佛手写这个动作,本身就在帮大脑重新校准节奏。

这事让我想起上个月试用蓝点通用管理系统时的一个小发现:它表单里的‘必填字段’不是靠红色星号,而是靠‘提交前自动弹出1秒倒计时+光标强制跳转到空字段’。没有警告,没有报错页,就只是轻轻一‘拽’。我们给交接班模板配了这个逻辑,把‘确认动作’设为必填,还悄悄加了条规则:如果同一人连续3次在02:55–03:05间提交,系统会自动在备注栏插入‘建议核查pg_stat_bgwriter.last_bgwriter_flush’——不是提醒‘你累了’,而是把经验直接塞进他即将敲下的命令里。

现在翻交接班记录,划痕少了,但‘ps -eo pid,ppid,cmd --sort=-time | head -5’这种带注释的命令变多了。最妙的是,有次新来的同事在‘确认动作’栏写了句‘照着张工上次写的第2条试的’,后面还画了个歪歪扭扭的箭头,指向隔壁工位。

管理哪是什么管人啊,有时候,就是管住那一秒想偷懒的笔尖,再顺手把前辈的指关节温度,刻进下一个人敲键盘的节奏里。

微信扫码关注关注乱码泥石流,领取限时福利

  1. 蓝点管理系统正版授权
  2. 好书推荐及电子版资源
  3. 最新管理软件资讯推送
  4. 不定期随机福利