老张在IT运维组干了九年,三十七岁,黑眼圈常年比监控大屏的报警灯还亮。他手机里存着三套闹钟:23:55、00:00、00:05——不是为了早起,是为了抢在Zabbix第4条重复告警发来前,手动点掉前3条。
上周三凌晨1:17,他第7次被电话吵醒。对方是财务部王姐,声音发颤:‘张工,报销系统登不上,发票全卡在提交页……是不是又崩了?’老张边穿裤子边看手机——Zabbix刚推来一条:HOST: db-prod-03 | CRITICAL | df_root_usage > 95%。
他叹了口气,没点开链接,直接回微信:‘王姐,您先别刷新,等我两分钟,我去清一下审计日志。’
这不是玄学。是他上个月在蓝点通用管理系统里搭的一个小模块:告警语义翻译表。
它不拦截告警,也不替代Zabbix,只是把原始告警字段(host、metric、value、trigger)扔进一个自定义表单,再用三个联动字段补全上下文:
- 业务影响域(下拉单选:报销系统 / OA流程 / 门禁授权…)
- 可操作动作(富文本,带常用命令模板,比如
sudo journalctl --disk-usage自动插入路径提示)
- 责任人快链(关联通讯录,点击直接唤起企业微信对话)
最关键是第四栏:人话备注。老张自己填的,比如这条:
“df_root_usage > 95% → 别碰/root分区!audit日志疯长,清/var/log/audit/下的*.gz和3天前的非压缩日志;清完立刻run ‘logrotate -f /etc/logrotate.d/audit’,否则两小时后复发。”
这行字,是他被叫醒七次后,蹲在机房冷柜旁用蓝点的移动端随手记的。没有开发介入,没走ITSM流程,就是新建一张表,拖三个字段,写一段话,保存,发布。
以前,Zabbix告警像一封加密电报:PROBLEM: disk usage on db-prod-03 is above 95%。运维要看主机名、查挂载点、翻Ansible脚本、问DBA、再猜哪块日志在吃盘。现在,值班同事手机弹出的是一张卡片:
🚨【高危】db-prod-03磁盘满
💡 影响:报销系统提交失败(已关联服务树)
⚙️ 立即执行:sudo rm -f /var/log/audit/*.gz; find /var/log/audit -name "*.log" -mtime +3 -delete
👥 已通知:DBA李工(已读)| 审计日志负责人(未读)
更绝的是,这张卡片还能“反向生长”。上周五,新来的实习生小陈第一次处理同类告警,她照着卡片清完日志,顺手在蓝点表单里加了一行补充:
“⚠️ 注意:/var/log/audit目录权限为700,普通用户rm会报错,建议加sudo或切root。另,logrotate配置中daily参数实际未生效,需检查cron.hourly是否被disable。”
这行字,自动同步到了所有同类告警卡片底部,加了‘实习生补充’标签,灰底斜体。
没人开会立项,没人写PRD。就是老张某天午休,看见小陈在便签纸上抄命令,顺手说:“你把它贴到蓝点里吧,下次就不用抄了。”
现在,他们运维组的蓝点空间里,有23张这样的“告警翻译表”,覆盖Zabbix、Prometheus、甚至飞书机器人抓到的GitLab CI失败日志。每张表都带着真实的手写感:错别字没改(“清日志”写成“青日志”)、命令里留着调试时的echo注释、甚至有张表写着“此告警大概率误报,请先ping 10.2.3.11再决定是否起床”。
最意外的是,上个月安全组来巡检,看到这张表,当场要走了导出Excel,说:“比我们写的《应急响应SOP》还准——你们这哪是翻译告警,这是给机器写人类使用说明书。”
其实哪有什么说明书。不过是把每次被叫醒后的火气、慌乱、灵光一闪,变成一行能复用、能纠错、能署名的字段。不是让系统更智能,是让人少犯错——少一次半夜爬起来输错rm -rf的路径,少一次对着Zabbix界面发呆三分钟,少一次在微信群里问“这个disk_full到底影响哪个系统”。
老张最近把手机闹钟删了两个。他说,现在听不见告警声,也能睡踏实。
因为真正重要的那条信息,已经提前写进了人话里。
微信扫码关注关注乱码泥石流,领取限时福利:
- 蓝点管理系统正版授权
- 好书推荐及电子版资源
- 最新管理软件资讯推送
- 不定期随机福利