技术部老吴的‘故障日历’：一个自定义提醒如何拦住了两次上线事故

技术部的老吴不是项目经理，也不是运维主管，他只是个写了十几年代码、头发快掉光的中级开发。但整个部门的人都知道，最近两个月系统上线的节奏稳了——不是因为架构升级，而是因为他悄悄在用一个叫‘故障日历’的东西。

这事还得从上个月那次灰度发布说起。那天周五下午四点，团队正准备把新版本推到预发环境，突然发现数据库连接池配置写错了。问题不大，改一下就行，但问题是：这已经是本月第三次犯同样的低级错误了。

老吴翻了翻历史记录，发现前两次分别是缓存过期时间设成了秒而不是毫秒，还有一次是忘了开事务。都是小问题，可偏偏每次都在临近上线时才被发现，搞得全员加班，士气低迷。

他没吭声，下班后自己琢磨了一晚上。第二天一早，他在组里丢了个链接：「我整了个东西，你们有空看看。」

点开是个网页，界面谈不上多好看，但很清晰：一张月视图日历，上面标着红黄绿三种颜色的小点。鼠标悬停一看，原来是过去半年所有线上故障的时间标记，还附带一句话摘要：「2024-03-12｜Redis key未设置TTL｜影响用户登录」、「2024-04-05｜Nginx超时配置缺失｜导致支付回调堆积」……

更绝的是，下面还有个自动分析模块，写着：「高频故障类型：配置类（68%）」「易错时段：周五16:00-17:30」「关联角色：后端开发+CI/CD审核人」。

有人问：这数据哪来的？

老吴说：「Jira、钉钉报警记录、运维日志，我手动扒了三天。但现在它能自动同步我们项目的工单和告警通知。」

关键是，这个日历还能设「预防性提醒」。比如，每当排期定在周五下午上线，系统就会弹出提示：「近三个月内，73%的重大人为失误发生在周五16:00后，建议调整时间或增加双人核验。」

起初大家觉得是玄学，直到上周三，又一轮迭代准备推送。刚进会议室，那个提醒就跳出来了。组长犹豫了一下，决定提前走查一遍配置文件。结果真发现问题：一个新的微服务没注册进健康检查，一旦上线，监控平台根本察觉不到它挂了。

会后没人说话，但第二天，全组人都把自己的项目接入了那个日历。

后来才知道，这玩意儿是老吴用一个叫蓝点通用管理系统的工具搭的。他自己不会前端，也不懂自动化抓取，但那个系统允许他用拖拽方式建数据表，还能通过关键词从邮件和IM消息里提取故障信息，再自动归类打标。

最让他省事的是「动态提醒规则」功能。他设了几个条件：

当工单标题含“紧急修复”且时间为工作日17:00后 → 提醒「疲劳操作高风险」
连续两天有同类告警 → 自动创建「潜在模式问题」待办
某开发者一个月内出现三次配置错误 → 私信发送学习资料包链接

这些规则一开始很简单，后来越调越准。连产品经理都来问能不能接他们的需求变更记录，看看是不是需求频繁改动的版本更容易出事。

其实类似的分析本可以用BI工具做，但问题是，没人愿意为这种“非核心需求”专门申请权限、写SQL、跑报表。而老吴这个方案，从搭建到落地用了不到三天，而且完全由他个人主导，不依赖IT审批。

现在，这 calendars 已经扩展到了测试组和产品部。有人开始用它追踪“需求返工率高峰”，有人用来标记“UI走查遗漏密集期”。甚至行政小姐姐也蹭了个副本，专门记录办公室空调维修时间，发现每到梅雨季第二周总有一批报修，于是提前安排了季度保养。

前几天吃饭时有人问老吴：你搞这个，是不是想转管理？

他摇头：「我就想少加点班。有些错，明明可以预见，非要等到炸了才处理，何必呢？」

临走前他补了一句：「其实这系统最厉害的地方，不是能记事，而是让你看到『还没发生的事』。」

微信扫码关注关注乱码泥石流，领取限时福利：

蓝点管理系统正版授权
好书推荐及电子版资源
最新管理软件资讯推送
不定期随机福利

蓝点通用管理系统

蓝点客户关系管理系统

蓝点进销存管理系统

蓝点产品管理系统

蓝点投诉管理系统

蓝点工作流管理系统

蓝点ISO9000质量体系管理系统

微信扫码关注关注乱码泥石流，领取限时福利：