IT运维之“想当然”
时间:2013-09-10 08:09:14 作者:beebol 标签: 运维 分类: Case案例
IT运维旅途中总有很多“想当然的事”,幸运的人会以为自己想得很周全,所有的事情都在自己的考虑当中、准备当中;悲剧的人,还需要加班加点解决故障,还需要招领导的责备和不信任,更重要的是这个季度的绩效或奖金没有了。
两者都是在“想当然”地工作,总觉得已经做好了,想全了。结果呢,上面两种情况一样。这里最主要的是总结一下我的“想当然”。
一天代理服务器文件系统只读,由于目前的游戏架构及代理架构,一直还没有解决代理服务器单点故障。(原因是游戏配置需要记录代理服务器入口及出口的IP及端口)。周二监控报警文件系统只读,检查转发关系正常,商定周四维护日重启代理服务器。
当时定为两种方案:
1、代理服务器重启后能正常,检查没有问题后,继续使用;
2、如果重启失败,将准备好的备机配置成故障机的ip,配置好防火墙转发规则。(这样做是为了不需要更改游戏配置)
备机准备好了,故障机防火墙规则提前放到了备机上,路由、IP配置文件、nat转发开关等都已经准备。
这次更换什么list都没有做,按照准备的东东肯定没有问题。周四维护日重启服务器后,服务器无法启动。只能按第二种方法实现了,结果还是出现了问题。问题主要为:
1、重启后,配置上ip地址、路由后,网络一直通(原因是没有考虑到备机和故障机不在同一网段,所以VLAN不同)
2、临时紧急联系网络同学,调试网络后,由于更新维护日时间比较紧张。想当然地直接把防火墙规则生效,后来ssh无法登录。(当时很郁闷,ip地址没有变,规则都是以前的默认对我访问的机器是允许的)
3、只能连接ILO访问,由于浏览器问题无法连接到终端(没有提前检查ILO登录是否正常导致),后来到别人机器上登录ILO正常查看防火墙规则,发现eth0和eth1对应的内外网卡与原来不一致,导致被防火墙规则阻止。(原因没有提前认真检查规则文件,没有考虑周全)
4、规则、路由配置完毕后,测试还是无法正常使用,后检查网关IP填写出错了。(当时准备太粗心,没有细节检查)
最后还好,在指定的时间正常使用了。这次事故主要是把做有的事情都相当然地想很简单。拿到备机、ip地址、规则后没有认真考虑,生效这些配置文件会有哪些影响。
面对这种情况,一定需要准备好一切,提前列出操作list,在操作list中,需要详细写出操作步骤。在写操作list过程中,就会去思考、想到会缺少什么,会影响什么?然后缺少什么立即补充上去。每一步操作需要指定的操作完成时间,防止计划推迟。
另,操作list可简单用execl进行,第一列为序列,第二列操作list,第三为详细步骤,第四列为日期。操作时可打印或对照操作。