【机房管理】工作事项及简述
时间:2015-08-29 09:08:59 作者:vaster 标签: 机房管理 分类: 工作总结
过去一段时间有管理过三个机房的服务器,大概500来台机器,趁最近休假有时间简单总结一下。所做的机房管理的工作内容大概是以下几方面
1. 机器信息采集
运行中的机器
利用Server-Client模式的程序,给所有服务器预装(通过装机系统)好Client,Client将定义的需要的数据传输给Server
停机/坏掉的机器
从Server端发起,通过如Ilo管理卡,进行数据收集
2. 机器信息变更记录
数据变更
负责人、运行的项目等可手动变更
负责人、运行的项目等可定义统一的文件路径,将信息写入,直接采集后自动变更
硬件、系统相关系统可直接采集后自动变更
数据对比
将收集到的数据变更后,保留变更记录
统计分析各项目机器使用数量,确认机器用途,了解机器去向,以后后期做优化
每天将变更情况汇总发送管理员,遇到数据(SN、IP等)冲突,需要特殊标志
3. 机房费用预算记录
利用Django,开发好Web系统,用于进行数据的添加、编辑、删除和图表展示;
做好费用预算与实际使用情况的对比
机房实际使用情况变化曲线,关键节点可添加说明
4. 服务器使用情况分析
给所有服务器部署好监控系统(nagios,zabbix, and so on)
5. 成本优化方案
通过机房费用记录曲线及说明,结合当前业务使用情况进行整合和优化
优化1,服务器负载低时,可使用虚拟化或合并功能服务
优化2,针对云服务器(如AWS),可查看历史服务器资源使用情况进行升降配
优化3,针对云服务器(如AWS),根据项目运营情况,购保一定量的一次性付费实例或其他类似
6. 故障处理
机房掉电
收集掉电信息(服务器重启情况,总掉,掉电机器数),确认掉电造成的影响
跟机房反馈情况
联系商务处理后续事宜
网络攻击
确认攻击目标,分析攻击源,攻击方式
联系机房协助从机房核心Drop攻击源
机器故障
登录Ilo确认机器故障情况,如有故障,记录并在出差时做处理