【机房管理】工作事项及简述

【机房管理】工作事项及简述

时间:2015-08-29 09:08:59      作者:vaster      标签: 机房管理      分类: 工作总结

过去一段时间有管理过三个机房的服务器,大概500来台机器,趁最近休假有时间简单总结一下。所做的机房管理的工作内容大概是以下几方面

     1. 机器信息采集
     运行中的机器
          利用Server-Client模式的程序,给所有服务器预装(通过装机系统)好Client,Client将定义的需要的数据传输给Server
     停机/坏掉的机器
          从Server端发起,通过如Ilo管理卡,进行数据收集
     2. 机器信息变更记录
     数据变更
          负责人、运行的项目等可手动变更
          负责人、运行的项目等可定义统一的文件路径,将信息写入,直接采集后自动变更
          硬件、系统相关系统可直接采集后自动变更
     数据对比
          将收集到的数据变更后,保留变更记录
          统计分析各项目机器使用数量,确认机器用途,了解机器去向,以后后期做优化
          每天将变更情况汇总发送管理员,遇到数据(SN、IP等)冲突,需要特殊标志
     3. 机房费用预算记录
          利用Django,开发好Web系统,用于进行数据的添加、编辑、删除和图表展示;
          做好费用预算与实际使用情况的对比
          机房实际使用情况变化曲线,关键节点可添加说明
     4. 服务器使用情况分析
          给所有服务器部署好监控系统(nagios,zabbix, and so on)
     5. 成本优化方案
          通过机房费用记录曲线及说明,结合当前业务使用情况进行整合和优化
          优化1,服务器负载低时,可使用虚拟化或合并功能服务
          优化2,针对云服务器(如AWS),可查看历史服务器资源使用情况进行升降配
          优化3,针对云服务器(如AWS),根据项目运营情况,购保一定量的一次性付费实例或其他类似
     6. 故障处理
          机房掉电
               收集掉电信息(服务器重启情况,总掉,掉电机器数),确认掉电造成的影响
               跟机房反馈情况
               联系商务处理后续事宜
          网络攻击
               确认攻击目标,分析攻击源,攻击方式
               联系机房协助从机房核心Drop攻击源
          机器故障
               登录Ilo确认机器故障情况,如有故障,记录并在出差时做处理

时间:2015-08-29 09:08:59      作者:vaster      标签: 机房管理      分类: 工作总结
  • 分享到:
  • 微博
  • QQ空间
  • 腾讯微博
  • 微信

Copyright © 2015 Gitblog | Proudly powered by Gitblog.