【故障排查-Linux】执行ls命令,session卡死(一个服务导致的麻烦)
时间:2015-09-15 03:09:05 作者:vaster 标签: Linux nfs 分类: Linux Linux服务 工作总结
背景描述:
开发同学反馈,登录服务器后,执行ls命令session就会卡死。开发同学的家目录是/home/yanfa
问题排查:
切换到开发的帐号,模拟现象,故障重现;直接在root用户下,执行ls命令,正常执行
怀疑权限问题,查看messaage、secure日志
直接在root用户下,执行ls /home/yanfa,故障重现; 执行/bin/ls,strace ls正常执行
怀疑是命令的问题,alias查看,查看命令的版本/md5,差点就要以为命令有bug了
取消alias后,ls没问题,ls -l执行仍然会卡死;执行strace ls -l /home/yanfa 执行到某处的时候会卡死
仔细查看strace的输出,发现最后卡在ftpdir这个地方,想起这是一个nfs目录的挂载点,心想是nfs出问题了。
执行一下df,也输出不了内容,之前遇到过类似连不上nfs服务器,df执行不了命令的情况。
showmount -e x.x.x.x 输出不了结果k
登录x.x.x.x nfs 服务器,果然服务挂掉了。果断启起来
回来开发中控机,showmount -e x.x.x.x 可以看到输出了。等一下下再df,可以看到有正常输出了。然后再执行一下ls -l /home/yanfa 输出正常。
修复刚刚的alias
总结:
耗时1.5小时。
其实这种类似原因的因为以前发生过一次,这次排查了1个多小时,实在是有点久了,得多多积累经验,一击即中要害呀。
缺少一些监控,既然有远程挂载服务,应该要加一下检查服务是否正常的监控的,but这个暂时没有。
nfs这种服务在这方面确实有点不好,有空看一下其他更好的替代解决方案