牛头酋长专业服务器运维,协助客户处理依赖包被删除连接中断故障

  今天上班时间,接到某客户求助,说有4台服务器无法访问,具体什么原因不是特别清楚,好像是晚上运维时命令输错,删除了某些东西。

 随后我公司通过堡垒机查阅昨晚上操作记录,发现有条命令   rpm -e krb5-libs-1.15.1-18.el7.x86_64 --nodeps

  运维人员因为经验不足,在卸载软件是未验证依赖关系,导致ssh也无法连接。一般情况下如果会话未中断是可以通过psftp再次上传rpm安装包恢复,但因为已经过了一晚上,会话也已经中断,且使用堡垒机操作本身就会有会话中断机制。

  随后我公司人员登陆其阿里云平台,购买一台ecs.t5-lc2m1.nano规格的按量付费ECS实例,并同时挂载一块20GB的数据盘。将安装文件上传到数据盘,随后卸载此实例数据盘,再将此实例关机。登陆阿里云后台,找到出现故障实例的那台主机,将此数据盘挂载上,并登陆阿里云后台,通过控制台VNC远程连接方式进入发生故障的ECS实例,将数据盘挂载到ECS实例上,并将相关文件复制到主机上。将软件安装完毕,测试ssh可以登陆后umount刚才挂载的数据盘。随后在阿里云控制台卸载此数据盘再挂载到第二台故障的ECS上,依次将剩余3台ECS恢复。

  本次故障发生在开发服务器上,因此对客户造成的影响不大,也因为前期客户使用了我公司推荐的堡垒机已经完整的管理制度,所幸本次未造成重大影响。

 

上一篇:

下一篇:

相关文章

留言反馈

请填写验证码

联系我们

18888888888

在线咨询:点击这里给我发消息

邮件:admin@example.com

地址:四川省成都市双流区物流大道1080号

QR code