惠普服务器与VMware虚拟化修复历程,一波三折

以下是修改后的内容,并保留了原有的图片:

客户紧急求助:他们的服务器在搬迁后出现了故障,一台服务器无法登录,另一台则在开机时三个灯同时闪烁,无法正常启动。我驱车30多公里前往现场,发现那台无法登录的服务器也自动关机了,两个灯同时闪烁,按下电源键后,没多久就自动断电重启,如此循环,型号是惠普DL360 Gen9。另一台则重新插拔电源线后,开机几秒后三个灯一起闪,无响应、无显示,型号是惠普DL20 Gen9。

一波三折修复惠普服务器及vmware虚拟化

两台服务器都积满了灰尘,我决定将它们带回公司进行维修。

首先,我关注的是那台金蝶ERP服务器,型号是惠普DL360 Gen9。插上显示器,通电开机,注意盯着屏幕,看到几个风扇报错,然后就断电重启了。仔细查看,5个风扇没有一个在转,拔下电源线,拆下风扇。

清理后,手动可以转动风扇,但插回去开机,报错依旧。用手电筒照射,发现风扇还是不转。

我只能更换风扇,并查看是否有其他的问题。

另一台惠普DL20 Gen9服务器上面贴的标签是文件服务器,我猜测它也很重要。插上电源线,先不开机,插上网线,通过WEB登录iLO,报错的是CPU错误,对此,我深表怀疑。

拆下CPU,是E3-1220 V5 CPU,从备件柜里面翻了一阵,找到一块E3-1230V3,显然不匹配,又从几台测试服务器找,可惜都是E5系列的。

不插CPU通电,再次登录iLO,还报同样的错误,根据经验,应该是主板问题。

与客户沟通确认后,订货:主板一块,风扇5个;得知北京可以发货,我暗自庆幸。

货到后,我先给DL360 Gen9换风扇,顺利开机,但是还有风扇报错,仔细看了,只有一个风扇不转,但是有两个报错。

难道发过来的风扇有一个坏的?交换位置后发现,并不是风扇坏,而是接口坏。主板上有多余的接口,调整风扇护罩,改插到其他接口,风扇转了,但是报错依旧,好在系统正常启动了,确认5个风扇都正常运转,盖上机箱盖,vmware顺利启动。

询问客户后,得到回复:Vmware root密码未知。呃……好吧,机器先开着,就当测试了。

DL20 Gen9换主板,过程很顺利,CPU果然没问题,并且没有做任何设置,顺利启动,也是vmware,同样不知道root密码,这……

就这么呼啦啦地开着两台服务器,直到下班,小心翼翼地关机,放上拖车,再把换下来的主板和风扇带上,准备一起还给客户。

第二天早上,8点25分就到客户机房,驾轻就熟地上架、通电、开机,自信满满地洗手,准备让客户测试一下就撤。

结果财务回复,金蝶无法登录。

没有root的密码,我只能看到一个vmware的界面,除了IP地址,没什么有价值的信息。

打开我的笔记本电脑,网线直接插在服务器网卡上,ping 192.168.0.12 -t,不通,切换网卡接口,直到ping通,浏览器打开vmware登录界面正常,网线插回交换机。

财务回复,金蝶还是无法登录。

去财务办公室,发现财务电脑的网段是10.0.0.x,机房就一个傻瓜交换机,显然不可能有VLAN,但是得排除还有二级路由存在。

于是,在财务电脑上tracert -d 192.168.0.12,看了两三跳,明显不对,所以肯定是网段问题无疑。

回到机房,看到一台网件路由器,上面接着联通光猫,下面连接傻瓜交换机,准备登录进去修改网段,问了一圈,没人知道密码。

多次输入错误后,自动弹出重置密码的界面,但是需要输入两个问题的答案,连密码都没人知道,怎么可能有人知道问题答案呢。

正在准备重置路由器的时候,前方发来好消息,密码找到了,顺利登录,修改网段,重启路由器,片刻后,通知财务,禁用本地连接,然后启用,金蝶顺利登录。

让客户登录DL20 Gen9上面的vmware,无法登录,也ping不通,持续ping,跑到机房切换网口,就两个网口,切换一次就行,但是还ping不通,插上显示器一看,糟糕:STATE.TGZ错误,引导失败。

真倒霉啊,心中万马奔腾,这下有得搞了。

硬盘拆下,由于它是SATA接口,我将其连接到台式机上,使用优盘PE启动,将state.tgz复制到优盘,尝试用7zip解压,虽然报告文件末端错误,但还是解压了。

解压出来是state.tar,再次解压,再次报错,得到一个local.tgz文件,再次解压,还是报错,得到一个local.tar文件,再解压,还是报末端错误,提到一个etc文件夹,里面有三个子文件夹:security、ssh、vmware。

删除有报错的压缩文件,按照目录结构逐级压缩回去,并且用原来的文件名,最后得到一个新的state.tgz文件,拷回到硬盘,关电脑,装回服务器,开机,紧张地等了几分钟,可惜故障依旧。

我已做好心理准备,并且不打算一次成功。这次我按照解压过程来压缩文件,没有带目录结构,只是把文件层层套壳压缩成需要的文件名称,拷回服务器,还是失败。

第三次拆下硬盘,还是优盘PE启动,执行chkdsk,我也知道不合适,其实应该在Linux系统下用磁盘扫描修复的命令,比如fsck,但我已经做好重装vmware的打算了,也就不在乎了。

因为这个分区只有256M,所以很快检测完毕,得到一个chk0000文件,7zip解压,一样的多次报错,再压缩成state.tgz,再一次装回到服务器,已经不抱希望了,所以失败也在意料之中。

已经中午12点了,客户也要休息,我只能把服务器再次带回公司。

一边啃面包,一边继续工作,我尝试直接重装修复。

Vmware 6.0,能检测到已存在vmfs,重装要覆盖,没有保留的选项,果断放弃。

Vmware 6.7,检测不到任何原有信息,直接安装会覆盖硬盘,再次放弃。

Vmware 8.0,检测到已存在的vmfs,选择升级,并且保留原有数据。

装完后,web登录提示密码错误,奇怪,刚刚设置的密码,怎么可能会忘记?输入三遍都说我错, 没道理啊。

服务器键盘输入root账户的密码,没问题啊,修改一下密码吧。

然后笔记本电脑上,WEB也能登录了,真奇怪。

登录之后,本地存储是不认的,所以虚拟机当然不可能识别到,需要先到“存储器”菜单,打开“浏览数据存储器”,然后找到虚拟机所在目录,找到虚拟机名称.vmx,就能重新注册,然而,当我点击“浏览数据存储器”,浏览器就崩溃了,换别的浏览器也是一样。

到vmware官网,下载esxui-signed-12086396.vib,使用winscp上传到服务器,执行以下命令安装:

Esxcli software vib install -v /vmfs/volumes/esxui-signed-12086396.vib

安装完成后,刷新浏览器,界面的样子又回到了6.0的老样子,幸运的是点击“浏览数据存储器”不再报错了,不幸的是,里面什么也没有,当然也就没办法注册原来的虚拟机了。

Ssh连接到服务器,执行以下命令,挂载vmfs:

vmkfstools -V

esxcfg-advcfg -s 1 /LVM/EnableResignature

vmkfstools -V

esxcfg-advcfg -s 0 /LVM/EnableResignature

find /vmfs/volumes/ -name esxconsole.vmdk

经过多次关机重启,没有发现问题再次出现,此时已经是21:30,我下班回家。

第二天早上,再把服务器送给客户,破解windows server 2012的密码后,我得知这台服务器并不是文件服务器,而是一台邮件服务器,使用的是winwebmail,可惜的是,客户又没人知道管理员密码,真是尴尬。客户说,找人问问再说,实在不行,还是需要我们的服务。

两台服务器,我忙活了三天,最后只收获了碎银几两。

发表评论

评论列表

还没有评论,快来说点什么吧~