疫情之下IT人怕什么?
是成千上万节点的迁移?
还是“睡后”工资赚来的发际线后移?
客户需求get
咨询、售前、服务工程师迅速集结
讨论此次异地技术服务流程
方案需要更严谨
计划需要更周密
准备需要更充分
毕竟
疫情防控政策下
出行实属不易
·
·
·
常规操作来一波
严控加码再一波
时间紧(1天)任务重(重要)
酒店隔离期也得分秒必争
反复沟通调整服务细节
确保疫情下的现场实施顺利完成
第四天
终于可以去客户现场!
实施难点和风险
1. 时间紧迫(≤1天)
2. 硬件的安全拆卸和转移
3. 控制器内部系统盘镜像同步
4. 控制器间配置同步
5. 存在当前运行的控制器重启失败的风险
6. 存在配件不兼容导致无法开机的风险
材料准备
1. 螺丝刀一套
2. CPU硅脂
3. USB转RS232串口配置线
4. 硬盘盒
5. 防静电手套
6. 防静电手环
7. 鞋套
操作步骤
1. 现场环境确认
① 查看存储控制器状态,确认正在运行控制器是否为Master
② 确认并找到故障控制器位置,做好标记
③ SHOW UPS 查看UPS状态
④ SHOW UN PD,确认是否存在故障硬盘
⑤ 检查故障控制器状态,意外完成双控制器间配置同步
2. 新控制器开机测试
通过开机测试,查看系统内置硬盘状态是否正常;确认硬盘以外其他部件是否正常。
3. 故障控制器下架、改配
① 将其所有线缆(电源线、SAS线、心跳线、IB线)数量、位置确认并登记
② 确认是否能关机,如若死机则强制关机
③ 拔出SAS线、心跳线、IB线
④ 故障控制器下架
⑤ 将故障控制器上两颗CPU、所有内存、SAS卡、网卡、IB卡全部拆卸
⑥ 将新控制器上一颗CPU、所有内存、 SAS卡、网卡、IB卡全部拆卸
⑦ 将故障控制器上拆卸的所有配件安装到新控制器上
4. 新控制器改配后开机测试
更改配置重新开机测试,查看系统内置硬盘状态是否正常;确认硬盘以外其他部件是否正常。
■ 遇到问题
新控制器无法开机
■ 解决方法
做最小化测试
■ 问题测试
测试一:将旧内存条依次移除一半。❌
测试二:将新控制器上的内存重新插到新控制器上。❌
测试三:移除所有新增的IB卡、SAS卡。❌
测试四:分次移除一颗旧CPU。❌
测试五:将两颗旧CPU移除,更换为新控制器上的CPU。✅
■ 问题锁定
旧CPU与新控制器硬件不兼容
■ 遇到问题
新老控制器CPU不匹配
■ 解决问题
在其他旧服务器上找到同型号CPU,拆卸加装至新控制器另一槽位,顺利开机。
·
·
·
疫情之前
这或许只是一次常规的现场服务
疫情当前
异地尤其是跨省的现场服务
变得不再普通
疫情之下,出行不易
现场服务如何保障?
践行奥工科技一贯的服务理念
多想一种可能
多做一次检查
与用户携手并进、共克时艰!
—END—
OGSP(Ongineer Service Platform)是奥工科技自主研发的一款面向终端计算用户的、安全、可进化的密集计算服务平台。
OGSP秉承云原生设计理念,搭建密集计算场景中基础侧、平台侧、应用侧的生态服务架构,谋求基础侧的稳定、健康、可扩展性;平台侧的高效、动态、易用性;应用侧的专业、交互、场景化。将服务产品化、产品场景化,为用户提供基于实际生产场景的一站式密集计算服务。