025-86738812

技术资料

专业 • 热情 • 信任 • 拥抱变化

Geeki说 | OGSP4.0升级能力六:OGSP高可用体系亮点何在?

时间:2022-06-03 15:32:44 浏览次数: 分类:技术资料

前几期的“Geeki说”为大家揭秘了OGSP4.0热度较高的几个升级功能(点击这里快速直达:#Geeki 说 - OGSP 专栏 ),本期跟大家聊聊OGSP的高可用(HA)体系


HA系统是截至目前,企业防止核心计算机系统因故障停机的最有效手段。奥工科技自研密集计算服务平台(OGSP)在4.0版本迭代中,对高可用方案架构进行进一步升级,打造出了一套完善可靠的OGSP高可用体系




新小标题1.png

高可用(HA)是指因日常维护操作(计划)或突发的系统崩溃(非计划)而出现系统故障时能持续工作而不影响业务运行的能力。与不间断操作的容错技术有所不同,高可用代表即使在发生硬件故障或者系统升级的时候,服务仍然可用。


系统的可用性是指单位时间内(通常一年),服务器可以正常工作的时间比例。比如99%、99.9%、99.99%,9越多代表可用性越强。


可用性计算公式如下:

1654760557(1).jpg

新小标题2.png

导致系统不可用的原因可以分为内部原因外部原因:内部原因通常是软硬件问题;外部原因一般是自然或人为灾害。


对比关系2项PPT图文页 (1).png


新小标题3.png

图片 2.png


架构方案


1. 优化程序设计,提高代码质量;规范化测试,提高稳定性

a) 降低耦合,模块化设计,减少程序复杂性:需求-设计-编码;

b) Code Review:定期审查代码,及时发现问题,优化设计;

c) 使用测试、分析工具检查代码质量;

d) 执行各项测试流程,全面检查系统潜在风险,保证系统稳定。

 

OGSP已完成以上优化项,从程序设计层面提高了系统可用性。

 

2. 使用集群部署,减少单点故障

集群是一组协同工作的服务实体,用以提供比单一服务实体更具可扩展性与高可用性的服务平台。为此,集群还需具备“负载均衡”和“错误恢复”两大能力来规避系统故障。

 

3. 其他方法

视具体情况,还可使用流量控制(flow control)、超时和重试机制、熔断机制、使用缓存、异步处理等方法保障和提升应用的可用性。


运维方案

1. 部署发布:统一流程,规范发布。

2. 监控告警:定期检查,适时监控。



新小标题4.png

主备集群在正常情况下只有主节点工作,当主节点出现故障时,备用节点启用。多活集群是集群中的所有节点都正常提供服务,按照流量划分,将流量归属到不同的节点,当某节点出现问题时,将流量切换到其他节点正常提供服务。OGSP系统高可用架构设计是根据各层的技术特点和投入预算可选择主备集群或多活集群。


图片 36.png

OGSP高可用整体设计图


改.png

代理集群 & OGSP应用集群


图片 2(1).png

数据库集群 & 数据缓存集群


图片 5.png

MQ集群


随着数字时代的深入发展,用户量的激增带来数据量的迸发。OGSP4.0采用高可用架构设计,为关键业务7x24不间断运行提供有力保障,帮助企业从容应对高并发业务和海量数据的双重挑战。奥工科技也将持续打磨自身的技术和服务,为计算用户提供更实用、更可靠、更高效的一站式密集计算服务。



—END—


咨询热线: 025-86738812

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己