前几期的“Geeki说”为大家揭秘了OGSP4.0热度较高的几个升级功能(点击这里快速直达:#Geeki 说 - OGSP 专栏 ),本期跟大家聊聊OGSP的高可用(HA)体系。
HA系统是截至目前,企业防止核心计算机系统因故障停机的最有效手段。奥工科技自研密集计算服务平台(OGSP)在4.0版本迭代中,对高可用方案架构进行进一步升级,打造出了一套完善可靠的OGSP高可用体系。
高可用(HA)是指因日常维护操作(计划)或突发的系统崩溃(非计划)而出现系统故障时能持续工作而不影响业务运行的能力。与不间断操作的容错技术有所不同,高可用代表即使在发生硬件故障或者系统升级的时候,服务仍然可用。
系统的可用性是指单位时间内(通常一年),服务器可以正常工作的时间比例。比如99%、99.9%、99.99%,9越多代表可用性越强。
可用性计算公式如下:
导致系统不可用的原因可以分为内部原因和外部原因:内部原因通常是软硬件问题;外部原因一般是自然或人为灾害。
架构方案
1. 优化程序设计,提高代码质量;规范化测试,提高稳定性 a) 降低耦合,模块化设计,减少程序复杂性:需求-设计-编码; b) Code Review:定期审查代码,及时发现问题,优化设计; c) 使用测试、分析工具检查代码质量; d) 执行各项测试流程,全面检查系统潜在风险,保证系统稳定。 OGSP已完成以上优化项,从程序设计层面提高了系统可用性。 2. 使用集群部署,减少单点故障 集群是一组协同工作的服务实体,用以提供比单一服务实体更具可扩展性与高可用性的服务平台。为此,集群还需具备“负载均衡”和“错误恢复”两大能力来规避系统故障。 3. 其他方法 视具体情况,还可使用流量控制(flow control)、超时和重试机制、熔断机制、使用缓存、异步处理等方法保障和提升应用的可用性。 运维方案 1. 部署发布:统一流程,规范发布。 2. 监控告警:定期检查,适时监控。
主备集群在正常情况下只有主节点工作,当主节点出现故障时,备用节点启用。多活集群是集群中的所有节点都正常提供服务,按照流量划分,将流量归属到不同的节点,当某节点出现问题时,将流量切换到其他节点正常提供服务。OGSP系统高可用架构设计是根据各层的技术特点和投入预算可选择主备集群或多活集群。
OGSP高可用整体设计图
代理集群 & OGSP应用集群
数据库集群 & 数据缓存集群
MQ集群
随着数字时代的深入发展,用户量的激增带来数据量的迸发。OGSP4.0采用高可用架构设计,为关键业务7x24不间断运行提供有力保障,帮助企业从容应对高并发业务和海量数据的双重挑战。奥工科技也将持续打磨自身的技术和服务,为计算用户提供更实用、更可靠、更高效的一站式密集计算服务。
—END—
OGSP(Ongineer Service Platform)是奥工科技自主研发的一款面向终端计算用户的、安全、可进化的密集计算服务平台。
OGSP秉承云原生设计理念,搭建密集计算场景中基础侧、平台侧、应用侧的生态服务架构,谋求基础侧的稳定、健康、可扩展性;平台侧的高效、动态、易用性;应用侧的专业、交互、场景化。将服务产品化、产品场景化,为用户提供基于实际生产场景的一站式密集计算服务。