技术资料

资料介绍

OGSP升级能力七深解——AI计算场景实践

时间:2022-11-10 浏览次数:504 分类:技术资料

随着人工智能(AI)发展进程的加快,高性能计算(HPC)与人工智能(AI)的融合越发紧密。AI离不开HPC的支撑:一方面,AI平台架构于HPC基础能力上,借助HPC扩展AI的规模;另一方面,数据科学家解决问题的规模得以扩大,用于解决问题的深度学习算法性能得到提升。


乘势而行,奥工科技自主研发的面向终端计算用户的、安全、可进化的密集计算服务平台(OGSP)提出面向AI用户专属计算场景的解决方案。上一期(点此回顾)广而泛地介绍了OGSP如何大幅降低AI用户的使用门槛。在深度学习算法模型的开发过程中,算法工程师需要频繁地进行算法调整和优化等动作,这类操作具体如何实现?



使用场景一

可视化标注工具


操作

通过OGSP图形可视化的远程工作空间打开LabelMe/EISeg等图形标签标注软件,自动分配具有GPU的硬件环境,即可实现在页面中进行AutoLabeling标注工具的使用, 保障标注数据的安全,实现标注任务的协同

1.1.png

1.2.png

1.3.png

(EISeg标注工具,加载自动标注权重)



使用场景二

“可视化”WEB界面和AI模型远程代码IDE调试资源的调度


操作

方式一:

通过OGSP提交WEB交互作业至GPU节点,在浏览器打开jupyter进行模型调整。即在网页页面中直接编写代码和运行代码,运行结果也可在代码块下实时显示。

2.1.png

2.2.png

(jupyter调试环境分配4个CPU和1块GPU)


2.3.png



方式二:

通过OGSP提交WEB交互作业提供的服务转发端口+OGSP地址,再通过本地的VSCode或Pycharm的IDE工具连接服务,便于用户实现AI模型的调整。

采用资源隔离PAM身份认证,保障用户在调试环境中的资源相互隔离,实现在单个节点上多用户资源合理分配,防止出现多个用户同时进行模型调试时,GPU显存不够的情况发生。


2.4.png

2.5.png



使用场景三

面向用户的自定义AI作业模版

通过OGSP模版系统,通过低代码模块可以快速配置AI作业模版,简单的实现不同类型的任务作业,如单GPU任务或者单机多GPU作业任务的定制化模版,降低用户的作业提交难度和复杂度。


操作

开发运营管理员创建新的分布式训练模版,并进入模型定制页面通过拖拉拽实现定制化,配置训练端口、epochs、batch_size等参数。

3.1.png

(低代码AI作业模版创建页面)


3.2.png

(利用定义好的作业模版提交作业)


3.3.png

(自动生成的AI作业任务脚本)



大数据、算力、算法是AI的三驾马车。面对愈加复杂的生产场景,越来越多的AI企业将目光放在HPC的超高算力上。奥工科技密集计算服务平台OGSP面向AI用户进行计算场景赋能,加速其算法迭代和价值获取,助力企业在垂直领域取得技术性突破。


关于OGSP

OGSP( Ongineer Service Platform )是奥工科技自主研发的面向终端计算用户的、安全、可进化的密集计算服务平。OGSP秉承云原生设计理念,搭建密集计算场景中基础侧、平台侧、应用侧的生态服务架构,谋求基础侧的稳定、健康、可扩展性;平台侧的高效、动态、易用性;应用侧的专业、交互、场景化。将服务产品化、产品场景化,为用户提供基于实际生产场景的一站式密集计算服务。



相关产品

OGSP

OGSP(Ongineer Service Platform)是奥工科技自主研发的一款面向终端计算用户的、安全、可进化的密集计算服务平台。

OGSP秉承云原生设计理念,搭建密集计算场景中基础侧、平台侧、应用侧的生态服务架构,谋求基础侧的稳定、健康、可扩展性;平台侧的高效、动态、易用性;应用侧的专业、交互、场景化。将服务产品化、产品场景化,为用户提供基于实际生产场景的一站式密集计算服务。

了解产品

咨询电话

公司官微

025-86738812

联系我们

hwclould@ongineer.cn

南京市雨花台区锦绣街绿地之窗C4栋326室

025-86738812

奥工科技公众号

版权所有 ©南京奥工信息科技有限公司 苏ICP备15036832号-3

技术支持:网站建设