随着人工智能(AI)发展进程的加快,高性能计算(HPC)与人工智能(AI)的融合越发紧密。AI离不开HPC的支撑:一方面,AI平台架构于HPC基础能力上,借助HPC扩展AI的规模;另一方面,数据科学家解决问题的规模得以扩大,用于解决问题的深度学习算法性能得到提升。
乘势而行,奥工科技自主研发的面向终端计算用户的、安全、可进化的密集计算服务平台(OGSP)提出面向AI用户专属计算场景的解决方案。上一期(点此回顾)广而泛地介绍了OGSP如何大幅降低AI用户的使用门槛。在深度学习算法模型的开发过程中,算法工程师需要频繁地进行算法调整和优化等动作,这类操作具体如何实现?
使用场景一
可视化标注工具
操作
通过OGSP图形可视化的远程工作空间打开LabelMe/EISeg等图形标签标注软件,自动分配具有GPU的硬件环境,即可实现在页面中进行AutoLabeling标注工具的使用, 保障标注数据的安全,实现标注任务的协同。
(EISeg标注工具,加载自动标注权重)
使用场景二
“可视化”WEB界面和AI模型远程代码IDE调试资源的调度
操作
方式一:
通过OGSP提交WEB交互作业至GPU节点,在浏览器打开jupyter进行模型调整。即在网页页面中直接编写代码和运行代码,运行结果也可在代码块下实时显示。
(jupyter调试环境分配4个CPU和1块GPU)
方式二:
通过OGSP提交WEB交互作业提供的服务转发端口+OGSP地址,再通过本地的VSCode或Pycharm的IDE工具连接服务,便于用户实现AI模型的调整。
采用资源隔离PAM身份认证,保障用户在调试环境中的资源相互隔离,实现在单个节点上多用户资源合理分配,防止出现多个用户同时进行模型调试时,GPU显存不够的情况发生。
使用场景三
面向用户的自定义AI作业模版
通过OGSP模版系统,通过低代码模块可以快速配置AI作业模版,简单的实现不同类型的任务作业,如单GPU任务或者单机多GPU作业任务的定制化模版,降低用户的作业提交难度和复杂度。
操作
开发运营管理员创建新的分布式训练模版,并进入模型定制页面通过拖拉拽实现定制化,配置训练端口、epochs、batch_size等参数。
(低代码AI作业模版创建页面)
(利用定义好的作业模版提交作业)
(自动生成的AI作业任务脚本)
大数据、算力、算法是AI的三驾马车。面对愈加复杂的生产场景,越来越多的AI企业将目光放在HPC的超高算力上。奥工科技密集计算服务平台OGSP面向AI用户进行计算场景赋能,加速其算法迭代和价值获取,助力企业在垂直领域取得技术性突破。
关于OGSP
OGSP(Ongineer Service Platform)是奥工科技自主研发的一款面向终端计算用户的、安全、可进化的密集计算服务平台。
OGSP秉承云原生设计理念,搭建密集计算场景中基础侧、平台侧、应用侧的生态服务架构,谋求基础侧的稳定、健康、可扩展性;平台侧的高效、动态、易用性;应用侧的专业、交互、场景化。将服务产品化、产品场景化,为用户提供基于实际生产场景的一站式密集计算服务。