当前位置:首页 > 产品中心 > AI >

AIStation 训练平台

AIStation是浪潮面向人工智能企业训练场景的人工智能开发资源平台,可实现容器化部署、可视化开发、集中化管理等,为用户提供极致高性能的AI计算资源,实现高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI场景及业务整合,有效打通开发环境、计算资源与数据资源,提升开发效率。
产品特性

AI计算资源集中管理调度

  GPU服务器及GPU卡统一管理,使用状态一览展示 

  支持资源分组管理,按GPU型号、网络类型、场景用途等

  支持用户配额与优先级控制,资源按需申请、动态分配 

  支持GPU多维细粒度调度,GPU最小可按1G显存进行资源申请

  资源亲和调度策略,支持按设备类型、网络类型、缓存数据等进行亲和性调度

  

训练数据管理

  统一管理个人数据及开发数据集,组内数据协同开发;公共数据共享应用 

  对接企业数据存储系统,支持 NFS、HDFS、BeeGFS 等文件系统 

  支持文件上传、下载、压缩、解压、新建和删除等 

  支持用户访问及下载权限设置,保证数据安全可靠

  

 AI开发环境快速部署 

  采用容器技术,秒速部署深度学习环境 

  按需申请计算资源,自动调度分配 

  多用户之间资源和环境隔离 

  提供 jupter 和 shell 工具,便于代码开发和调试

  开发环境的超时提醒

  

托管式训练任务编排 

  不同深度学习框架模板,通过模板快速提交训练任务 

  多机分布式任务自动分配计算资源,自动编排计算进程 

  按需申请计算资源的 CPU 核数和 GPU 卡数内存和训练集等 

  紧急任务设置和优先调度策略 

  用户组任务轮询调度策略

  

AI 软件栈支持 

  支持镜像上传、下载 

  支持镜像分组及镜像分享 

  支持tar包导入镜像 

  从DockerHub仓库和NGC仓库拷贝镜像 

  支持用户自定义创建镜像并保存

  

  一站式模型开发训练,缩短模型迭代周期

AIStation涵盖了AI模型开发的所有环节,从数据样本、软件栈管理,到模型架构设计、代码调试、模型训练、调参,到最后的模型管理、评估测试,为算法工程师提供了一站式全流程的AI开发平台,帮助开发人员聚焦模型开发,缩短模型迭代周期;

  样本数据本地缓存,提升计算吞吐效率

强大的GPU 算力需要高性能的数据吞吐做支撑,AIStation构建了数据缓存加速机制,支持远端数据的本地加载并参与计算,消除了网络I/O导致的计算延迟。此外,AIStation创新性的提出了数据“零拷贝“传输、多线程拉取、数据增量更新、亲和性调度等策略,可以大幅缩短数据缓存周期,提升模型开发和训练效率。

  多维GPU细粒度调度,充分利用计算资源

AIStation实现了对 GPU 显存粒度的资源隔离与调度,用户最小可申请显存为1G的GPU资源进行模型开发,结合平台的超分策略,单卡32G的资源最多可同时提供给48个开发人员隔离使用,此外,AIStation实现了对A100 MIG的支持,单张A100卡最多可划分为7个计算实例并发使用。AIStation的细粒度调度策略可以大幅缩短用户的资源等待时间,集群整体资源利用率提升30%。

  高效弹性的负载调度策略,最大化基础设施的投入产出

AIStation可以为企业级用户提供稳定、高效的算力输出,灵活满足模型开发、调试、训练等不同场景下的算力需求,从单卡多实例的细粒度划分,到多机多卡的大规模并行计算,AIStation可以帮助用户最大限度的释放算力资源。此外,AIStation面向企业多租户多任务的场景,提供了优先级、紧急任务、轮询作业、空载监控等资源调度管理策略,保证计算资源被合理充分利用,有效的提高投资回报率;

  智能容错机制,保证计算系统及训练任务稳定可靠

AIStation 针对平台稳定性提供了完善的容错机制和策略,包括节点资源及关键服务的监控和异常处理、训练任务运行监控及异常处理、管理节点HA监控及异常处理,保障平台服务与模型开发业务的平稳运行。


技术规格
×
提示信息:
确认