AIStation 训练平台 - AI - 山东万佳云计算信息科技有限公司

产品特性

AI计算资源集中管理调度

　　GPU服务器及GPU卡统一管理，使用状态一览展示

　　支持资源分组管理，按GPU型号、网络类型、场景用途等

　　支持用户配额与优先级控制，资源按需申请、动态分配

　　支持GPU多维细粒度调度，GPU最小可按1G显存进行资源申请

　　资源亲和调度策略，支持按设备类型、网络类型、缓存数据等进行亲和性调度

训练数据管理

　　统一管理个人数据及开发数据集，组内数据协同开发；公共数据共享应用

　　对接企业数据存储系统，支持 NFS、HDFS、BeeGFS 等文件系统

　　支持文件上传、下载、压缩、解压、新建和删除等

　　支持用户访问及下载权限设置，保证数据安全可靠

　AI开发环境快速部署

　　采用容器技术，秒速部署深度学习环境

　　按需申请计算资源，自动调度分配

　　多用户之间资源和环境隔离

　　提供 jupter 和 shell 工具，便于代码开发和调试

　　开发环境的超时提醒

托管式训练任务编排

　　不同深度学习框架模板，通过模板快速提交训练任务

　　多机分布式任务自动分配计算资源，自动编排计算进程

　　按需申请计算资源的 CPU 核数和 GPU 卡数内存和训练集等

　　紧急任务设置和优先调度策略

　　用户组任务轮询调度策略

AI 软件栈支持

　　支持镜像上传、下载

　　支持镜像分组及镜像分享

　　支持tar包导入镜像

　　从DockerHub仓库和NGC仓库拷贝镜像

　　支持用户自定义创建镜像并保存

　　一站式模型开发训练，缩短模型迭代周期

AIStation涵盖了AI模型开发的所有环节，从数据样本、软件栈管理，到模型架构设计、代码调试、模型训练、调参，到最后的模型管理、评估测试，为算法工程师提供了一站式全流程的AI开发平台，帮助开发人员聚焦模型开发，缩短模型迭代周期；

　　样本数据本地缓存，提升计算吞吐效率

强大的GPU 算力需要高性能的数据吞吐做支撑，AIStation构建了数据缓存加速机制，支持远端数据的本地加载并参与计算，消除了网络I/O导致的计算延迟。此外，AIStation创新性的提出了数据“零拷贝“传输、多线程拉取、数据增量更新、亲和性调度等策略，可以大幅缩短数据缓存周期，提升模型开发和训练效率。

　　多维GPU细粒度调度，充分利用计算资源

AIStation实现了对 GPU 显存粒度的资源隔离与调度，用户最小可申请显存为1G的GPU资源进行模型开发，结合平台的超分策略，单卡32G的资源最多可同时提供给48个开发人员隔离使用，此外，AIStation实现了对A100 MIG的支持，单张A100卡最多可划分为7个计算实例并发使用。AIStation的细粒度调度策略可以大幅缩短用户的资源等待时间，集群整体资源利用率提升30%。

　　高效弹性的负载调度策略，最大化基础设施的投入产出

AIStation可以为企业级用户提供稳定、高效的算力输出，灵活满足模型开发、调试、训练等不同场景下的算力需求，从单卡多实例的细粒度划分，到多机多卡的大规模并行计算，AIStation可以帮助用户最大限度的释放算力资源。此外，AIStation面向企业多租户多任务的场景，提供了优先级、紧急任务、轮询作业、空载监控等资源调度管理策略，保证计算资源被合理充分利用，有效的提高投资回报率；

　　智能容错机制，保证计算系统及训练任务稳定可靠

AIStation 针对平台稳定性提供了完善的容错机制和策略，包括节点资源及关键服务的监控和异常处理、训练任务运行监控及异常处理、管理节点HA监控及异常处理，保障平台服务与模型开发业务的平稳运行。

技术规格