全面的集群监控
资源监控:直观的物理机柜视图,查看节点、分区的资源使用情况
性能监控:监控集群的CPU、GPU、内存、网络等性能指标
任务监控:监控作业运行情况,统计用户、组织作业任务
用户监控:监控用户行为、资源和任务情况
集群管理和调度
支持超大规模、异构集群的统一调度
支持多种调度策略
支持查看节点信息,设置资源分区,支持shell批量管理节点
支持可视化的文件管理,支持增删改查、上传下载、压缩解压
丰富灵活的作业管理
为HPC传统用户提供批处理任务的方式
为不熟悉IT的用户提供作业模板的方式,定义好参数即可使用
作业可以运行在Singularity容器中,屏蔽应用和系统的差异
作业可保存为容器镜像,方便作业环境快速发放和在用户间共享
精细化的计费管理
支持为不同组织设置不同的费率,配置不同的欠费策略
支持CPU按核/时、GPU按/卡时计费
支持账单查看、导出 ,查看用户、组织的消费趋势
产品价值
简化集群运维管理,减轻运维人员负担
全面的集群监控和自动巡检能够有效帮助运维人员及时发现集群故障,及时处理。将多类型应用的容器化部署方式,屏蔽应用间的差异,降低运维难度
多种作业使用方式,降低非专业用户上手门槛
为传统用户提供脚本作业使用方式,匹配用户使用习惯;为非计算机学科的用户提供web作业模板的使用方式,可以有效降低学习成本,专注于本职工作
精细化的计费管理,满足超算中心运营管理的要求
通过为不同资源、组织设置灵活的费率和欠费策略,能够有效帮助超算中心实现精细化运营和差异化管理
匹配组织架构,权责清晰
通过为不同用户、组织分配不同权限,实现与组织架构清晰匹配,用户、组织的权责清晰