SkyForm算力调度系统(SkyForm AIP)

高性能、高通量、异构、和多算力池的算力调度,AI训练、高性能计算、和高性能数据分析的信创算力调度软件系统。

SkyForm算力调度系统

信创产品,针对AI、高性能计算、和高性能数据分析的算力和任务调度系统。

SkyForm算力调度系统为企业AI应用开发者和高性能计算用户提供针对异构算力资源提供多维度智能调度策略, 满足用户最复杂的算力调度场景,适用于AI模型的开发、训练、和推理、利用大模型开发AI应用, 高性能计算应用、和高性能数据分析的算力分配和调度,使算力能力发挥到极致,以加速企业产品研发和提高企业服务质量, 缩短项目时间,节约算力成本。

产品价值

高性能、高可靠、高可扩

多模态应用

提供多异构算力池的资源自动发现和监控、高速任务调度、和大规模任务的分发,兼容业界传统超算调度器的命令行以快速集成各类应用。 通过网络通讯转发机制实现安全的应用远程访问。内置3D可视化加速组件实现3D应用的远程可视化。这些多模态的应用支撑和快速集成增加了应用使用算力的效率。

多异构资源池

不同种类的CPU(如x86和ARM)、不同种类的加速芯片(国产GPU、GCU等以及进口GPU)和在同一算力池中进行算力调度,这种融合异构资源的融合算力池可使不同种类的算力应用, 如高性能计算、高性能数据分析、交互式设计和开发、AI训练、AI推理等共享算力资源,提高吞吐、减低建设成本。

计量计费

为满足不同类型客户的需求,SkyForm算力调度系统还内置了计量和计费功能,可以根据定价自动生成用户级月账单。

功能

SkyForm算力调度系统的特色

调度裸金属和容器任务

支持英伟达MIG和GPU多任务共享

高效远程任务分发和任务资源使用监控

多维度调度策略

每小时百万任务高通量调度能力

支持50万维大并行任务

价格

各版本价格

免费版

¥0 / 月 / 处理器(CPU或GPU)
  • 异构资源调度
  • 支持裸金属和容器
  • 多级用户组织
  • 高级调度策略
  • 支持Python SDK
  • 对接SkyForm算力应用平台
  • 现场安装服务
下载
精选

入门版

¥28 / 月 / 处理器(CPU或GPU)
  • 异构资源调度
  • 支持裸金属和容器
  • 多级用户组织
  • 高级调度策略
  • 支持Python SDK
  • 对接SkyForm算力应用平台
  • 现场安装服务
即将上线

专业版

¥¥¥ / 月 / 处理器(CPU或GPU)
  • 异构资源调度
  • 支持裸金属和容器
  • 多级用户组织
  • 高级调度策略
  • 支持Python SDK
  • 对接SkyForm算力应用平台
  • 现场安装服务
联系

高级版

¥¥¥ / 月 / 处理器(CPU或GPU)
  • 异构资源调度
  • 支持裸金属和容器
  • 多级用户组织
  • 高级调度策略
  • 支持Python SDK
  • 对接SkyForm算力应用平台
  • 现场安装服务
联系

F.A.Q

常见问题

当一个计算系统中同时运行超过一个计算任务时,就需要对任务进行资源分配,防止任务间的计算资源冲突,这就需要有调度系统。 单台服务器上的调度系统由操作系统提供,而多服务器组成的算力集群就需要算力调度系统或者说集群调度系统。

若没有算力调度系统,多个计算任务就会互相争抢算力资源导致任务性能大幅度下降,系统平均利用率下降,浪费时间,浪费贵重的算力资源(如高端GPU)。

算力调度的功能和性能对算力的利用率、任务利用算力的成本等多个因素都有影响。许多客户觉得既然有开源的算力调度系统,不愿意购买商业软件, 实际上商业软件为算力中心每提高5%的利用率所产生的价值,就会高于购买商业调度软件本身的费用,同时由于算力利用率的提高,缩短了产品研发的周期,由此带来的价值更高。

SkyForm算力调度系统是支持多算力池、多类型应用、高性能、轻量化的信创产品,在大规模生产环境中稳定性和可靠性得到充分的验证。 系统帮助用户提高算力利用率、减少运维成本,是应用可以充分利用底层的算力资源,帮助企业提高生产力、减少IT的成本。

SkyForm算力调度系统支持各种类型对高性能算力有要求的应用,如工业仿真、基因和蛋白质研究、芯片设计、天气预报、大数据分析、人工智能训练和推理等。

算力资源以裸金属服务器、部分服务器、和无服务器方式提供。SkyForm算力调度系统的Python SDK让AI应用开发中所需的算力通过API的方式获得。 完整的资源使用监控和精细的秒级计量计费优化用户的开销。

SkyForm算力调度系统以其高性能的调度能力和智能调度算法,比一般的开源的算力调度软件能够为算力池的平均利用率增加5-10%, 一个1千万成本的算力池意味着会节约50-100万的预算额度。

AIP按照所管理的算力集群中的CPU颗数+GPU卡数收费。分为免费版和企业版(收费版),收费方式为:

  • 订阅:订阅按年和集群大小收取固定费用,订阅期间用户享受使用最新版本的AIP,以支持最新的操作系统和最新的应用软件, 并通过邮件、微信等方式的产品维保和产品技术支持。
  • 永久授权:永久授权为根据集群大小的一次性收费。购买永久授权后的第一年内享受产品维保和产品技术支持。 第二年起可以按年选购产品维保和产品技术支持,年度费用为永久授权费用的15%。

以上费用不包含额外的服务,如客户现场安装、应用集成、系统集成、现场巡检等。如需此类服务,请联系天云融创提供专家服务和单独报价。

调度系统对AI模型训练,尤其是大模型的训练做了优化,任务在出错后可以自动重启,在训练过程中提供各种资源监控以保证训练任务的顺利进行。 对于大模型的训练,其独特的任务远程分发能力(支持多种子任务远程分发框架如DeepSpeed、Ray等)实现分布式训练任务的快速启动, 缩短训练时间、减少资源浪费。

调度系统为推理用户提供推理所需自动伸缩调度能力和访问端口转发等功能。推理可以使用容器或者直接使用裸金属服务。

对于AI应用开发,调度系统可以调度开发用的Jupyter任务,或者调度开可以接受ssh的应用开发容器以便用户VSCode的远程ssh连接。 开发者可以使用SDK来使用资源进行开发训练、调试、和推理测试。

如果算力节点出现故障,调度系统可以自动把在故障节点上运行的任务自动重新一高优先级排队,以便在其他好的节点上重新运行。

SkyForm算力调度系统除了自身的命令行接口外,还支持部分常用的SLURM、LSF、和PBS命令行接口。SkyForm调度系统还有基于Swagger标准的REST API服务,以及为AI准备的Python SDK。

联系

联系我们

地址

北京市海淀区北四环西路283号
智优沃大厦

标准技术支持时间

周一至周五(法定节假日除外)
9:00 - 18:00

电话

010-62969256

电子邮件

info@chinaskycloud.com

加载
您的消息已经发送,谢谢!