产品常见问题#

什么是算力调度系统,它为什么重要#

当一个计算系统中同时运行超过一个计算任务时,就需要对任务进行资源分配,防止任务间的计算资源冲突,这就需要有调度系统。单台服务器上的调度系统由操作系统提供,而多服务器组成的算力集群就需要算力调度系统或者说集群调度系统。 若没有算力调度系统,多个计算任务就会互相争抢算力资源导致任务性能大幅度下降,系统平均利用率下降,浪费时间,浪费贵重的算力资源(如高端GPU)。

算力调度的功能和性能对算力的利用率、任务利用算力的成本等多个因素都有影响。许多客户觉得既然有开源的算力调度系统,不愿意购买商业软件,实际上商业软件为算力中心每提高5%的利用率所产生的价值,就会高于购买商业调度软件本身的费用,同时由于算力利用率的提高,缩短了产品研发的周期,由此带来的价值更高。

SkyForm算力调度系统有哪些特色,提供哪些价值#

SkyForm算力调度系统是支持多算力池、多类型应用、高性能、轻量化的信创产品,在大规模生产环境中稳定性和可靠性得到充分的验证。系统帮助用户提高算力利用率、减少运维成本,是应用可以充分利用底层的算力资源,帮助企业提高生产力、减少IT的成本。

SkyForm算力调度系统支持各种类型对高性能算力有要求的应用,如工业仿真、基因和蛋白质研究、芯片设计、天气预报、大数据分析、人工智能训练和推理等。

算力资源以裸金属服务器、部分服务器、和无服务器方式提供。SkyForm算力调度系统的Python SDK让AI应用开发中所需的算力通过API的方式获得。完整的资源使用监控和精细的秒级计量计费优化用户的开销。

SkyForm算力调度系统以其高性能的调度能力和智能调度算法,比一般的开源的算力调度软件能够为算力池的平均利用率增加5-10%,一个1千万成本的算力池意味着会节约50-100万的预算额度。

SkyForm算力调度系统是怎样收费的#

AIP按照所管理的算力集群中的CPU颗数+GPU卡数收费。分为免费版和企业版(收费版),收费方式为: - 订阅:订阅按年和集群大小收取固定费用,订阅期间用户享受使用最新版本的AIP,以支持最新的操作系统和最新的应用软件,并通过邮件、微信等方式的产品维保和产品技术支持。 - 永久授权:永久授权为根据集群大小的一次性收费。购买永久授权后的第一年内享受产品维保和产品技术支持。第二年起可以按年选购产品维保和产品技术支持,年度费用为永久授权费用的15%。 以上费用不包含额外的服务,如客户现场安装、应用集成、系统集成、现场巡检等。如需此类服务,请联系天云融创提供专家服务和单独报价。

对于AI模型训练,调度系统提供哪些功能#

调度系统对AI模型训练,尤其是大模型的训练做了优化,任务在出错后可以自动重启,在训练过程中提供各种资源监控以保证训练任务的顺利进行。对于大模型的训练,其独特的任务远程分发能力(支持多种子任务远程分发框架如DeepSpeed、Ray等)实现分布式训练任务的快速启动,缩短训练时间、减少资源浪费。

对于推理服务,调度系统提供哪些功能#

调度系统为推理用户提供推理所需自动伸缩调度能力和访问端口转发等功能。推理可以使用容器或者直接使用裸金属服务。

对于AI应用开发,调度系统提供哪些功能#

调度系统可以调度开发用的Jupyter任务,或者调度开可以接受ssh的应用开发容器以便用户VSCode的远程ssh连接。开发者可以使用SDK来使用资源进行开发训练、调试、和推理测试。

系统支持哪些类型的CPU#

系统目前支持X86、ARM、申威、龙芯CPU。其他的CPU类型请联系公司。

系统支持哪些类型的GPU或加速芯片#

系统能够自动检测并调度的GPU或加速芯片有:英伟达、AMD、天数智芯、燧原等,其他的国产加速芯片的支持请联系公司。

SkyForm算力调度系统可以在不用虚拟机的场景中支持vGPU吗#

SkyForm算力调度系统支持NVIDIA的MIG GPU分片。另外对于不支持MIG的GPU,调度系统可以支持多个任务同时使用同一个GPU,在这种场景中,多个任务在GPU内分时运行,这对于偶尔使用GPU的任务可以使GPU复用而节约开销。

系统怎样实现任务间的资源隔离#

SkyForm算力调度系统利用Linux的cgroup(裸金属任务)或者容器实现任务间的资源隔离。

系统支持哪些容器类型#

目前系统支持Docker和Singularity。其他类型的容器技术可以通过类似的方法集成到调度系统中。

系统支持哪些操作系统#

系统支持所有的商业和开源Linux操作系统,包括基于Linux的国产操作系统,并支持X86 Windows。

系统支持哪些MPI框架#

SkyForm算力调度系统与Intel MPI有深度集成,同时支持MPICH、OpenMPI、MVAPICH等开源MPI框架。这些框架常用于工业仿真和开源科学计算软件中。

系统支持哪些AI框架和大语言模型#

系统支持所有常用的AI框架,包括TensorFlow、PyTorch、Ray、PaddlePaddle、DeepSpeed等,现代大模型都是基于这些框架构建的,所以本系统可以轻松支持大语言模型。

如果算力节点出现故障,任务怎样恢复#

如果算力节点出现故障,调度系统可以自动把在故障节点上运行的任务自动重新一高优先级排队,以便在其他好的节点上重新运行。

调度系统有节能的功能吗#

在算力使用不饱满的时候,调度系统可以自动把空闲的节点通过IPMI设置成休眠或关机状态,并在有任务需要算力时自动恢复电源状态。

调度系统支持哪些接口#

SkyForm算力调度系统除了自身的命令行接口外,还支持部分常用的SLURM、LSF、和PBS命令行接口。SkyForm调度系统还有基于Swagger标准的REST API服务,以及为AI准备的Python SDK。