首页 > 技术文献 > 数据密集作业在GPU集群上的调度算法研究

数据密集作业在GPU集群上的调度算法研究
2022-12-06 15:07:08   来源:    点击:

文档介绍
摘要: 数据密集型作业包含大量的任务,使用 GPU 设备来提高任务的性能是目前的主要手段,但是,在解决数据密集型作业之间的 GPU 资源公平共享以及降低任务所需数据在网络间的传输代价方面,现有的研究方法没有综合考虑资源公平与数据传输代价的矛盾.分析了 GPU集群资源调度的特点。提出了一种基于最小代价最大任务数的 GPU 集群资源调度算法,解决了 GPU 资源的公平分配与数据传输代价较高的矛盾将调度过程分为两个阶段: 第1阶段为各个作业按照数据传输代价给出自己的最优方案:第2阶段为资源分配器合并各个作业的方案。按照公平性给出全局的最优方案. 首先,给出了 GPU集群资源调度框架的总体结构。各个作业给出自己的最优方案.资源分配进行全局优化:第二、给出了网络带宽估计策略以及计算任务的数据传输代价的方法:第三,给出了基于 GPU 数量的资源公平分配的基本算法: 第四。提出了最小代价最大任务数的资源调度算法。描述了资源非抢夺、抢夺以及不考虑资源公平策略的实现策略: 最后。设计了 6 种数据密集型计算作业,对所提出的算法进行了实验,通过实验验证。最小代价最大任务数的资源调度算法对于资源公平性能够达到 90%左右、同时亦能保证作业并行运行时间最小.
下载地址
分享到: