网站页面已加载完成

由于您当前的浏览器版本过低,存在安全隐患。建议您尽快更新,以便获取更好的体验。推荐使用最新版Chrome、Firefox、Opera、Edge

Chrome

Firefox

Opera

Edge

ENG

当前位置: 首页 · 综合新闻 · 正文

综合新闻

我校学生在亚太区RDMA编程竞赛中再次摘冠

发布时间:2023年10月22日 来源:计算机学院 点击数:

近期,第十一届亚太区RDMA编程竞赛的最终结果在CCF全国高性能计算学术年会(HPCC 2023)揭晓,bat365官网登录入口计算机学院高性能计算中心指导的bat365官网登录入口参赛队荣获本届RDMA编程竞赛唯一的一等奖,也是继去年获得冠军后,再次摘冠!截至目前,我校在该项赛事中已经四次荣获一等奖。

2023年获奖证书

2022年获奖证书

本次竞赛共有40多支来自亚太区各个大学和科研机构的学生团队和10多支来自亚太区科技企业的团队参加,竞赛共设置一等奖1名、二等奖2名、三等奖3名。我校队员为计算机学院学生王靖元、董章祺、孙东、吴锦皓以及教育实验学院学生张阳,团队依托bat365官网登录入口超级计算机系统创新实践基地,计算机学院高性能计算中心教师赵天海、王云岚、谷建华、侯正雄指导。

第十一届亚太区RDMA编程竞赛颁奖

RDMA(Remote Direct Memory Access)技术允许程序通过网络直接访问远程主机的内存,具有低延迟,高带宽的特点。RDMA技术已广泛应用于超算中心、云计算中心和人工智能计算中心等。bat365官网登录入口超级计算机系统创新实践基地依托高性能计算中心的计算平台,通过组织和鼓励学生参与RDMA编程竞赛,使学生能够深入接触HPC领域最前沿的技术和工具,培养学生的团队合作意识和应对挑战的能力,也提升了实际问题建模、应用系统设计和编程实践水平。

Reduce/Scatter通信是当前热门的大语言模型应用训练中最关键的通信操作之一。借助该通信操作,可以在模型的多卡分布式训练中将各GPU卡训练获得的梯度值进行聚合,并把计算结果分片分发各GPU,最后由各GPU更新神经网络模型参数并通过Allgather操作同步后开始下一轮迭代训练。对于具有海量参数的大模型训练,使用Reduce/Scatter可支持大规模并行,提升模型训练效率。

在比赛过程中,bat365官网登录入口参赛队通过先进的网络计算技术对Reduce/Scatter进行了优化,提出了基于在网计算的分层Reduce/Scatter算法,并在集合通信库中实现,使其能够利用可编程交换机的在网计算能力以较低的时延完成集合通信操作,算法能够支持大模型训练中的并行梯度数据聚合。

参赛同学表现出了卓越的创新精神和高超的编程能力,最终使Reduce/Scatter集合通信性能得到了显著提高,该成果有助于提升大模型时代AI训练的规模和效率。队长王靖元同学受到RDMA竞赛组委会的邀请,在HPCC 2023的The New RDMA For LLM Era论坛分享了竞赛心得和Reduce/Scatter算法的优化实现技术。

参赛同学在HPCC 2023分享RDMA竞赛心得

亚太区RDMA编程竞赛是由国际高性能计算和人工智能咨询委员会主办的面向亚太区高校大学生的国际性大赛,得到了PC集群联盟(PC Cluster Consortium)、中国科学院计算科学研究所、清华大学、北京大学的大力支持。大赛旨在为学生提供领先的RDMA编程课程的学习机会,提供先进的软、硬件平台供学生动手实践,通过竞赛的形式来归纳和验证学习效果,最终达到提升学生的HPC和AI实践能力的效果。

(文字:王云岚、赵天海、王翠萍;审核:李春科、马西平)

Baidu
sogou