近期,第十一届亚太区RDMA编程竞赛的最终结果在CCF全国高性能计算学术年会(HPCC 2023)揭晓,西工大计算机学院高性能计算中心指导的西北工业大学参赛队荣获本届RDMA编程竞赛唯一的一等奖,也是继去年获得冠军后,再次摘冠!截至目前,我校在该项赛事中已经四次荣获一等奖。
2023年获奖证书
2022年获奖证书
本次竞赛共有40多支来自亚太区各个大学和科研机构的学生团队和10多支来自亚太区科技企业的团队参加,竞赛共设置一等奖1名、二等奖2名、三等奖3名。我校队员为计算机学院学生王靖元、董章祺、孙东、吴锦皓以及教育实验学院学生张阳,团队依托西工大超级计算机系统创新实践基地,计算机学院高性能计算中心教师赵天海、王云岚、谷建华、侯正雄指导。
第十一届亚太区RDMA编程竞赛颁奖
RDMA(Remote Direct Memory Access)技术允许程序通过网络直接访问远程主机的内存,具有低延迟,高带宽的特点。RDMA技术已广泛应用于超算中心、云计算中心和人工智能计算中心等。西工大超级计算机系统创新实践基地依托高性能计算中心的计算平台,通过组织和鼓励学生参与RDMA编程竞赛,使学生能够深入接触HPC领域最前沿的技术和工具,培养学生的团队合作意识和应对挑战的能力,也提升了实际问题建模、应用系统设计和编程实践水平。
Reduce/Scatter通信是当前热门的大语言模型应用训练中最关键的通信操作之一。借助该通信操作,可以在模型的多卡分布式训练中将各GPU卡训练获得的梯度值进行聚合,并把计算结果分片分发各GPU,最后由各GPU更新神经网络模型参数并通过Allgather操作同步后开始下一轮迭代训练。对于具有海量参数的大模型训练,使用Reduce/Scatter可支持大规模并行,提升模型训练效率。
在比赛过程中,西工大参赛队通过先进的网络计算技术对Reduce/Scatter进行了优化,提出了基于在网计算的分层Reduce/Scatter算法,并在集合通信库中实现,使其能够利用可编程交换机的在网计算能力以较低的时延完成集合通信操作,算法能够支持大模型训练中的并行梯度数据聚合。
参赛同学表现出了卓越的创新精神和高超的编程能力,最终使Reduce/Scatter集合通信性能得到了显著提高,该成果有助于提升大模型时代AI训练的规模和效率。队长王靖元同学受到RDMA竞赛组委会的邀请,在HPCC 2023的The New RDMA For LLM Era论坛分享了竞赛心得和Reduce/Scatter算法的优化实现技术。
参赛同学在HPCC 2023分享RDMA竞赛心得
亚太区RDMA编程竞赛是由国际高性能计算和人工智能咨询委员会主办的面向亚太区高校大学生的国际性大赛,得到了PC集群联盟(PC Cluster Consortium)、中国科学院计算科学研究所、清华大学、北京大学的大力支持。大赛旨在为学生提供领先的RDMA编程课程的学习机会,提供先进的软、硬件平台供学生动手实践,通过竞赛的形式来归纳和验证学习效果,最终达到提升学生的HPC和AI实践能力的效果。
——记西安建筑科技大学赴山西省晋城市高平市赓续城乡遗产暑期社会实践团 青年当挺膺,奋发高平行 2023年5月,习近平总书记在山西考察时指出,要认真贯彻落实党中央关于坚持保护第一、加强管理、挖掘价值、有效利用、让文物活起来的工作要求,全面提升文物保
近日,西安交通大学能动学院“能动‘碳’路队”社会实践团深入甘肃、青海等地,围绕新质生产力与“双碳”目标展开了一系列丰富多彩的调研活动。通过政产学研四位一体的深度探索,实践团成员们不仅增长了见识,拓宽了视野,更为助力国家实现碳达峰、碳中和目
题目:寒假安全记心间,快快乐乐迎新年 来源:曹堡村村主任助理 作者:文/张啸凝 肖晓纪 图/张啸凝 肖晓纪 为了让曹堡村的孩子们过上一个安全、充实且有意义的寒假,1月13日曹堡村村主任助理张啸凝同学和肖晓纪同学在曹堡村村委会会议室开展“寒假安全记心间
在五四青年节到来之际,习近平总书记代表党中央,向全国广大青年致以节日祝贺和诚挚问候,并寄语新时代青年奋力书写为中国式现代化挺膺担当的青春篇章。西北工业大学第一时间响应,以组织师生研讨学、引领青年沉浸学、带动青年感悟学等方式学习贯彻习近平总
走在教育强国大路上·聚焦人才自主培养 “音乐艺术如何进行定量分析?”“旋律背后蕴含着怎样的数学特征?”……在西安交通大学“科学与艺术的交汇”课上,学生们一边听着莫扎特的《D大调第二长笛协奏曲》,一边思考着艺术背后的科学思维。 西安交大钱学森学