9 月 24 日至 26 日女同 a片,第 20 届 CCF 宇宙高性能计较学术年会(CCF HPC China 2024)在武汉市中国光谷科技会展中心举行,主题为"华章廿载 新质改日"。
本届大会由 12 位院士领衔,联袂了来自算力畛域的 400 多位顶尖学者,进行学术调换和专题分享。值得一提的是,这次参会东谈主数也创下往届新高,总额打破 4000 东谈主。
在当下的智算时期,面对软硬件兼容复杂、测验集群故障频发、可用算力成果不高、电力及空间扫尾等算力联系"卡脖子"的问题,多名业内大佬叙述了自己分解。
在相连海表里发展的判断下,他们也先后张开了包括"高通量以太网 ( ETH+ ) ""晶圆级变结构计较""类脑算力"等在内多种解法的分享和探讨。
值得一提的是,联系于全球市集中"算力的终点是电力"的近似躁急,在会上也出现了不同的声息——中国工程院院士邬江兴超越强调了"用电力拼算力"这一发展范式的不能握续。
另外,AI 科技指摘瞩目到,行为一年一度为超算、智算、数算等提供学术调换契机的平台,在本年的 CCF HPC 中,"超智交融"被一众大咖反复说起,成为本届大会最明显的特色。
这亦然在不少业内东谈主士的预判中,改日经管国内计较瓶颈的要紧旅途。
超算是不错用来测验 AI 的,而国内过往在超算畛域的丰富辅导集会,需要移植到智算畛域中来,超算和智算走向交融决然成为势在必行。
这一趋势的出现,也标记着 HPC 由传统通用计较主导的科学计较,渐渐过渡到了异构加快的 AI 计较新时期。
需要眷注的是,连年,关于"算力网"这一主张的呼声走高也同超智交融息息联系。这亦然基于中好意思需求各异的洞悉下,更为稳妥国内算力市集近况的经管决策之一。
算力的瓶颈与破局之谈
刻下女同 a片女同 a片,国内在算力集群之上已有不少千卡、万卡级别的实践,但要罢了十万卡,致使超万卡的打破仍颇具挑战性。
国产算力究竟还有哪些"卡脖子"的问题?在这次 CCF HPC China 2024 上,业界大咖王人聚一堂对此作出照应,与此同期,也带来了多种不同的解题想路。
"大算力需要大集群的膨大,但大集群并不一定能够提供大算力",高通量以太网定约履行主席、中国科学院计较技能副研究院王展分析。
"今天基于并行的计较范式,关于每次的计较迭代来说,完成之后 GPU 之间都要通过全局参数和提督同步材干进行下一轮迭代,这种同步通讯的特质决定了测验集群很强的‘木桶短板’效应,任何少量拥塞、故障,都会导致扫数这个词集群测验性能的亏蚀或着落。"
是以,"为了让大集群获取好的算力,提高算力的线性膨大度,需要作念许多方面的优化责任,包括上头的算法、通讯框架、并行的计较阵势,以及计较和网罗协同,存储和网罗的协同等等。"他总合髻现,"其中最中枢的需求是需要一个肃肃高性能的网罗互联。"
客岁,大模子的兴起带动了算力需求的普及,而王展不雅察到,"彼时,许多头部互联网和云计较公司都还莫得基于以太网熟习的经管决策,一时候业内唱衰以太网,认为只须 InfiniBand(IB)才不错提供高性能的网罗互联。"
发展至本年,"高通量以太网(ETH+)"渐渐走向主流舞台,也在本年的大会上再度引来一波热议。而从国外巨头的动向来看,据王展闪现,AMD 发布的 UALINK 定约也或将改为以太网:
"面前,AMD 取舍的是 Infinity Fabri(IF )的私有公约,在作事器里面是基于全互联,而它下一步的 GPU 一定是取舍 Infinity Fabric Switch 放在作事的外部,这方面如何构建将成为行业要紧风向标。"
不外,"高通量以太网(ETH+)"只是是经管想路之一,邬江兴给出的"答卷"则聚焦于"晶圆级变结构计较"。
在他看来,国内算力发展还有着以下难点:
一是性能增长与算力需求的矛盾突显;二是收复论阵势导入带宽、时延和单元算力密度的插损;三是刚性计较架构变成总体成果低下;四是存储门径限度机理存在安详性安全矛盾。
刻下,晶上计较正成为大畛域、低功耗、高密度、高性能计较系统主流,这少量从世界主流厂家的布局中不错窥豹一斑——
2019 年,好意思国 AI 芯片独角兽 Cerebras Systems 首推晶圆级处理器 WSE 系列挑战英伟达。2021 年,特斯拉也推出了晶圆级 Dojo 处理器,此外,也包括英特尔的 M2+ 晶圆级组装、台积电的 TSMC-SoW 等等。
而和前述布局稍有不同的是,邬江兴请教了"软件界说晶上系统(SDSoW)"的新主张。
他建议了一个" SMV 逆境定理",即执行技能物理环境在称心全生命周期可膨大性前提下,任何单一技能体制都不能能在 S、M、V 三维空间内同期达到最优,这亦然刻下国产算力发展之时,所面对的计较架构单一性与算力需求种种性的矛盾所在。
针对这一"不能能三角","变结构计较"则是要害打破点。据邬江兴先容,变结构计较的第一性旨趣为软件界说的节点 + 互联,SDSoW 则是这一解法的物理罢了载体。
不同的算力处理特征适用场景各有各异,于是芯片也需要罢了异构交融,这也同东谈主脑处理任务具有相似之处。沿着这套逻辑,"类脑算力"的主张也成为刻下业界前沿的想考之一。
"类脑处理器(BPU)愈加接近生物脑信息处理特征,相比适用于一些密度比高的矩阵和荒芜矩阵,以及学问图谱、能源学方程的运算,处理非结构化赶紧排布的数据运算更有成果。"中国科学院院士张旭如是说谈。
女同a片刻下,在全球范围内均有类脑计较联系布局——客岁年底,广东智能科学与技能研究院发布了天琴芯类脑晶圆计较芯片,本年 4 月,英特尔也发布了 Hala Point 大型神经拟态系统。
不外,类脑芯片在功耗上能够占据一定上风的同期,关于老本问题,在业内仍有部分费神的声息存在。
另外,值得一提的是,电力亦然算力发展经过中屡屡被强调的要害一环。
"我在一年前瞻望过芯片穷乏,而下一个穷乏的将是电力,来岁将莫得充足的电力来运行扫数芯片。"特斯拉首席履行官埃隆 · 马斯克曾发表过这方面的担忧。
无特有偶,此前,OpenAI 独创东谈主山姆 · 奥特曼曾经建议近似告诫:"下一波生成型东谈主工智能系统浪费的电力将远远超出预期,能源系统将难以支吾,改日 AI 的技能取决于能源,咱们需要更多的光伏和储能。"
好意思国科技巨头们的躁急尽显,国外研究机构曾有回报称,ChatGPT 每天要反应大致 2 亿个恳求,在此经过中浪费越过 50 万度电力,这基本荒谬于 1.7 万个好意思国普通家庭的用电量。
针对国内情况,邬江兴在会上对此发表了不同看法,他强调了"用电力拼算力"这一发展范式的不能握续。"算力的极限不是电力,不应该是电力,电力撑握不了算力的握续发展。"邬江兴坚握认为。
「超智交融」已成势在必行
本年以来,"超智交融"也已成为业界世俗认同的国内 HPC 新趋势,这少量在本次大会上体现尤为显然。
"超算是不错用来测验超大模子的",清华大学计较机系西席陈文光在演讲中提到,"昔日,我国在超算上是有很好的基础的,那为什么到了智算时期,扫数东谈主都认为咱们逾期了许多,是不是不错把超算畛域的辅导移植到智算畛域里面来,通过‘超智交融’的表情。"
他也在过往实践中考证了这一不雅点的可行性——
"咱们在新神威计较机上研发了一个大模子测验框架叫‘ Bagualu ’,不外之前莫得说要去超智交融,是以在双精度算力和半精度算力上头只作念到了 1:4。然则如果这台机器能作念到 1:16,用来作念 AI 测验的话也会有一定竞争力。"陈文光说谈。
他认为,超智交融或为经管国内算力瓶颈的要紧途径:
"确乎超算昔日只须科学和工程计较行为主要的应用,靠近买卖用户相对来说是相比少的问题,如果能够作念到很好的超智交融,也能给国产超等计较及的买卖应用,提高扫数这个词的投资成果起到很好的作用。"
并行科技董事长、CCF 副理事长陈健关于"超智交融"的趋势也有近似的感受。
在他看来,"在 AI 的进化史中,较万古候内咱们相识 AI 是 AI,超算是超算。但从客岁运转,AI 的大模子测验需求暴涨,这是典型的并行计较应用,底层需要超等计较机,是以 GPU 为主的超等计较机。其实超算也并不是说只须 CPU 的超等计较机,咱们去看 top500,70% 是英伟达和 AMD 的 GPU 搭建起来的超等计较机,主要的算力是由 GPU 来构成的。"
自"百模大战"打响后,昔日两年,业内不少实践发现,传统的基于云主机、捏造化所搭建的云作事平台,面对大模子测验并分辨适,而最要害的少量在于,莫得经管卡与卡之间性能的问题,也等于超算中常用的带宽问题,或者说计较与通讯的比例关系。
陈健将刻下大模子的算力需求转头为以下方面——超大畛域大模子测验供不应求,包括微调在内的老例的大模子测验供大于求。
关于老例大模子测验,面前看到的情况是:"本年上半年好像有 140 多个智算中心在建,宇宙在测度打算中的共有 250 多个智算中心,这部分算力搭建出来之后,好像率是 2000 卡以下的集群,而当今这么的需求正在萎缩。"
其中,要害原因在于两方面——"卷"基础大模子的厂商变少以及跟着基础大模子版块的更新迭代,许多行业模子的存在价值正在隐藏。
刻下,业内联系"算力网"建设的号召,则是在对"超智交融"这一趋势的预判之下给出的经管决策,对此,大会现场也有不少联系照应。
国防科技大学院士王怀民先容谈,"超算与智算交融不仅体当今算力中心,还出当今更世俗范围内算力中心资源的有用贯串和分享,是以咱们都在呼叫中国算力网的出现。"
这亦然由中好意思需求上的各异所决定的,好意思国的算力主要聚合在云作事商手里,通讯运营商并莫得很强的算力,也并莫得强调建立算力网,而是期骗分散式的系统和编程话语技能来经管云的孑然的问题。
中国工程院院士李国杰以天外实验室为例先容了好意思国确刻下情况——
" Spark 的发明东谈主 Ion Stoica 组建了一个 SkyComputing 实验室,2022 年清雅启动,主若是想经管云作事平台的孤岛问题,想要发展成一种环球作事。主要包括三层平台,兼容层掩盖云之间的各异,云间层寻找不同作事的最好性价比,互惠平等层则主要罢了免费和快速地在云间传输。"
说回到国内,据李国杰不雅察,刻下,由于在测验经过中需要通常交换模子参数和梯度信息,是以罢了反向传播的延伸平方要限度在毫秒级以下,国内的龙头企业都在作念撑握 10 万 GPU 卡以上畛域的大模子,但取舍的都是相对聚合的集群系统,并莫得取舍他乡分散式计较。
"他们的集群一般装在一个园区,可能有几个楼,分红几个计较岛,岛里面进行张量并行和活水线并行,岛之间作念数据并行。但数据并行有个大问题,它条款一个 GPU 就要把扫数这个词模子参数存起来,GPT4 有 1.8 万亿参数,可能需要 10 个 TB 以上的内存,这个老本相当高。"他说谈。
同期,他还暗意,"在西部建许多小的超算中心、智算中心,聚首起来就不错经管咱们国度的东谈主工智能测验问题,这么的宗旨可能并不太靠谱。"
较为可行的解法还是"算力网"。
在李国杰的想象中,"算力网要证据智能时期的基础设施的作用,也需要像有浏览器、微信相似的全民的普及应用。"
刻下算力提供商、政府及学界纷繁在号召算力网的建设,在这方面也作念出了不同的奋勉:
运营商布局云网交融,方位政府建算力要害中心,计较机界则聚焦于分散式计较的基础研究,举例,中科院计较所在作念信息高铁名堂、刘韵洁院士在作念笃定性计较网罗、蒋昌俊院士在作念生动性的方舱计较。
不外李国杰也发现,面前,信得过需要这种费力算力的要害用户到底在哪,暂时还不是很明晰。
改日,在用户需求洞悉的基础之上,前述各方布局不错形成一定协力。
"最热切的少量在于为需要几百卡、几千卡作念测验的中小模子单元找到合适的算力,如果把这件事信得过作念好了,就能打磨出算力网的 1.0 版块。几年后,推承诺比测验需要更多算力,比及当时再升级 2.0 版块的算力网。"李国杰预判。
刻下,算力网的概括还波及以下四个问题:一是若何合资定名资源空间,也等于罢了算力资源的池化;二是若何提供一个万维网网页相似的运行式概括;三是若何提供一个合资的编程秩序;四是若何系统性评价算力网的性能。雷峰网雷峰网