你的位置:迪士尼彩乐园 > 迪士尼彩乐园ll新板 > >迪士尼彩乐园地址 反英伟达定约的里程碑,UA Link 1.0:崇拜发布
热点资讯
迪士尼彩乐园ll新板

迪士尼彩乐园地址 反英伟达定约的里程碑,UA Link 1.0:崇拜发布

发布日期:2024-04-18 07:38    点击次数:164

要是您但愿可以往往碰头,接待标星储藏哦~

在很早之前,咱们就报谈了UAlink。

该定约于2024 年 5 月由一群供应商培植,其中包括 AMD、AWS、博通、、谷歌、HPE、英特尔、Meta、微软和 Astera Labs,他们觉得天下需要一个 Nvidia NVLink 技巧的绽开替代决策,以允许创建运行大界限 AI 使命负载所需的联网 GPU 集群。

UALink 的会员们但愿创建一个更低廉的替代决策,他们可以自行贬抑和部署超大界限,或者通过创建咱们其他东谈主购买的硬件从中赢利。他们还觉得,天下照旧准备好招待一种可应用于多个供应商的 GPU 的集聚模范,而不需要用户为每个加快器供应商创建专用的集聚孤岛。为了完毕这些主见,UAC 还但愿在大多数组织照旧运营的以太网集聚上开展使命。

在此前的著作中,咱们对此有了深刻的面目。

目下,这个模范的第一个版块,终于崇拜发布。

UALink 1.0:一语气1024个GPU,带宽200 GT/s

据官方先容,这个名为UALink 200G 1.0 的范例界说了 AI 筹划舱中加快器和交换机之间通讯的低延长、高带宽互连。UALink 1.0 范例扶助 AI 筹划舱内最多 1024 个加快器完毕每通谈 200G 的推广一语气,为下一代 AI 集群性能提供绽开模范互连。

UALink 定约董事会主席 Kurtis Bowman 示意:“跟着对 AI 筹划的需求络续增长,咱们很欢悦简略提供一项必不成少的绽开行业模范技巧,使下一代 AI/ML 应用简略推向商场。UALink 是惟逐一款针对推广 AI 的内存语义治理决策,它针对裁汰功耗、延长和老本进行了优化,同期加多了灵验带宽。UALink 200G 1.0 范例带来的龙套性性能将透澈改动云就业提供商、系统 OEM 和 IP/芯片提供商处理 AI 使命负载的模式。”

UALink 为加快器创建了一个交换机生态系统,为新兴的 AI 和 HPC 使命负载提供枢纽性能扶助。它使用读取、写入和原子事求完毕跨系统节点的加快器到加快器通讯,并界说了一组左券和接口,从而为 AI 应用关节创建多节点系统。

英特尔公司集聚和旯旮奇迹部高等副总裁兼总司理Sachin Katti在谈到这个新模范的时候示意:“UALink 是东谈主工智能筹划发展的热切里程碑。英特尔很自爱简略共同引导这项新技巧,并期骗咱们的专科常识来创建绽开、动态的 AI 生态系统。行为这个新定约的创举成员,咱们期待通过 UALink 模范带来新一波行业翻新和客户价值。这一举措扩大了英特尔对 AI 一语气翻新的甘心,包括在超等以太网定约和其他模范机构中担任引导扮装。”

UALink 为加快器创建了一个交换机生态系统,为新兴的 AI 和 HPC 使命负载提供枢纽性能扶助。它使用读取、写入和原子事求完毕跨系统节点的加快器到加快器通讯,并界说了一组左券和接口,从而为 AI 应用关节创建多节点系统。

据定约归来说,UALink 的主要上风包括以下几点:

1

高性能

为一个舱内的数百个加快器提供低延长、高带宽的互连;

提供浅易的加载/存储左券,具有与以太网疏导的原始速率和 PCIe 交换机的延长;

专为完毕 93% 灵验峰值带宽的笃定性性能而筹划;

2

低功耗

完毕高效的开关筹划,裁汰功耗和复杂性;

3

老本效益

使用瓦解更小的芯单方面积进行链路堆栈,裁汰功耗和采购老本,从而裁汰总领有老本 (TCO);

普及带宽成果可进一步裁汰 TCO;

4

绽开、模范化

多家供应商正在开发 UALink 加快器和交换机;

期骗成员公司的翻新来将顶端功能纳入范例并将可互操作的居品推向商场;

UALink 定约总裁 Peter Onufryk 示意:“跟着 UALink 200G 1.0 范例的发布,UALink 定约的成员公司正在积极构建一个绽开的生态系统,以扩大加快器一语气。咱们很欢悦看到各式治理决策行将进入商场,并扶助改日的 AI 应用。”

正如Dell'Oro Group 副总裁 Sameh Boujelbene 所说,AI 正夙昔所未有的速率发展,开启了具有新推广定律的 AI 推理新期间。跟着筹划需求激增和速率条目络续呈指数级增长,推广互连治理决策必须络续发展,以跟上这些快速变化的 AI 使命负载条目。咱们很欢悦看到 UALink 1.0 范例的发布,该范例通过在归并 AI 筹划舱内为多达 1,24 个加快器完毕每通谈 200G 的推广一语气来应付这一挑战。这一里程碑象征着咱们在餍足下一代 AI 基础模范需求方面迈出了热切一步。

究竟是怎么作念到的?

其实当 UALink 小组确当场,其成员关于他们究竟会怎么作念和作念什么有些暗昧其辞。有东谈主说 PCI-Express 和以太网不是合乎的东西,因为照旧作念的事情浅易而优雅,集聚生态系统应该很容易选拔和居品化。制造 PCI-Express 交换机的公司(Astera Labs、Broadcom、Marvell 和 Microchip)将但愿制造 UALink 交换机,咱们将其称为 UASwitch,以差别于筹划引擎上的 UALink 端口。

具体到UALink 1.0 范例,则界说了一种用于加快器的高速、低延长互连,扶助每通谈 200 GT/s 的最大双向数据速率,信号传输速率为 212.5 GT/s,以顺应前向纠错和编码支拨。UALink 可建立为 x1、x2 或 x4,四通谈链路在发送和采纳方进取均可完毕高达 800 GT/s 的速率。

一个 UALink 系统扶助通过 UALink 交换机一语气的最多 1024 个加快器(GPU 或其他),每个加快器分派一个端口和一个 10 位惟一标记符以完毕精准路由。UALink 电缆长度优化为 <4 米,在 64B/640B 灵验载荷下完毕 <1 µs 的往来延长。这些链路扶助跨一到四个机架的笃定性性能。

UALink 左券栈包括四个硬件优化层:物理层(physical)、数据链路层(data link)、事务层(transaction)和左券层(protocol)。物理层使用模范以太网组件(举例 200GBASE-KR1/CR1),并包括使用 FEC 减少延长的修改。数据链路层将来自事务层的 64 字节 flit 打包成 640 字节单元,应用 CRC 和可选重试逻辑。该层还处理开采间音问传递并扶助 UART 形势的固件通讯。

事务层完毕压缩寻址,在施行使命负载下以高达 95% 的左券成果简化数据传输。它还扶助平直内存操作,举例加快器之间的读取、写入和原子事务(atomic transactions),从而保留土产货和云尔内存空间之间的划定。

由于它面向当代数据中心,UALink 左券扶助集成的安全和不断功能。举例,UALinkSec 为整个流量提供硬件级加密和身份考证,辞谢物理批改,并通过佃户贬抑的果真实行环境(如 AMD SEV、Arm CCA 和 Intel TDX)扶助玄妙筹划。该范例允许造谣 Pod 分区,其中加快器组通过交换机级建立在单个 Pod 内抨击,以在分享基础架构上完毕并发多佃户使命负载。而UALink Pod 将通过专用贬抑软件和固件代理使用 PCIe 和以太网等模范接口进行不断。通过 REST API、遥测、使命负载贬抑和故障抨击扶助皆备可不断性。

具体而言,从外到内,UALink 堆栈从略微修悛改的以太网 SerDes 启动,其信号速率为 215.5 GT/秒,一朝磋议到编码支拨,每个 UALink 通谈的带宽就会减少到 200 Gb/秒:

此以太网物理层具有模范前向纠错 (FEC) 并遵从 IEEE P802.3dj 范例。通过单向和双向代码字交汇改善了延长,而况略有变化以扶助 680 字节 flit。(flit 或流贬抑单元是链路级别的数据原子单元。)这是深奥之处,PCI-Express 已随 6.0 范例发生变化并为 UALink 奠定了基础。

跟着 PCI-Express 6.0 的推出,贬抑该模范的 PCI-SIG(主要由主导)不再只是实施模范 FEC(这会大幅加多 PCI-Express 数据传输的延长),而是转向夹杂使用流量贬抑和轮回冗余校验 (CRC) 作假检测,这施行上普及了信号传输的可靠性,同期裁汰了延长。一些智能功能正在添加到 UALink 中,而内存结构不需要的大宗功能并未包含在内。

“咱们从 200 Gb/秒 SerDes 启动,”受老板托付从事 UALink 使命的英特尔商榷员 Peter Onufryk 示意:“它每个端口有四个通谈,速率为 800 Gb/秒,您可以团聚多个端口。您还可以在结构中使用多达 1,024 个加快器,迪士尼彩乐园因此它在咱们所处的空间中可推广性突出高。”

UALink 是一种浅易的左券,因此它不是 PCI Express,但它针对推广结构进行了优化,具有浅易的内存读写和原子操作以及大型操作。它摒除了 PCI-Express 的排序戒指,因此惟一的排序是在 256 字节界限内。但要是跳跃,您可以再行排序。

“UALink 的念念考模式是,它具有 PCI-Express 交换机的延长、PCI-Express 交换机的功率、PCI-Express 交换机的面积,但具有以太网 SerDes。”Peter Onufryk强调。

趁便说一句,1024 个筹划引擎一致性戒指仅限于 UALink 交换基础模范的单层。要是要添加更多层级(这会加多延长),您可以为筹划引擎构建更大的 NUMA 域。

UALink 1.0 范例扶助每通谈 100 Gb/秒和 200 Gb/秒的速率,前者用于构建 100 Gb/秒、200 Gb/秒和 400 Gb/秒的端口,后者用于构建 200 Gb/秒、400 Gb/秒和 800 Gb/秒的端口。咱们不知谈改日的 UASwitch 会有若干个端口,是以咱们不知谈它与任何现存的 NVSwitch 比较如何。但昭着,要是 Nvidia 简略整合端口以从开采中得到更多带宽,那么 UALink 的选拔者也可以作念到。

专为笃定性性能而筹划

在UALink 1.0 的演示文稿中,有一句话很道理,那便是——“专为笃定性性能而筹划,可完毕 93% 的灵验峰值带宽。”这是在之前的尊府中莫得看到过的。

UALink 成员在本年早些时候的演示中示意,UALink 的功耗仅为同等以太网 ASIC 芯单方面积的一半到三分之一(每个端口),而况每个内存结构加快器可从简 150 瓦到 200 瓦的功耗。更小的芯片尺寸意味着更低廉的芯片,更低的功耗意味着更少的电力和冷却消费,从而裁汰举座 TCO。

这些演示还示意,UALink 端口到端口的跳变延长将低于 100 纳秒。Onufryk 示意,字据 PCI-Express 交换机的基数和品牌,PCI-Express 交换机的端口跳变延长最低为 70 纳秒,最高为 250 纳秒。在 21 世纪初的商用芯旋即代,咱们看到 10 Gb/秒以太网交换机的延长为 350 纳秒到 450 纳秒,而泛泛以太网交换机的延长达到 1 毫秒以致 2 毫秒的情况也很常见。与 InfiniBand 交换机 100 纳秒到 120 纳秒的延长比较,这个延长突出高。UALink 定约并未强制实行延长戒指,因此供应商可以自行决定。

AMD 架构与计谋总监、UALink 神情伙同负责东谈主兼 UALink 定约主席库蒂斯·鲍曼 (Kutis Bowman) 示意,UALink 交换机的延长时期在 100 纳秒到 150 纳秒之间“嗅觉合乎”。

“就像任何事情不异,”鲍曼说。“一朝第一批Switch推出,他们就会想办法纠正。咱们可能会看到一些可以的中端数据,然后,跟着时期的推移,他们会把这个数字往左移。”

至于这些交换机的基数(即它们驱动若干条通谈和端口,以及总带宽是若干),这也取决于 UALink 交换机制造商。

“咱们照旧指定了物理层,也指定了数据包如何字据ID路由,东谈主们可以掌握自由地构建,”Onufryk说。“这就像PCI-Express——有些东谈主构建袖珍交换机,有些东谈主构建大型交换机,他们都在致力找到正确的位置。”

从主张上讲,UALink 机架式机柜可能如下所示:

只是因为 UALink 1.0 左券简略扶助 1024 个开采互连的加快器 NUMA 内存域,并不虞味着东谈主们会立即插足其中,启动构建简略推广到如斯界限的东西。(不外,要是有东谈主真的这样作念了,那可就太道理了。)

咱们来望望 Nvidia 有多保守。

表面上,使用 NVLink 4 端口的 NVSwitch 3 结构可以在分享内存池中跳跃多达 256 个 GPU,但 Nvidia 的生意居品仅扶助 8 个 GPU。 借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 表面上可以扶助跳跃多达 576 个 GPU 的内存池,但施行上,仅在 DGX B200 和 B300 NVL72 系统中最多具有 72 个 GPU 的机器上提供生意扶助。而况 Nvidia 在其阶梯图上最大的域(至少目下)在单个内存映像中只消 576 个 GPU 芯片,每个插槽有 4 个 GPU 芯片,每个机架有 72 个插槽。

看起来,在某种历程上,UALink 可能具有扩大界限的上风,但这很猛历程上取决于扶助 AI 处理的全集聚在具异常百个分享高带宽内存的筹划引擎的机器上运行得如何。

热切的是要意志到 UALink 并非 NVLink 的盗窟版。尽管 NVLink 看起来像是 PCI-Express 和 InfiniBand 的伙同体,但它们确乎不同。(而且 NVLink 和 NVSwitch 的出现早于 Nvidia 收购 Mellanox Technologies。)

Bowman 示意:“UALink 和 NVLink 之间存在各别。NVLink 是 x2 的,是以它们老是将两个通谈组合在一皆。UALink 允许端口使用 x1、x2 或 x4,之后你可以组合端口,就像 Nvidia 可以组合 NVLink 端口不异。是以它们之间存在一些各别,天然这些各别很轻捷,但字据你试图构建的系统类型和所需的带宽,它们确乎会有所匡助。咱们觉得,单向 800 Gb,即双向 1.6 Tb,在这些 UALink 开采行将面世的时期段内,提供的带宽富裕了。”

往往情况下,当一项集聚范例发布后,首批使用该技巧的开采插足使用简短需要两年时期。但鲍曼示意,这一次只需要十二到十八个月,因为需求量相等大,而且每个制造 UALink 交换机的东谈主都知谈我方在作念什么。

https://www.tomshardware.com/tech-industry/ualink-has-nvidias-nvlink-in-the-crosshairs-final-specs-support-up-to-1-024-gpus-with-200-gt-s-bandwidth

这些粉丝最新的“理论”是,我们将在 12 月 27 日看到新的预告。传闻最早始于一个游戏相关消息泄密的社交媒体账号对于一位 R 星开发者发布帖子的分析。在照片中衣服上沾着的猫毛形状看起来像罗马数字的“VI”(6)、而毛衣旁的一张纸上是一家名为“27 Auto Sales”位于弗罗里达州(《GTA6》所在地点)的商店号码。

https://www.businesswire.com/news/home/20250408050548/en/UALink-Consortium-Releases-the-Ultra-Accelerator-Link-200G-1.0-Specification

https://www.nextplatform.com/2025/04/08/ualink-fires-first-gpu-interconnect-salvo-at-nvidia-nvswitch/

半导体佳构公众号推选

专注半导体领域更多原创内容

矜恤人人半导体产业动向与趋势

*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或扶助,要是有任何异议,接待连络半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第4089期内容,接待矜恤。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

心爱咱们的内容就点“在看”分享给小伙伴哦



上一篇:迪士尼彩乐园返利 打卡王人市冰雪好意思景,一台悦意03就够了。
下一篇:没有了
友情链接: