ImageVerifierCode 换一换
格式:PDF , 页数:2 ,大小:442.34KB ,
资源ID:155324    下载:注册后免费下载
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://wenku.chochina.com/docdown/155324.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(英伟达下一个“大杀器”20241012(1).pdf)为本站会员(星**)主动上传,搜弘文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知搜弘文库(发送邮件至service@chochina.com或直接QQ联系客服),我们立即给予删除!

英伟达下一个“大杀器”20241012(1).pdf

1、英伟达下一个“大杀器”今天这个料有点猛,GB200、GB300、VR200之后,英伟达还在规划什么?如下图(from肉总)其实相当于,将4个NVL72继续压缩成一个288卡单机柜。这里有太多有趣的点值得咀嚼:1.我第一反应是,这玩意靠谱吗?问了特别敬佩的一位美国大哥,他之前就参与过IBM大型机研发,当时GB200出来他提出了很多尖锐的问题。他看完这个288卡“怪物”竟然觉得,make sense.因为模型工作负载的重心变了.2.什么样的负载?显然是推理。训练时代,后向传播需要超大规模的模型并行,从而强调大集群、机柜间互联(inter-rack);而推理,尤其是小模型、多步推理,强调的不是大集群

2、,而是局部强互联,或者“超节点”(intra-rack)。之前文章曾经说过,HBM解决了访存带宽最高性价比,而成本、能耗更低的铜缆实现的超节点,解决了单机柜内卡间互联最高性价比,从而大幅降低推理成本(从pre-fill和decode两个推理的进程来看,推理成本的本质是带宽成本)。从最近模型进展来看(尤其是o1),NV这种超节点大机柜的确定义的非常精准。3.其次,铜缆的生命周期可能比想象中长。这不是光和铜谁替代谁的问题,而是AI下游工作负载迁移的问题.任何产业都会从研发走向“生产部署”,而推理占据90%以上负载可能只是时间问题。而推理更强调局部互联,说到底,铜缆是目前低成本、低功耗、高稳定性地实

3、现局部互联的最佳方式。因此不用讨论Rubin还用不用铜缆,铜缆可能会持续很多代。黄仁勋2天前和ARM CEO有个播客建议大家去听,其中提到一句:“尽可能长时间的使用铜/电传输,从而降低成本和复杂性”4.之前8机柜576卡互联的问题得到了解答。之前按照GB200机柜之间的距离,用无源铜缆连接是不可能的。而按照这个示意图,相当于把NVL72机柜进一步压缩,机柜之间的距离,拉到了甚至 1 米以内,也就是无源铜缆可以覆盖的距离,从而实现了L1层网络全铜连接。而铜缆可以实现的NVLink domain,从72扩展到了288,关键问题来了,这需要一个超强的交换机,没错,是个288 High radix s

4、witch.5.散热如何解决.这可能是我最大的疑问。毕竟现在NVL72的散热就搞了好久.而图中这个设计,的确是100%水冷,但288卡塞到一个rack(暂时不知道这是多少U或者多高的机柜),还是难以想象。其次,这个单机柜功耗是1MW.什么概念,目前GB200是120kw,已经需要新建IDC,那么1MW这里画一个大大的问号。6.系统稳定性如何?如果这次GB200遇到的问题最终解决(散热、铜缆、cowos-L),有可能给Vera Rubin以及这个288卡“怪物”铺平了路。从Blackwell这次的delay可以看到,芯片每年一迭代的难度是极大的,但在软件和系统层面每年做优化却简单很多,通过boa

5、rd level的集成实现性能飞跃,可能的确是更稳妥的一条路。7.最重要的问题,这玩意,可以再把推理成本降低多少?不知道定价、精度等因子,如果只看单机柜的性能perf,可以非常粗略的计算,288卡、单卡假设4颗die、NVlink假设至少翻倍、HBM也至少翻倍,整个机柜的性能应该是GB200的至少30倍.而从perf/W的角度,大概提升了4倍的能耗效率。因此,回到我们那句老话,英伟达是“因”而不是“果”,是NV在推动行业的进步,将o1这种reasoning model的成本再降低一个数量级,maybe可以让应用的诞生更快一点.8.最后,总结下未来3年的英伟达产品线:2025H1行业大规模部署GB200,2025H2部署GB300/GB300A,2026部署Rubin系列的VR200,2026年底或者2027部署这个288卡的“Rubin-Next”。未来3年推理成本下降曲线清晰可见。最 后 要 声 明,图 中 所 示,is early concept to illustrate direction,not finaldesign”,即NV的早期设计概念。不过目前看下来,相对靠谱,符合下一步推理负载的演进趋势,也依然延续着NV“系统性能数量级提升”的老路。GB200高强度拉练了一遍供应链,快速扫清了茫茫多工程障碍,之后“系统压缩”这条路可能也相对顺畅一些。(完)

Copyright@ 2010-2023 搜弘文库版权所有

粤ICP备11064537号