当前位置：首页 > 科技 > 正文

一文了解'智算中心'方案设计-中篇

启示号
科技
7个月前
58

七、方案设计—算力规划

智算中心方案的核心就是算力规划，算力的单位是什么？用GPU的哪个精度来算呢？不同的发展阶段，对算力默认定义是有差异的。结合个人理解概况如下：

1、HPC视角：我们以FP64算力精度作为标准，早些年以CPU芯片为主（CPU核心*主频*系数），后来随着GPU技术发展，以NV Tesla系列GPU为例使得算力规模和密度大幅提升。

一文了解

2、智算中心：智算中心以AI为主，常见场景有训练和推理，对算力精度的需求也有差异，如下图，常见的有FP32、TF32、FP16、BF16、INT8等，

一文了解

GPU卡的算力通常有多个数值，主要是因为在不同的浮点精度上表现的算力(每秒计算次数)是有所不相同，比如我们通常将FP16（半精的）作为智算中心方案的算力标准精度，当然部分客户要求必须是稠密算力，有的客户接受稀疏算力，以A800为例，它的 FP16 稀疏算力为624T，稠密为312T，如下图所示。

一文了解

八、方案设计—算力的规划

算力规划的核心是产品选型和数量确定，而前提是要了解算力的类型、规模和用途

结合个人经验和网上公开的资料整理如下：

考虑因素

具体分析

备注

1、算力用途

我们以训练需求为例

2、算力类型

我们以N卡算力为例举例

3、算力规模

我们以算力租赁的需求举例

举例

具体的算力规模：以1000P为例，我们以H100 整机为单位，每台可提供FP16 稀疏算力16P

九、方案设计—算力的常见问题

算力规划时往往还需要和大模型的训练相结合。还需要了解以下问题：

能否根据具体的模型参数量，结合算力的规模，计算出训练所需时间？

能否根据具体的模型参数量，计算出训练、推理场景对GPU显存大小的需求？

能否根据GPU单卡算力和卡间通信带宽推算最佳的并行方案，并用于卡的选型和集群网络方案设计？

情况1：根据主流的模型数据量大小，结合客户算力规模，计算出训练所需时间，从而定制最优算力方案

一文了解

情况2：能否根据具体的模型参数量，计算出训练、推理场景对GPU显存大小的需求？

一文了解

情况3：根据卡的算力和带宽推算最佳的并行方案，并用于卡的选型和集群网络方案设计

一文了解

十二、方案设计—NV卡的常见参数一览

一文了解

十四、智算中心网络需求分析

1、智算中心-网络方案背景：

智算中心核心业务场景-大模型训练中大规模的参数对算力和显存都提出了更高的要求。以GPT3为例，千亿参数需要2TB显存，当前的单卡显存容量不够。为了缩短训练时间，通常采用分布式训练技术，对模型和数据进行切分，采用多机多卡的方式将训练时长缩短到周或天的级别，算力集群成为必然，通过网络将多台节点构建出一个计算能力和显存能力超大的集群。

一文了解

2、智算中心-网络需求分析：

联接这个超级集群的高性能网络直接决定了智算节点间的通信效率，进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量，高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。

十五、智算中心-低延时的RDMA网络

RDMA技术-降低多机多卡间端到端通信时延。RDMA可以绕过操作系统内核，让一台主机可以直接访问另外一台主机的内存。实现RDMA的方式有、、、iWARP四种。其中技术已经被淘汰，iWARP 使用较少。当前智算中心的RDMA技术主要采用的方案为和两种，下图为RDMA 通信示意图。

一文了解

IB和与传统IP的端到端时延在实验室的测试数据显示，绕过内核协议栈后，应用层的端到端时延可以从 50us（TCP/IP），降低到 5us（RoCE）或 2us（IB）。

一文了解

十六、智算中心-高带宽需求等

高带宽需求：RDMA解决了低延时，但是在进行计算任务时，GPU主机集群内部的计算节点需要将计算结果快速地同步给其他节点，以便进行下一轮计算。在结果同步完成前，计算任务处于等待状态，不会进入下一轮计算。如果带宽不够大，梯度传输就会变慢，造成卡间通信时长变长，进而影响加速比。

一文了解

1、稳定性需求：由于计算量比较大，分布式训练任务有可能需要数天或数周。在训练期间如果出现网络不稳定的问题，会影响整个训练任务的进度。

2、大规模需求：分布式训练中要使用千卡或万卡规模的 GPU 来缩短整体训练时长。这就需要智算网络能够具备支持大规模 GPU 服务器集群的能力

3、易运维需求：在成百上千张GPU卡的智算集群中，集群的可运维性、可管理性是需要重点考虑的维度。

十七、智算中心网络方案-IB和ROCE对比

RoCE方案相对于方案的特点是通用性较强和价格相对较低。除用于构建高性能 RDMA 网络外，还可以在传统的以太网络中使用。但在交换机上的、PFC、ECN 相关参数的配置是比较复杂的。在万卡这种超大规模场景下，整个网络的吞吐性能较网络要弱一些。

一文了解

从技术角度看，使用了较多的技术来提升网络转发性能，降低故障恢复时间，提升扩展能力，降低运维复杂度，和对比，各有优劣势；

一文了解

十八、智算中心网络方案-IB相关产品

网络的关键组成包括IB交换机、 IB网卡、IB连接线缆及子网管理产品等。

2021 年，推出了的-2 系列交换机（64*400G）。交换机上有32个 800G OSFP接口，需要通过线缆转接出64个400G QSFP。

一文了解

支持网卡的厂家以为主。下图是当前常见的网卡。网卡在速率方面保持着快速的发展。的和的 NDR的网卡也已经开始商用部署。

一文了解

十九、智算中心网络方案-IB互联和胖树架构

IB组网通常采用无阻塞网络设计，其关键是采用 Fat-Tree（胖树）网络架构。交换机下联和上联带宽采用 1：1 无收敛设计，即如果下联有32个的端口，那么上联也有 32个的端口。

一文了解

不同网络架构容纳的 GPU 节点数量

两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同（这里默认GPU和IB网口数量是1：1）。在上图中 N 代表 GPU 卡的规模，P 代表单台交换机的端口数量。比如对于端口数为 64 的交换机，两层胖树架构可容纳的 GPU 卡的数量是 2048卡，三层胖树架构可容纳的 GPU 卡的数量是 65,535卡。

一文了解

网络需要专用的线缆和光模块做交换机间的互联以及交换机和网卡的互联。

二十、智算中心网络方案-举例

网络规划的原则是先确定GPU服务器的数据，再根据每台的网卡数和网卡类型计算组网情况，以256台实配8张400G的服务器为例，共计2048个网卡，这里要以网卡数据为单位进行规划。

1、计算公式：用2048÷32=64，计算出leaf交换机数量，64÷2=32，向上取整数得出32，总计96台；

2、交换机互联用的双口模块：=2048个，因为每对用2根MPO线缆，所以线缆数也是2048；

3、因为是32个双口400Gb，所以需要1024根Y型线缆，转出来2048个接头用于网卡互联。

一文了解

你可能想看：

一文了解肺结节？

边界清楚的、影像学不透明的、直径≤3cm、周围完全被含气肺组织包绕的单发或多发的肺部结节，依据在CT下肺结节能否完全遮盖肺实质可将肺结节分为实性结节和亚实性结节，感染性病因、良性肿瘤、血管性病变以及结...

设计中如何形成视觉冲击力，吸引注意

人的视觉已经越来越能适应一些出乎意料画面。把一个物体放大到比比视觉常规的尺寸更大，近似形态在栅格或网格中得到重复。同时视觉的往返和重复中起到强化的设计效果：高纯度的色彩需要低保和色彩来相互映衬，比如冷...

平面设计中五种对齐法则的使用

但是这种对齐方式不破坏文字本身的起伏和韵律，文字采用左对齐更合适。由于左对齐方式比较容易阅读，最好采用左对齐的方式排版。无论手机APP文字或Web文字都采用的左对齐方式。APP的设计中的列表信息展示采...

版式设计中标题间距的使用法则

字距与行距横向的字间距与纵向的行间距的关系：请保持行间距的高度＞字间距的宽度。字距默认增大时，字体的默认的字距也会随之一起放大，解决办法就是缩小文字之间的距离，（对于较粗的字体需要适当增加字距，以使...

国医大师李济仁的“补心方”，通治各型冠心病，很实用

患者感觉心痛、胸闷有所减轻，李师把党参换成了红参10克（炖服）。加上肉桂、附子、枳实和枳壳。枳实和枳壳干是行气开郁的？这个人有心气不足和心血瘀滞的问题，心血瘀滞的问题是，所以他胸闷、心痛，他睡不好觉是...

初中数学：角度计算中11个经典模型

(1)利用平行线的性质”和三角形外角性质可得出结论，和三角形外角性质可得出结论.，本题考查了平行线的性质、三角形的外角性质，熟练掌握平行线的性质，作辅助平行线是解答的关键.，再根据平行线的性质即可得γ...

一文带你了解！普通框架眼镜、角膜塑形镜（OK镜）、近视离焦眼镜的区别

如散瞳验光发现有近视”如果自然瞳孔下验光有近视，而散瞳验光没有近视，目前青少年近视还没有方法可以治疗，验配框架眼镜、OK镜或新研发的近视离焦眼镜来延缓孩子近视度数加深，近视了戴镜框眼镜能延缓近视的加深...

关于男性前列腺（中篇：前列腺增生、肥大）

前列腺增生（肥大）：1、前列腺增生最典型的表现，晚间尿频（指的是次数多但每次量都一点点，易结石及有相关肾方面的疾病：3、以下症状你经常吗，一小时左右就要去尿（尿频）：排尿线条间断；排尿困难：憋不住尿，...

董旄中篇原创小说《落花时节》

我从不敢相信这世界上真的会有。这里面的一切都不过是作者在酒足饭饱、闲极无聊的时候和自己开的一个美丽的玩笑，籍此游戏过自己那毫无价值的光阴，但手头正无事可做的朋友则不妨继续的看下去。又一个春天在不知不觉...

农药复配小技巧（中篇）

在灭杀幼草、防治阔叶和禾本草有显著效果。建议用3%中生菌素1000倍、或20%噻菌铜500倍、或者20%叶枯唑1000倍等喷雾防治，建议用80%噁霉灵.福美双20克加磷酸二氢钾30克叶面喷施，建议发病...

各大国实力最强的省级行政区大比拼（中篇），大伦敦竟排在了榜尾

该州是欧洲经济产值仅次于法兰西岛的”依靠着居欧洲之中的地理位置、附近丰富的煤铁资源，随着全球重化工业产品的过剩加上鲁尔区自身的环境污染，巴西的圣保罗州是南半球经济总量最高的省级行政区，同时其首府圣保罗...

Excel教程：统计中国式排名的三种方法，一定有一个适合你

=RANK（要排名的数据，既然使用RANK函数的结果不是中国式排名，下面就为大家介绍三种得到中国式排名的方法：一、SUMPRODUCT+COUNTIF的公式方法第一种方法需要用到SUMPRODUCT和...

三星的计中计与局中局

日本同时拥有成熟的等离子与液晶技术，其主导了2001-2006年期间市场上的液晶面板价格。三星布局 2004年三星索尼合作成立合资工厂S-LCD索尼占股49%三星占股51%，三星以极低的价格对索尼...

应急预案、处置方案、演练方案、处置卡”1000份汇编

应急预案及处置方案24项，现场预案及处置方案200页（43项）300项现场应急处置方案、流程卡2021版生产安全事故应急预案新版企业应急预案示例（参考）应急预案事故风险评估报告应急资源调查报告

学生信息道德培养活动设计方案

为此我校开展信息道德教育活动，广泛宣传国家互联网管理使用及网络安全等法律法规，引导学生运用信息知识解决信息问题，自觉抵制网络不良信息。信息能力是指运用信息知识，技术和工具解决信息问题的能力，它包括信息...

结构设计均衡胶厚对于注塑成型的影响以及改善方案

均衡胶厚指的是注射成型时胶厚在模具系统内冷却硬化时间要均衡，壳体的壁厚对部件的很多关键特性的影响至关重要，设计阶段优化的壳体厚度可以降低后续可靠性测试的风险，但增加厚度会对手机的外观。缩水现象是指由于...

总经理总监，55页《薪酬制度设计方案汇报...

55页《薪酬制度设计方案汇报》干货课件分享，薪酬制度设计的总体思路，统一薪酬管理体系，强化岗位管理，突出绩效驱动，为实现公司目标提供有力支撑。1、分配政策需要解决的主要问题，2、新分配政策的主要特点，...

服装设计的学习方法（转自一个在职设计师的心声0

很多朋友都觉的学服装设计很难的，那是他们根本不清楚现在服装公司对服装设计师都什么样要求!那是因为他们没有找到科学合理的学习方法，要清楚服装公司对设计人才的要求/ `+ K. {7 q,要会画公司认可的...

宇宙是被精心设计出来的吗？是谁设计了宇宙？

比如拦截宇宙辐射保护地球生命的大气层”我们再也找不到任何一个与其相似或者一样的可以构成生命的星球”月球和地球的关系与地球和太阳的关系与太阳系和银河系的关系何其相似。简直就像是一个等比数列计算下来的缩小...

通用设计，为所有人服务的设计

不论年龄、体型、身体状况是否良好等都能够最大限度地接受、理解以及使用的环境的设计组合。通过考虑整个设计过程中所有人的不同需求和能力，针对通用设计的理念提出不同的设计原则：通用设计能够将具有不同身体条件...

庭院设计 | 小院子这样设计就不再显得院子小了！

今天园宝为大家带来的几个小庭院设计案例，都是设计非常简约的庭院，周围种了一圈绿植做环绕性的装饰，整体大面积用了植物做装饰。花园的一端设计了用文化石堆砌的水景台，庭院细看的话设计非常简单。庭院地面铺设了...

产品结构设计·车载摄像头的防水结构设计

车载摄像头防水结构设计主要考虑以下四个部位的防水：车载摄像头的防水主要是通过O型圈和硅胶防水圈，根据防水功能分为防水镜头和不防水镜头，需要在壳和镜头之间安装O型圈来实现防水功能，只要保证玻璃防水即可，...

2020中国十大建筑设计事务所中国十大建筑设计公司排名

所参加过的新项目有中国香港峰顶城市广场、洛杉矶、上海中骏天悦等这种著名工程建筑，　　华建集团是全世界150强之一的建筑工程设计上市企业“中国气候谷、中国香港瑞吉酒店和中国香港启案当代住房等有名的建筑全...

流程主战系列：02 流程需要顶层设计，如同房子要先设计再施工

很多公司的流程碎片化，打补丁或者流程运作与行政架构冲突，流程被设计的脱离客户体验，深层次原因多是缺乏顶层设计的一盘棋考虑或者违反了流程框架，流程需要科学的顶层设计：流程为谁服务的问题，高阶流程决定组织...

【原】辽宁洗浴中心，一对父子的不堪行为曝光：每个“熊孩子”背后，都有一个“熊家长”

一位父亲带着他4岁的孩子到洗浴中心洗澡。当父亲发现了孩子的行为，就想带着孩子悄悄离开。但这争执的一幕幕却被年幼的孩子看在了眼里，那么孩子也会价值观扭曲，一个小男孩试图从她和旁边游客的缝隙钻到花车表演的...

中山：“治未病”中心年服务12万人次

中心接受中医传统方法开展预防保健的人次达12万。2014年该中心新引进了KY3H中医体质辨识自助系统、SMF-Ⅲ中医脉象诊断系统及心理CT测试终端等大型诊疗设备，常规体检+体质辨识+中医经络检测+心理...

中山大学中山眼科中心就诊指南

所有门诊号源放开预约。请就诊患者朋友提前通过APP、微信公众号、114电话、现场预约等方式预约就诊。直至开诊的前一天下午4时停止预约(期间13天均可预约，诊疗卡充值自助挂号、缴费将减少排队，填写就诊儿...

智算中心算力类型模型参数量

上一篇
局部转移皮瓣——菱形皮瓣

下一篇
地质十大运动你知道几个