您现在的位置是:一石二鸟网 > 休闲

计算机行业专题报告:大模型推理算力知多少?

一石二鸟网2023-11-30 19:30:12【休闲】8人已围观

简介Transformer 生变成访存密集型每日任务,显存以及带宽限制算力利用。 Transformer 做为自回归模型,形成每一个新的token,都要把所有键入完的token 反复计算,具体行业中

Transformer 生变成访存密集型每日任务,计算机行显存以及带宽限制算力利用。业专

    Transformer 做为自回归模型,题报推理形成每一个新的模型token,都要把所有键入完的算力少token 反复计算,具体行业中,知多会把早已测算完的计算机行量(K、V 值)预付出来,业专防止重复测算,题报推理造成每生成一个token,模型都要与显存开展数据交换(访存),算力少造成对比测算,知多Transformer 实体模型在形成的计算机行时候对访存的需要更高一些。现阶段全世界最优秀AI 芯片处理速度“远快过”显存网络带宽。业专对于我们来说,题报推理对于大模型推理这种访存密集型每日任务,并对算力市场需求的可能,不可以仅仅考虑到其FLOPs 的需要,更重要短板取决于访存。

    现阶段的改善方式主要在算力成本和客户体验中间做均衡。在实践中有较多开发技术以摆脱GPU 利用率不高问题,但也存在一定选择,汇总来讲,在没有做实体模型精减的情形下,GPU 利用率与延迟无法兼顾。而做主要参数量化分析、实体模型分馏等实体模型精减看起来能做到“兼具”,但是却抛弃了实体模型自身的实际效果。对于我们来说,高昂的逻辑推理算力成本阻拦以GPT 为代表LLM 实体模型运用规模性落地式的重要原因之一,后面伴随着算力性价比高不断提高,大模型运用市场前景广阔。

    支撑点GPT-3.5 逻辑推理任务A100 总数或起码在5 万多张上下。根据我们计算,如果以GPT-3.5 现阶段平台流量情况及token 形成速率,大概需要5 万多张左右A100 才可以承重逻辑推理。而要是再充分考虑:1.现阶段全球流量最大网站月活水准;2.更高精密度以充分发挥更强模型实际效果;3.GPT-4 如果想要解除限定等多种因素,逻辑推理算力的需要或者是为长期性高形势,与此同时现阶段高昂的成本阻拦运用规模性落地式的重要因素之一。

    英伟达显卡L40s 打开降成本第一步,运用有希望加快落地式。L40s 在一定场景中性价比高超过A100,交货期比较短。对于我们来说,L40s 的出台最先也为英伟达显卡以及算力全产业链有关企业带来更快地具体销售业绩获益,并非无法交付“高速增长订单信息”。与此同时,非特大型实体模型端降成本有希望加快运用(或特别是在图象行业)规模性落地式。在千亿级乃至之上参数超大型模型推理与逻辑推理层面,A/H 系列产品仍有着不能取代的水平,L40s 的出台既弥补了一部分腹部客户满意度,但是以互联网巨头要求为主体的A/H 系列产品处理芯片又依然会供不应求。

    投资价值分析:见文章正文。

    风险防范:AI 技术升级大跳水风险,商业化的落地式大跳水风险,政策扶持大跳水风险性,全世界宏观经济风险。

很赞哦!(53)