智算发展五大新趋势（2023）

judy 在周三, 12/13/2023 - 09:16 提交

本文来自“智算产业发展白皮书（2023）”，人工智能产业市场前景广阔，成为推动全球经济发展的新动力。IDC 预测，全球以 AI 为中心的各类系统的软件、硬件与服务支出，2023 年将达到 1540 亿美元，到 2026 年将超过 3000 亿美元，预计2022 年至 2026 年间复合年增长率（CAGR）为 27%。2021 年中国 Al服务器市场规模为 53.9 亿美元，预计 2025 年达到 103.4 亿美元，2021 年至 2025 年间 CAGR 达 17.7%。

趋势 1：国产多元异构算力融合推动智算长效发展

大模型发展推动 CPU、GPU、DPU 等“XPU”异构算力融合。一方面，模型训练、边缘推理、数值模拟等不同智能应用需要智算中心提供不同的算力，如自动驾驶、智慧医疗等场景既需要高精度通用算力也需要低精度专用算力[20]。另一方面，随着多模态大模型流量规模增长，CPU、GPU 需要拿出更多精力处理数据传输，需要利用 DPU减负，从而更好地处理“本职工作”。中国电信自研紫金 DPU 实现服务器虚拟化零损耗，全面释放算力，同时网络 PPS 性能翻倍、存储IOPS 性能提升两倍、网络时延降低至原来的四分之一。

高端 AI 芯片国产化能力是我国智算产业长效发展的关键。一方面，我国 AI 芯片需求增长迅猛，华为数据显示，我国对人工智能芯片的需求半年内增长了十倍以上；IDC 预测，未来 18 个月，GPU、ASIC 和 FPGA 等 AI 芯片搭载率将持续增高。另一方面，我国高端AI 芯片性能与国际领先水平仍有差距，对美国依赖较大。随着美国对中国高端 AI 芯片的管制进一步加强，如英伟达等厂商对中国（含香港）禁运高性能 GPU，需要我国持续加强芯片技术攻关，提升 GPU的国产化替代能力。

趋势 2：智算从单节点向区域化协同、边端部署演变

大模型驱动的智算成为东数西算的最佳实践。由于异构算力封装、超大带宽和超低延迟传输网络技术仍未解决，以当前模型训练参数量（千亿级）为参考，大模型训练等的 AI 计算基本依靠单智算中心完成，且基本集中在同构智能算力中心。

未来随着计算机视觉、科学计算等多模态大模型的发展以及参数量的规模增长（万亿以上），将带动东数西训、东数西渲成为东数西算场景落地的最佳实践，并呈现两大趋势：一是大模型演进为多个智算中心分布式训练，且此时智算中心间可以通过全光网等方式实现 us 级时延，智算中心间交互带宽达 T 级别以上；二是业务应用调用多个专业大模型，可能形成云计算中心与智算中心间一对多的互联需求，流量规模增长。西部地区具备发展智算中心、承接东部算力需求的潜力，东西跨区域协同将更加突出。

训练-推理的集中-边缘/终端两级化布局逐步形成。现有大模型业务模式主要包括与大模型直接交互和基于大模型能力的产品改造。

趋势 3：普惠泛在的智算服务生态正逐步构建

智能算力使用具有周期性，复用难。AI 大模型以“大规模预训练﹢微调”为主，前期预训练工作量大，且需要高性能大算力 AI 芯片支撑，算力需求呈现周期性，后期推理算力对芯片计算能力要求相对较低。智算中心的算法模型、AI 架构定制化程度高，其他场景难以复用。

据IDC调研，超过 80%的受访组织表示会考虑购买预先训练好的人工智能模型，但未来 2-3 年私有化部署仍将是整个智算市场的主流。由于当前国内高性能芯片受限、智能算力建设及使用门槛高等原因，借助平台调度实现算力错峰使用，并整合数据集、组件、算法模型提供平台级服务，可实现全社会算力服务普适、普惠和高效利用，因此成为业界运营智算中心的趋势。

趋势 4：确定性、高性能网络助推大规模智算集群构建

智算中心内网络无损高速互联是关键。大模型对数据中心内网络的传输效率有着严格的要求。一是网络丢包 0.1%会导致算力损失 50%（华为实验数据），对于一个可以承载 1.6 万卡的集群而言，近 10万个光模块平均 4 天左右就会有故障发生。二是面对千亿、万亿参数规模的大模型，训练过程中通信占比最大可达 50%，仅单次计算迭代内梯度同步需要的通信量就达百 GB 量级。因此，无阻塞、高吞吐量成为面向大模型训练的智算中心内网络的核心诉求。

智算中心间确定性、无损网络研究，是实现跨域多元算力整合的关键。现阶段大模型的训练、推理主要在单一智算中心内进行，未来随着大模型发展以及训练任务的增多，单点算力资源无法满足训练需求，需要将物理位置上分散、归属于不同方所有的多个智算中心之间构建高性能互联网络（DCI），从而整合成一个更大规模的虚拟智算中心以期达到智算中心内部无损网络传输水平。当前中国电信已完成单波 400Gbit/s、传输容量 44Tbit/s、传输距离 1050km 的传输系统，创造了实时光传输容量距离积的新世界纪录（46.2Pbit·km/s），为部署 400G 光传输骨干先现网提供了实验验证[22]；自研算力网关在东数西渲等业务场景中，解决跨域算力调度。鹏城实验室开展深圳和广州超算 10 TB 全光网络互联研究。

趋势 5：低碳化发展格局需创新智算-电网协同模式

绿色电力不产生碳排放，助推智算中心零碳运营。中国工程院院士戴琼海表示，预计 2030 年智能计算年耗电达到 5000 亿度，占发电总量 5%。根据斯坦福人工智能研究所的研究数据，OpenAI 的 GPT-3单次训练耗电量高达 1287 兆瓦时，相当于 120 个美国家庭 1 年的用电量、10000 辆特斯拉跑满 10 万公里消耗的电量，而这仅仅是训练AI 模型的前期电力，占模型实际使用时所消耗电力的 40%。作为用电大户，智算中心必须因地制宜利用各种可再生能源，针对地域、时间、天气等对绿电供给影响较大的问题，通过储能、源网储荷一体化等方法应对。

零碳是智算中心发展的长远目标。零碳是指直接或间接产生的温室气体排放总量，通过节能减排、清洁能源、碳交易等方式进行正负抵消，实现总碳排放为零。一是通过减碳，运用技术手段降低用能、提高能效、提高绿色能源使用等；二是通过碳抵消，购买绿电、绿证等来进行碳排放的消纳。谷歌宣布计划 2030 年实现零碳运营，开发并部署了碳智能计算平台，通过获得各国与地区历史、实时和未来 24小时内每小时电力能源结构及碳强度，通过在时间或空间上转移计算任务，实现计算任务与低碳电力供应的最佳匹配。

本文转载自：智能计算芯世界

人工智能

智算

GPU