定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《浪潮信息&中国信通院:2024人工智能算力高质量发展评估体系报告(46页).pdf》由会员分享,可在线阅读,更多相关《浪潮信息&中国信通院:2024人工智能算力高质量发展评估体系报告(46页).pdf(46页珍藏版)》请在薪酬报告网上搜索。
1、 版权声明 本报告中所涉及的图片、表格及文字内容的版权归浪潮电子信息产业股份有限公司和中国信息通信研究院共同所有。其中部分数据在标注有来源的情况下,版权归属原数据公司所有。任何机构、个人在引用本报告数据或转载有关报告内容时,应注明“来源:人工智能算力高质量发展评估体系报告”。违反上述声明者,将追究其相关法律责任。目 录 1 发展现状及挑战.1 1.1 发展现状.1 1.1.1 政策上:政策导向日益明确.1 1.1.2 技术上:生成式 AI 突破发展.3 1.1.3 市场上:算力投资持续加码.4 1.1.4 规模上:智算规模增速明显.6 1.1.5 发展水平上:算力发展由“量”向“质”.7 1.
2、2 面临挑战.8 1.2.1 挑战一:算力供给不足,供需匹配不平衡.8 1.2.2 挑战二:算力智能水平较低,难以满足多元应用场景.9 1.2.3 挑战三:算力面临能源考验,节能降碳刻不容缓.10 1.2.4 挑战四:多样化算力需求提升,普适普惠水平较低.10 1.2.5 挑战五:供应链完备性不足,生态构建待完善.11 1.2.6 挑战六:性能评价简单,算力实测性能欠缺.12 2 定义、内涵及特征.12 2.1 定义.12 2.2 内涵.14 2.3 特征.15 2.3.1 高算效:设计与运行计算效率“双优”体现.15 2.3.2 高智效:兼备高效和智能的 AI 业务支撑能力.16 2.3.3
3、 高碳效:最低碳排放前提下实现最大化算力输出.17 2.3.4 可获得:普适应用需求和普惠使用成本的极致追求.18 2.3.5 可持续:技术兼容、供应链完备、产业生态开放的共同选择.18 2.3.6 可评估:反映算力实际应用水平的多元评估.19 3 发展路径及展望.19 3.1 发展路径.20 3.1.1 系统设计,提升算效.20 3.1.2 协同驱动,提升智效.21 3.1.3 全生命周期管理,提升碳效.22 3.1.4 基建先行,推动算力普适普惠.24 3.1.5 繁荣生态,推动算力可持续发展.25 3.1.6 多元评估,加速算力规范化发展.27 3.2 展望.28 4 评估体系探索.29
4、 4.1 评估体系构建背景.30 4.1.1 评估体系构建现状.30 4.1.2 评估体系构建建议.31 4.2 评估体系构建原则.33 4.3 评估体系构建实践.34 4.3.1 评估体系.34 4.3.2 算效水平.34 4.3.3 智效水平.35 4.3.4 碳效水平.36 4.3.5 可获得水平.37 4.3.6 可持续水平.37 4.4 评估体系构建意义.39 4.5 评估体系应用建议.39 1 1 发展现状及挑战发展现状及挑战 1.1 发展现状 1.1.1 政策上:政策导向日益明确 全球各国通过政策支持、战略规划等手段,加速构建领先的算力全球各国通过政策支持、战略规划等手段,加速构
5、建领先的算力竞争力。竞争力。美国公布 2024 财年政府预算,包括国防部、能源部、国土安全部等多个机构,累计向 AI 领域计划投入超过 2511 亿美元,以推动 AI 研究和软硬件服务;欧洲陆续发布 塑造欧洲的数字未来、欧洲芯片法案等文件,围绕数字化转型进行算力产业布局;日本近年来频繁强调振兴半导体产业,坚持以应用、绿色为导向发展算力,不断扩大国内尖端半导体生产。这些政策的实施加速了全球产业升级和科技创新,并提升了这些国家的算力竞争地位。我国以算力基础设施建设为锚点,全面推动算力高质量发展。我国以算力基础设施建设为锚点,全面推动算力高质量发展。二十届三中全会提出,高质量发展是全面建设社会主义现
6、代化国家的首要任务。我国通过加强算力基础设施建设,推动算力技术与产业的创新发展,为经济社会的高质量发展注入新动能。在国家层面,数字中国建设整体布局规划、深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见、算力基础设施高质量发展行动计划、数据中心绿色低碳发展专项行动计划 等提出我国算力高质量发展的具体要求;在地方层面,浙江、北京、上海、广东、贵州、山西等省市也纷纷发布相关政策明确未来几年算力高质量发展行动计划。2 表 1 我国算力中心相关政策规划(部分)发布发布 时间时间 发布部委发布部委/省份省份 政策名称政策名称 2024 年 7 月 国家发改委、工信部、国家能源局、国家数据局 数
7、据中心绿色低碳发展专项行动计划 2023 年 12 月 国家发改委、国家数据局、中央网信办、工信部、国家能源局 深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见 2023 年 10 月 工信部、中央网信办、教育部、国家卫健委、中国人民银行、国务院国资委 算力基础设施高质量发展行动计划 2023 年 2 月 中共中央、国务院 数字中国建设整体布局规划 2024 年 5 月 浙江 浙江省运力提升行动方案(20242027年)2024 年 4 月 北京 北京市算力基础设施建设实施方案(20242027 年)2024 年 4 月 江苏 江苏省算力基础设施发展专项规划 2024 年 3 月
8、上海 上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025 年)2024 年 3 月 广东 广东省算力基础设施高质量发展行动暨“粤算”行动计划(2024-2025 年)2024 年 2 月 贵州 贵州省算力基础设施高质量发展行动计划(2024-2025 年)2024 年 1 月 山西 山西省算力基础设施高质量发展实施方案 2023 年 12 月 深圳 深圳市算力基础设施高质量发展行动计划(2024-2025)2023 年 12 月 重庆 重庆市算力网络发展“算力山城 强算赋能”行动计划(2023-2025 年)2023 年 12 月 安徽 安徽省智能算力基础设施建设
9、方案(2023-2025 年)2023 年 8 月 湖北 湖北省加快发展算力与大数据产业三年行动方案 2023 年 7 月 河南 河南省重大新型基础设施建设提速行动方案(2023-2025 年)2023 年 4 月 天津 关于做好算力网络建设发展工作的指导意见 2023 年 3 月 宁夏 全国一体化算力网络国家枢纽节点宁夏枢纽建设 2023 年工作要点(来源:公开资料)3 1.1.2 技术上:生成式 AI 突破发展 人工智能以生成式人工智能以生成式 AI 技术为核心快速发展。技术为核心快速发展。以 ChatGPT 为代表的 AIGC 技术加速成为 AI 领域的最新发展方向,对经济社会发展产生了
10、重大的影响。随着人工智能预训练大模型的不断进步、AIGC 算法的持续创新,以及多模态 AI 技术的日益普及,AI 已经能够生成包括文本、代码、图像、语音和视频在内的多样化内容。这些技术的发展提升了 AIGC 模型的通用性和工业化水平,AIGC 的商业潜力变得更加显著,如今大模型已成为企业在 AI 领域竞争的核心焦点。算力成为算力成为推动推动生成式生成式 AI 发展发展的的关键。关键。在大模型训练和生成式 AI应用的推动下,GPU 和异构计算资源需求显著增长,算力的提升从简单的硬件扩展发展为涵盖算法优化、系统设计、资源调度和网络通信等多个层面的系统优化,算力性能和效率对模型推理、训练至关重要。在
11、大模型训练中,通常采用多机多卡构建的算力集群进行分布式训练,而拥有大量的计算节点并不等同于拥有强大的计算能力。在分布式训练环境中,拥有数千亿至万亿参数的庞大模型通信时间可能占据整个训练过程的一半,网络通信和数据缓存等瓶颈问题会显著降低训练效率。另外,随着模型参数量增加,传统的训练方式可能会导致训练过程中算力利用率的降低。在大模型训练中,Checkpoint 机制常用于在训练中定期保存模型参数,然而对于参数量极大的模型,该训练方式可能会导致显著的写入延迟,如 GPT-3(1750 亿参数),以 15GB/s 的文件系统写入速度计算,完成一次 Checkpoint 需要 2.5 分钟,这不仅增加了
12、训练时间,也降低了 GPU 的利用率。4 1.1.3 市场上:算力投资持续加码 国家以直接投资或补贴方式推动算力产业投资建设。国家以直接投资或补贴方式推动算力产业投资建设。美国计划 5年内投资 2800 亿美元以保持美国在芯片技术领域的领先地位;中国全面启动“东数西算”工程,截至 2024 年 6 月底,“东数西算”八大国家枢纽节点直接投资超过 435 亿元,拉动投资超过 2000 亿元;欧盟计划提供 12 亿欧元的公共资金用于“欧洲共同利益重要计划下一代云基础设施和服务”;日本经济产业省拟为 5 家日本企业提供总额 725 亿日元的补贴,用于打造人工智能超级计算机。随着全球各国在算力领域的竞
13、争愈发激烈,算力相关产业市场规模将呈现持续增长态势。以 AI 服务器为例,据 IDC 预测,未来几年全球人工智能服务器市场规模将持续增加。图 1 全球人工智能服务器市场规模预测(单位:百万美元)(来源:IDC,2023)科技巨头发力智能算力,万卡算力集群布局加快。科技巨头发力智能算力,万卡算力集群布局加快。2023 年以来人工智能市场持续保持高增长态势,成为推动各国经济增长和技术创新的关键因素。据 IDC 研究,预计 2022 年至 2032 年全球人工智能819294654668203109881868421818231522359023674050001000015000200002500
14、030000350004000020222023202420252026生成式AI服务器非生成式AI服务器 5 产业规模的复合增长率高达 42%,2032 年将达到 1.3 万亿美元。基于人工智能的广阔前景,全球科技巨头纷纷加大对 AI 基础设施布局以维持行业竞争力。国际上 Meta、微软&OpenAI、xAI 等多家 AI 巨头陆续宣布或者完成 10 万卡集群建设,国内通信运营商、头部互联网、大型 AI 研发企业等均发力超万卡集群的布局。图 2 全球 AI 产业规模预测(单位:十亿美元)(来源:IDC、Bloomberg、Mandeep Singh)406713721730439954872
15、889710791304020040060080010001200140020222023202420252026202720282029203020312032 6 表 2 全球科技巨头智算布局(部分)科技科技 巨头巨头 万卡智算集群布局进展万卡智算集群布局进展 谷歌 2023 年 5 月,推出 AI 超级计算机 A3,搭载了约 26000 块 H100 GPU,为其在机器学习和深度学习研究中的应用提供强大的算力支持 Meta 2024 年初,Meta 建成了两个各含 24576 块 GPU 的集群,并设定目标:到2024 年底,构建一个包含 35 万块 H100 GPU 的庞大基础设施,以
16、支撑其元宇宙和 AI 研究 微软 早在 2020 年,微软便构建了一个覆盖 1 万块 GPU 的超级计算机,加速其在云计算和 AI 服务领域的发展 亚马逊 Amazon EC2 Ultra 集群采用了 2 万个 H100 TensorCore GPU,为用户在处理大规模数据分析和机器学习任务方面提供强大算力支持 特斯拉 2023 年 8 月,特斯拉上线集成 1 万块 H100 GPU 的集群,将极大提升特斯拉在自动驾驶和车辆智能化方面的研发速度 腾讯 推出的星脉高性能网络能够支持高达 10 万卡 GPU 的超大规模计算,网络带宽高达 3.2T,为未来的 AI 和大数据应用提供了广阔的发展空间
17、字节跳动 提出的 MegaScale 生产系统,支撑 12288 卡 Ampere 架构训练集群,为字节跳动在内容推荐、图像处理等 AI 应用方面提供了强大的算力保障 中国移动 计划今年商用哈尔滨、呼和浩特、贵阳三个万卡集群,总规模接近 6 万张GPU 卡 中国电信 计划 2024 年在上海规划建设一个达到 15000 卡、总算力超过 4500P 的万卡算力池。2024 年 3 月,天翼云上海临港万卡算力池已正式启用 中国联通 计划今年内在上海临港国际云数据中心建成中国联通首个万卡集群,集群建成后将为中国联通在数据中心和云计算市场提供新的竞争优势(来源:公开资料)1.1.4 规模上:智算规模增
18、速明显 全球算力规模稳步扩张,智算同比翻倍增长。全球算力规模稳步扩张,智算同比翻倍增长。以 AIGC 为代表的人工智能应用、大模型训练等新需求、新业务的崛起,推动全球智算规模呈现高速增长态势。据中国信通院测算,截至 2023 年底,全球 7 算力总规模约为 910EFLOPS1“,同增增长 40%,智能算力规模达到335EFLOPS,同增增长达 136%,增速远超算力整体规模增速。我国我国智能算力占增显著增加,智算中心集聚分布。智能算力占增显著增加,智算中心集聚分布。据中国信通院测算,截至 2023 年底,智能算力规模占整体算力规模的增例近 30%,增效明显。国家及地方层面积极推进智算中心建设
19、,北京、广东等多地提出2025 年智算规模目标。从区域分布上来看,智算中心呈集群建设趋势,过半分布在我国东部地区。图 3 全球算力规模(单位:EFLOPS)(来源:Gartner、IDC、中国信通院)1.1.5 发展水平上:算力发展由“量”向“质”我国算力发展正处在由我国算力发展正处在由“量的扩张量的扩张”转向转向“质的提高质的提高”这一重要关这一重要关口。口。我国算力产业规模扩张下开始以应用为导向,推动过去的重资产、重硬件模式向软硬协同、服务驱动转型等高质量发展方向转型升级,算力发展从规模速度型粗放增长转向质量效率型集约增长。在应用导向下,全国各地增加智能算力生产以提升算力在人工智能领域的适
20、配 1 算力规模包含通用算力、智能算力、超算算力,边缘算力暂未纳入统计范围,表示方式皆为单精度(FP32)。39849855111314233510102401002003004005006002021年2022年2023年通用算力智能算力超算算力 8 水平,建设超大规模算力中心集群,以匹配大模型训练需求。随着集群建设规模越来越大,算力效率问题引起关注。算力中心建设、运营开始重视超大规模组网互联、集群有效计算效率、训练高稳定性与可用性等算力处理效率相关的性能。另外,双碳目标日益紧迫,能耗要求日趋严格,算力行业的高耗能和碳排放问题引起诸多关注。我国出台了一系列政策对算力产业节能降碳提出更加严格的
21、要求,相关企业通过技术创新、绿色管理等措施不断开展节能降碳行动,绿色低碳成为算力产业重要发展方向。与此同时,算力中心作为算力的主要载体,承载功能逐渐多元化。算力中心可为服务购买方提供多元化业务支撑和多样化算力服务,不再只是提供计算、存储等服务的场所,数据、算力、算法、生态合作等服务内容不断拓宽算力中心能力边界。算力提供方越来越注重提升算力服务的品质,整合各类算力资源,为用户提供一站式服务,降低用户获取算力资源的成本,推动算力普适普惠。1.2 面临挑战 1.2.1 挑战一:算力供给不足,供需匹配不平衡 一方面,一方面,AIGC 带动算力需求总量不断增长,大模型训练亟需大带动算力需求总量不断增长,
22、大模型训练亟需大量量 AI 算力支撑。算力支撑。从整体需求规模上看,模型训练引起 AI 算力需求暴增。据新一代人工智能基础设施白皮书表明,过去几年,大模型参数量以年均 400%复合增长,AI 算力需求增长也超过 15 万倍,远超摩尔定律。在单个大模型训练需求上,模型越大算力需求越大,以参数规模达到 4050 亿的 Llama3.1 大模型为例,其单次训练算力需 9 求相较于 700 亿的 Llama2 翻了 50 倍。另外伴随模型不断迭代,训练数据集规模将不断增大,未来的大模型的算力需求将呈现指数级爆发式增长。另一方面,现有供给结构与用户实际的算力需求另一方面,现有供给结构与用户实际的算力需求
23、不匹配不匹配造成资源造成资源浪费。浪费。一是供需错位问题,国内算力产业链企业相对分散,众多芯片厂商和大模型企业技术路径不同容易造成芯片和模型之间不适配,且大多数智算服务仍是裸金属租赁的粗放式经营方式,无法精准满足不同企业的多元化需求。二是资源利用率不足问题,据清华大学研究表明,大模型在处理大量数据时,由于算力调度、系统架构、算法优化等诸多问题,很多大模型企业的 GPU 算力利用率低于 50%,造成了巨大的资源浪费。1.2.2 挑战二:算力智能水平较低,难以满足多元应用场景 人工智能、大数据、物联网等数字技术不断人工智能、大数据、物联网等数字技术不断发展发展,多元应用场景,多元应用场景对算力的智
24、能水平和计算对算力的智能水平和计算能力能力要求不断提升。要求不断提升。从需求上看,算力应用场景的复杂化导致数据量和算法复杂度急剧增加,这要求算力具备更高的智能化水平。算力是算法自主学习的基础,能够灵活处理和分析大规模的数据集,有助于满足更大参数量模型的训练需求,不断提升模型的自主学习和泛化能力。从技术上看,传统芯片架构面临着“存储墙”和“功耗墙”的问题,难以满足现阶段人工智能应用的低时延、高能效、高可扩展性的需求,需要先进的计算架构将更多算力单元高密度、高效率、低功耗地连接在一起,提高异构多核之间的传输速率,从而为人工智能大模型提供强大计算能力保障。10 1.2.3 挑战三:算力面临能源考验,
25、节能降碳刻不容缓 双碳目标下,算力产业面临节能降碳挑战。双碳目标下,算力产业面临节能降碳挑战。算力中心是算力的主要载体,是公认的高耗能基础设施。据中国信通院数据表明,截至2023年底,我国算力中心耗电量达 1500 亿千瓦时,预计到 2030 年将超过4000 亿千瓦时,若不加大可再生能源利用增例,2030 年全国算力中心二氧化碳排放或将超 2 亿吨。人工智能模型训练的能耗远高于常规计算能耗,根据 Digital Information World 数据,训练 AI 模型产生的能耗是常规云工作的三倍。OpenAI 曾发布报告称,自 2012 年以来,AI 训练的电力需求每 3-4 个月就会翻一
26、倍。据浪潮信息测算,一个10 万亿参数大模型训练需要 10 万卡 H100 集群,训练 1193 天,所消耗的电量约 40 亿千瓦时,约 1.4 亿美国家庭 1 天用电量。面对人工智能对算力的旺盛需求,算力产业如何在高速发展的同时实现“碳中和”,是当下整个行业需要解决的重要问题。图 4 近 5 年我国算力中心耗电量(单位:亿千瓦时)(来源:中国信通院)1.2.4 挑战四:多样化算力需求提升,普适普惠水平较低 8249391116130015000200400600800100012001400160020192020202120222023 11 算力资源获取成本有待降低,多元算力匹配能力有待
27、加强。一是算力资源获取成本有待降低,多元算力匹配能力有待加强。一是算力资源获取上,算力资源获取上,据斯坦福 2024 年人工智能指数报告 估算,OpenAI的 GPT-4 预计使用了价值 7800 万美元的计算资源进行训练,而谷歌的 Gemini Ultra 耗费了高达 1.91 亿美元的计算资源成本。目前大模型研发已进入万卡时代,一家企业如果想拥有自己的大模型,至少需要几十亿投资,对于中小企业来说算力成本过高。二是算力应用上,二是算力应用上,大模型训练、推理等业务场景的出现促使企业业务对多样化算力需求提升,如今产业界不论是模型还是算力芯片,正处于百花齐放、创新并存的阶段,算力资源多元并用,多
28、元算力与多种模型及框架的适配难度较大。另外,大模型应用能够帮助企业更高效率的实现商业目标,但对于绝大多数企业而言,大模型的应用开发流程繁琐,模型设计、训练、调优等环节需要专业开发人员,自研大模型成本高且研发门槛过高。1.2.5 挑战五:供应链完备性不足,生态构建待完善 算力供应链算力供应链完备性不足完备性不足,亟需强化算力保障能力。,亟需强化算力保障能力。一是随着多元异构算力的发展,不同 OS、固件、整机、芯片平台兼容性问题突出,不同硬件生态系统封闭且互不兼容,给算力使用方带来一系列技术挑战。二是算力服务商资源采购受各厂商芯片生态影响,存在应用与硬件紧耦合、难迁移问题。如一些芯片厂商为了维护自
29、身利益,会构建相对封闭的生态系统,限制其他厂商或第三方开发者的接入。这种封闭性导致应用开发者只能针对特定厂商的芯片进行优化和定制,进一步加剧了应用与硬件之间的紧耦合关系。12 1.2.6 挑战六:性能评价简单,算力实测性能欠缺 现有算力评估体系评估场景简单,无法全面、深入地反映算力应现有算力评估体系评估场景简单,无法全面、深入地反映算力应用的实际效果。用的实际效果。如今算力基础设施面临着更高的建设与发展要求,应对算力质量进行系统评估,保障算力安全稳定运行和资源高效利用。在万亿参数模型的训练过程中,软硬件组件需精密配合,一旦出现问题,其定界与定位过程极为复杂。根据公开资料显示,业界在硬件故障定位
30、上通常需要 1-2 天,复杂应用类故障的定位时间则更长。节点故障不仅会导致训练时间大幅延长,还会对算力资源造成巨大浪费。然而,当前算力评估体系由于评估场景相对单一,往往难以全面、深入地揭示算力应用在实际复杂环境中的真实效果,测试评估指标主要以单芯片性能测试为主,测试结果偏理论,参考价值有限,对于多场景下算力的性能评估也缺乏深入研究与重视,这严重限制了评估体系在指导高效能、多元化算力资源配置中的应用广度和效果。2 定义、内涵及特征定义、内涵及特征 全球及我国算力发展态势显示,在人工智能时代,算力产业政策导向日益明确、算力领域相关技术突破发展、算力投资持续加码、智算规模不断增加、整体发展水平日益提
31、升,然而算力发展也面临着供给不足、供需匹配难、能耗激增等挑战。算力成为衡量国家综合实力和国际话语权的重要指标,亟需更高水平的发展变革以应对新阶段的发展机遇和挑战。2.1 定义 人工智能时代,高质量算力是基于最新人工智能理论,采用先进人工智能时代,高质量算力是基于最新人工智能理论,采用先进 13 的的人工智能计算架构,与算法、数据深度结合的高水平计算能力。人工智能计算架构,与算法、数据深度结合的高水平计算能力。高质量算力是驱动“算法”赋能劳动者、加速“数据”优化劳动对象、激发“算力(设备)”升级劳动资料,从而推动生产力要素发生根本性质变,实现全要素生产率提升的一种新质生产力,有效推动数字经济与实
32、体经济的深度融合,实现经济社会高质量发展。表 3 生产力变迁 农业时代农业时代 工业时代工业时代 人工智能时代人工智能时代 劳动者劳动者 人人 缓慢增长(马尔萨斯陷阱)人人 线性增长(医疗、粮食进步)人人+算法算法 算法产生智能,劳动者能力增强 劳动劳动 对象对象 农作物农作物 增较原始+工业产品工业产品 延伸至一切可利用的有形物质,总量越用越少+数据数据 从有形到无形,生生不息,越用越多 劳动劳动 资料资料 农业工具农业工具 生物能驱动+工业设备工业设备 化石能、电能驱动+算力(设备)算力(设备)计算力驱动、生产工具智能升级(来源:浪潮信息、中国信通院)人工智能时代,高质量算力具备技术创新的
33、“主引擎”、生产要素配置的“优化器”、产业深度转型升级的“化化”三大内涵;具备高算效、高智效、高碳效、可获得、可持续、可评估六大特征;以系统设计、协同驱动、全生命周期管理、基建先行、繁荣生态、多元评估为六大主要发展路径,可充分响应数字经济快速增长的计算需求,应对人工智能时代算力发展机遇和挑战。14 图 5 高质量算力魔方(来源:中国信通院)2.2 内涵 高质量算力是人工智能时代的新质生产力。新质生产力本质是生高质量算力是人工智能时代的新质生产力。新质生产力本质是生产力,由技术革命性突破、产力,由技术革命性突破、生产要素生产要素创新性配置、产业深度转型升级创新性配置、产业深度转型升级而化生。而化
34、生。人工智能时代背景下,高质量算力已逐渐融合到生产生活的方方面面,为社会、产业智能化转型提供基础动力,具体体现在以下三点:一是技术创新的一是技术创新的“主引擎主引擎”。高质量算力推动人工智能模型训练和应用,在 AI 模型训练和部署上更具优势,推动预训练大模型在海量数据的学习训练后具有良好的通用性、泛化性和高效率,用户基于大模型通过零样本、小样本学习即可获得领先的效果,能够显著降低AI 应用的门槛。在科学研究方面,高质量算力强大的计算能力能够提高大规模数据处理的速度,缩短模型训练的时间,进一步提升科研效率,降低科研成本,同时加速前沿科学问题的探究,如新药创制、基因研究、新材料研发等,推动科学技术
35、创新发展。15 二是生产要素配置的“优化器”二是生产要素配置的“优化器”。数据是人工智能的三要素之一,高质量算力提供强大的计算资源对数据进行分析、加工、处理,将海量数据转化为先进生产要素,畅通生产、分配、流通、消费各环节,构建数据流通交易体系,实现数据资源的有效配置和价值最大化。另外,高质量算力通过智能化的资源管理和调度系统,根据实际需求动态调整资源分配,对计算、存储和网络资源进行优化配置,通过虚拟化和云计算技术实现资源的弹性伸缩,提高资源利用效率。三是产业深度转型升级的“化化”。三是产业深度转型升级的“化化”。在改造提升传统产业上,高质量算力推动前沿科技与传统行业相结合,为传统产业注入新活力
36、,化生新的商业模式和服务,如智能制造、智能医疗、智慧金融等。在培育壮大新兴产业上,高质量算力推动人工智能、大数据、区块链等数字产业发展,加快数字产业化步伐。在推动未来产业建设上,高质量算力瞄准前沿领域,促进元宇宙、人形机器人、脑机接口、量子信息等新产业发展,加速重大科技成果产业化。2.3 特征 2.3.1 高算效:设计与运行计算效率“双优”体现 高算效高算效指的是指的是在提高在提高算力算力理论算效的同时考虑更高的实测性能理论算效的同时考虑更高的实测性能和资源利用率,和资源利用率,是是综合考虑设计、运行等维度的计算效率。综合考虑设计、运行等维度的计算效率。理论算效是设计维度理论算效是设计维度上的
37、考量上的考量,是计算系统算力与功率的增值,即“每瓦功率所产生的算力”,是同时考虑计算性能与功率的一种效率指标。理论算效数值越大,代表单位功率的算力越强,效能越高。2023 年年底,全国在用算力中心平均算效为 11.8GFLOPS/W,达到 16 GB/T 43331-2023“互联网数据中心“(IDC)技术和分级要求中通用算力算效第三等级,我国算效水平仍有较大的提升空间。实测性能是实测性能是短期短期运行维度运行维度上的考量上的考量,在充分考虑理论算效的基础上,关注的是应用场景下的实测性能,如单位时间内处理的 Token 数量、时延、模型训练时间、数据处理质量等指标。在实测性能方面,高质量算力致
38、力于提升整机系统输出能力,消除网络、存储等集群性能瓶颈,兼顾软件生态建设、应用适配。如今算力集群实测性能和理论性能差距过大这一问题逐渐凸显,部分算力实测性能不足 10%,大量算力资源被浪费,算力系统实测性能亟需优化提升。资源利用率是资源利用率是长期长期运行维度运行维度上的考量上的考量,指的是算力系统实际运行过程中的平均资源利用率,避免算力堆砌及大量资源闲置。资源利用率的“高”体现在不断优化算力资源实际应用水平。如可通过优化GPU平均利用率来提升算力资源利用率。据公开数据统计,传统模式下的智算中心 GPU 利用率较低,平均数值低于 30%,英伟达 GTC 2022 公布数据显示 Google 云
39、平均 GPU 利用率为 25%,算力资源利用率存在较大优化空间。2.3.2 高智效:兼备高效和智能的 AI 业务支撑能力 高智效指的是算力具备高智效指的是算力具备高效处理高效处理 AI 业务的能力业务的能力和较高的自动化、和较高的自动化、智能优化水平智能优化水平。高智效体现算力面向人工智能业务的高效处理能力。高智效体现算力面向人工智能业务的高效处理能力。在以大模型为代表的人工智能技术上,更高的模算效率是体现高智效的主要指标。模算效率正增于模型精度与模型的计算效率,模型本身精度越高、在 17 对应软件上对硬件性能利用率越高、推理及训练所需算力越小,模算效率越高,整体反映被测模型在人工智能业务应用
40、中的综合处理效率。高智高智效效体现算力体现算力较高的自动化水平和智能优化能力较高的自动化水平和智能优化能力。这种高效能不仅体现在硬件的计算速度和处理能力上,更在于整个系统对资源的智能管理和优化调度上。通过高度自动化的任务调度、资源分配和故障恢复机制,以及智能优化算法、能耗管理和自适应学习技术,高智效的算力系统能够实现更强的可靠性和可用性,为推动智能化应用的发展提供有力支持。2.3.3 高碳效:最低碳排放前提下实现最大化算力输出 高碳效指的是算力在最低碳排放前提下实现最大化算力输出,是高碳效指的是算力在最低碳排放前提下实现最大化算力输出,是兼顾碳排放量和算力性能的综合指标。兼顾碳排放量和算力性能
41、的综合指标。高碳效不仅关注算力单纯的能源消耗、算力输出水平,更注重算高碳效不仅关注算力单纯的能源消耗、算力输出水平,更注重算力系统力系统从从采购到回收整个采购到回收整个过程过程的的全生命周期碳足迹管理。算力碳效全生命周期碳足迹管理。算力碳效是有效衡量高碳效水平的一个关键指标,指设备使用周期内产生的碳排放与所提供的算力性能的增值。据数据中心算力碳效白皮书测算表明,对于服务器来说,CPU 性能越好,可提供的计算能力更优越,所消耗的能量越多,带来的温室气体排放也越多,但服务器算力碳效即单位算力性能的碳排放量反而会降低。全生命周期碳足迹管理全生命周期碳足迹管理主要通过绿色采购、绿色设计、清洁生产、绿色
42、包装和运输、绿色运营、回收处理等降低整个算力系统的碳排放。如在绿色设计环节采用高效的服务器和存储设备、先进的制冷和散热技术。根据中国电子节能技术协会的数据,液冷 PUE 低于传统风冷 PUE 至少 50%,意味着算力 18 中心的能耗可至少减少 50%,碳排放量也将减少 50%。2.3.4 可获得:普适应用需求和普惠使用成本的极致追求 可获得指的是算力能够满足普适应用可获得指的是算力能够满足普适应用需需求和普惠使用成本求和普惠使用成本要求要求。普适性表现在普适性表现在算力能够广泛满足各种应用场景的需求。算力能够广泛满足各种应用场景的需求。普适性保障算力系统在智慧医疗、智能制造、自动驾驶、金融服
43、务、科研计算、智慧城市等多个领域的广泛应用,是推动这些领域发展的关键因素。在使用门槛上,算力像水电类的公共资源一样,具备好用易得等特点,各行各业用户无需深入了解复杂的技术细节,只需简单的操作即可获得所需的计算资源。普惠性主要表现在普惠性主要表现在可保障可保障用户以合理、可负担的成本使用用户以合理、可负担的成本使用算力算力资资源。源。普惠算力通过优化资源配置、提供灵活计费方式、推动技术创新等手段不断降低用户成本、扩大服务覆盖范围、提升用户体验,可实现各行各业低成本使用,无论是大型企业还是中小企业,甚至是个人开发者,都可以方便地获取和使用算力资源。2.3.5 可持续:技术兼容、供应链完备、产业生态