“算力不能保证我们在通用人工智能技术上领先,算力是可以买来的,创新的能力是买不来的。”百度创始人李彦宏日前在一次内部分享中表示。但无可否认,算力是大模型发展的关键基础,全球各大科技公司对算力储备资源的争夺正愈演愈烈。
以ChatGPT为代表的大语言模型成为人工智能的新范式,大模型的预训练和推理所需的算力需求也呈现指数级增长。据OpenAI分析,2012 年至2018年的6年间,人工智能训练任务中使用的算力需求便增长了约30万倍。
“算力是服务器产品在使用场景里的一种呈现,算力就是服务器。”某科技公司服务器事业部负责人解释,自1989年X86服务器问世,到后来GPU、异构计算的发展,运算能力正从传统的以 CPU 为主导转向以GPU为主导。
(相关资料图)
AI场景需要多核、高并发、高带宽芯片,支撑强大算力需求的GPU被广泛应用于加速芯片。从这个角度看,占了全球GPU市场82%份额的英伟达(Nvidia)成为算力需求大爆发的赢家。
“一台通用计算服务器的成本大约在5万块钱左右,现在符合美国技术出口规范的A800一块价格已经涨到10万块钱,对于投入算力基础设施的公司来说,整个采购成本都在增加。”上述科技公司服务器事业部负责人说。
当然,光有GPU算力仍不够,“今天的大模型基本都靠分布式、并行式训练的架构来支撑,上面需要一个大规模分布式软件优化系统来支撑。”联想集团高级副总裁、首席技术官芮勇表示。为了抓住AI产业发展带来的新机遇,联想在本月举行的全球誓师大会上,还喊出了在服务器市场超越戴尔、惠普的口号。
算力需求暴增 英伟达GPU价格大涨
由于投入大模型的厂商抢购英伟达A800及存量A100租赁资源,A800的交货周期被拉长。有渠道商透露,之前拿货周期大约为一个月左右,现在基本都得三个月,甚至更长。
A100是英伟达2020年5月推出的新一代GPU。“这是英伟达8代GPU史上的一次性能飞跃,其AI训练和推理性能相比于前代V100提升了高达20倍。”英伟达创始人CEO黄仁勋当时在线上发布会中如此形容A100的性能。
A800是英伟达针对中国市场推出的特供版GPU芯片。2022年10月,美国商务部祭出高端GPU的出口限令,禁止英伟达向中国出售包括A100在内的高端GPU。为此,英伟达减性能,推出特供中国的A800,其每秒数据传输速率只有A100的三分之二。
GPU产品如何影响AI大模型训练?OpenAI联合创始人、首席科学家Ilya Sutskever在和黄仁勋的“炉边谈话”中如此阐述:“GPU 出现在我们多伦多实验室,要感谢Geoffrey Hinton(人工智能教父),他说我们应该试试 GPU。最初我们也没搞懂GPU怎么发挥作用,但随着 ImageNet数据集的出现,卷积神经网络非常适合GPU的模型。它让训练变得非常快,能做规模远超以前的训练。”
2016年4月,英伟达在硅谷发布深度学习超级计算机DGX-1,搭载了8块P100 GPU。据公开资料显示,尽管当时DGX-1已经收到了近100家公司的订单,黄仁勋却把第一台捐给了OpenAI。
2016年8月,黄仁勋把第一台DGX-1捐给成立还不到一年的OpenAI,此前捐款一亿美元的马斯克也被邀请见证。
“DGX-1对我们的对话和生成式模型研究产生很大的帮助,扩大了数据量,许多实验的时长缩短数周。”Ilya Sutskever当时表示。
图为GPT到GPT-3的预训练大模型参数的变化
GPT的学习能力取决于参数的规模。2018年,GPT-1的预训练大模型参数为1.1亿,2019年发布的GPT-2提高至15亿,2020年GPT-3的预训练大模型参数已经提高至1750亿。
“基本在600—700亿个参数以上,大模型就‘开窍了’,模型就不用再重新训练,参数也不用再去调整了。”芮勇告诉记者。
AI芯片是大模型实行预训练和推理任务的算力基座,高端GPU的数量基本决定了一个厂商能够练多大的模型,在各大企业逐鹿大模型时,GPU厂商英伟达赚的盆满钵满。
据市场调查机构 TrendForce 数据显示,如果以英伟达 A100 显卡的处理能力计算,GPT-3.5大模型需要2万块GPU来处理训练数据。目前英伟达 A100 显卡的售价在 10000-15000 美元之间,预估英伟达可以赚3亿美元(约20多亿人民币)。
卖芯片仅是英伟达收割这波新AI红利的一部分。为了解决部分企业“买不起卡”的问题,英伟达已与多家云服务供应商合作,推出云端人工智能DGX Cloud。企业可以按月租、通过浏览器使用DGX Cloud集群,扩展大型多节点AI训练。DGX Cloud起价为每个实例每月36999美元。
受AI芯片销量提升的推动,今年以来伟达股价累计涨幅超过了90%。
云厂商开启算力储备竞赛
业内一种公认说法是,做好AI大模型的算力门槛是1万枚英伟达A100芯片。为了构建大规模AI算力集群,头部云厂商纷纷采购高性能芯片,用于训练和部署尖端的人工智能。
微软是首个采购英伟达高端GPU以构建算力集群的云厂商。据英伟达去年11月公告,微软Azure上部署了数万枚A100/H100高性能芯片。
在AI算力储备方面,谷歌CEO桑达尔.皮查伊(Sundar Pichai)表示,除了使用自己研发的芯片为AI模型提供动力外,谷歌云也使用英伟达的芯片处理器。
在国内,为发展大模型,并以云的方式满足客户AI算力需求,阿里、百度、腾讯等纷纷开启了算力储备赛。
据一份流传的“阿里AI专家交流纪要”显示:阿里云上至少有上万片的A100,整体能达到10万片。阿里云今年芯片采购量在1万枚左右,其中6000枚是H800;百度年初紧急下单3000台 8卡的A800服务器,共2.4万张卡,预计全年百度会有A800和H800共5万枚的需求。
现在A800价格已经涨到10万元,这意味着仅芯片采购这一项,头部云厂商的投入就在十亿元以上。
为节省算力成本,一些互联网企业走上了芯片自研之路。例如谷歌推出的定制化ASIC芯片TPU,百度基于FPGA打造的昆仑芯,阿里平头哥自研的神经网络加速芯片含光800等。
有消息称,除了采购英伟达芯片外,阿里云也会使用平头哥的自研芯片,每年采购量大约3000枚。
此外,国内的芯片设计企业,例如寒武纪、海光、壁仞、燧原等也瞄准了AI芯片市场,希望从这波大模型训练潮中分一杯羹。
据称,阿里云也会采购国产芯片,例如寒武纪MLU370,性能是A100的60-70%。今年阿里云对寒武纪MLU370的采购量大约在2000张,主要用于CV等小模型的训练或推理上。
由于芯片数量决定算力的规模,广义上讲,算力的硬技术就是AI芯片。但AI芯片不能直接作用于各种应用场景,而是以服务器核心组建的形式存在。作为算力的发动机,服务器规模是统计算力的直观指标之一。
中国信通院《中国算力白皮书(2022)》按照服务器算力总量估算(年服务器出货规模×当年服务器平均算力)称,全球算力规模美国占比34%,中国占比33%,欧洲占比14%,日本占比5%,其他国家或地区占比14%。
另据2022年第60期“全球TOP 500 超级计算机”排行榜显示,中国有两台计算机入围此次榜单中的 TOP 10,共有 162 台计算机入围 TOP 500 总榜单。不过,此前超算中心更多是应用在科研、军事、医疗、高能物理、气象观测等方方面面。
GPU服务器拯救“卖铲人”
如果说涌入AI大模型赛道的企业是“淘金者”,浪潮、联想、中兴通讯等服务器供应商扮演的则是“卖铲人”的角色。
此前,在全球云服务市场持续低迷的背景下,部分服务器厂商陷入营收和净利润双下滑的窘境。
以国内服务器出货量第一的浪潮信息(IDC数据,2022年市占率28.1%)为例。浪潮信息99%的收入来自服务器。2023年第一季度,公司营收94亿元,同比下降45.59%,净利润1.94亿元,同比下降40.06%。
服务器厂商的客户主要分为互联网云厂商、电信运营商、数据中心服务商、地方大数据产业园等。其中,互联网云厂商和电信运营商的采购占大头,服务器采购量占比分别约为40%和15%。
作为服务器采购的大头,互联网云厂商提货量减少是部分服务器厂商业绩下滑的主要原因之一。“一般而言,互联网对服务器的需求快于其他行业的增长,去年是一个比较特殊的年份(大部分互联网公司降本增效),考虑经营现金流的情况,互联网企业在服务器采购方面比较谨慎,反而是从5G转向云及算力网络布局的运营商在大规模采购服务器。”某服务器厂商相关负责人透露。
从中国移动、中国电信、中国联通三大运营商公布财报数据看,三大运营商在2023年增加了算力支出。
需要指出的是,在去年1495万台服务器出货量中,搭载 GPGPU(General Purpose GPU)的 AI服务器的出货量仅为13万台(据Trendforce数据),仅占整体服务器采购量的1%。
中兴通讯COO谢峻石称,未来服务器市场空间很大,据第三方数据,全球服务器市场规模约1000亿美元,中国服务器市场规模约1800亿元,预计未来五年年复合增长率达9%。据透露,预计今年年底,中兴通讯将推出支持大带宽ChatGPT类模型的GPU服务器。
“ChatGPT引爆新一轮人工智能革命,上游云厂商及运营商对GPU服务器及加速计算的需求会持续上涨,布局GPU服务器的厂商在未来将迎来新的增长点。”上述服务器厂商相关负责人表示。
联想集团ISG(基础设施方案业务)总裁Kirk Skaugen称,从硬件角度上来讲,每台服务器上面的GPU的数量是增长了,据第三方机构预测,每台服务器的售价可能会有10到15倍的增长。目前,联想在全球服务器市场排名第三,排在前面的是戴尔、惠普。“我们比较看重高速增长,如果从数据上来讲,希望是两倍于市场的增长或者是市场10%的占有率。”
编辑/new