来源:华尔街见闻
就在刚刚,$腾讯控股(00700.HK)$发布了号称国内性能最强的大模型计算集群。
据腾讯微信公众号4月14日消息,腾讯云正式发布面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群。
(资料图片仅供参考)
该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,服务器之间采用业界最高的3.2T超高互联带宽,为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。
据腾讯介绍,实测显示,新一代集群整体性能比过去提升了3倍,是国内性能最强的大模型计算集群。
早在去年10月,腾讯训练框架AngelPTM,完成了首个万亿参数大模型训练——混元NLP大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于新一代集群,训练时间将进一步缩短至 4 天。
针对大模型场景,星星海自研服务器采用 6U 超高密度设计,相较行业可支持的上架密度提高 30%;利用并行计算理念,通过 CPU 和 GPU 节点的一体化设计,将单点算力性能提升至更高。
除此以外,H800 GPU也是新集群的一大看点。公开资料显示,H800为英伟达旗下最先进的芯片之一,对人工智能研发极为重要,其算力超过旗舰芯片A100三倍,这也是国内首次发布搭载H800的大模型产品。
网络层面,腾讯发布自研的星脉网络能提供3.2T通信带宽,为业内最高数据。
腾讯表示,搭载同样的GPU卡,3.2T星脉网络相较前代网络,能让集群整体算力提升20%,使得超大算力集群仍然能保持通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。
存储层面,几千台计算节点同时读取一批数据集,需要尽可能缩短加载时长。腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级IOPS,满足大模型训练的大数据量存储要求。
新一代集群还集成了腾讯云自研的 TACO 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。
另外,腾讯自研芯片已经量产,包括用于AI推理的紫霄芯片。它采用自研存算架构和自研加速模块,可以提供高达3倍的计算加速性能和超过45%的整体成本节省。
在上月召开的电话会议上,腾讯方面表示,未来将投入大量资源并建立自己的基础模型,并将其整合进公司的所有业务中。不过腾讯表示,将做对的事,不会仓促行事。
腾讯还说,AIGC可以用来提升腾讯旗下旗舰产品的用户体验。未来可能每一个用户都会有人工智能助理,如果效果好,有可能将生成式AI纳入微信和QQ。
编辑/ruby