浪潮AI服务器大幅提升NLP模型Transformer训练性能？

2023-01-30 09:09 问答作者：如何学Go

最近，在北京召开的2019人工智能计算大会(AICC-2019)上，浪潮发表了主流自然语言处理(NLP)模型Transformer的最新性能测试数据。Transformer模型参数规模可达数亿，对计算、通信的要求非常高。性能数据显示，与同类服务器相比，浪潮AI服务器NF5488M5大幅提高了Transformer的训练性能，GLUE基准训练到80.4%的时间比同类产品大幅减少了67%。

浪潮AI服务器NF5488M5

人工智能正在由能看、会听的感知智能向能读、会写的认知智能迈进。由于文字是信开发者_如何转开发息、思想的重要载体,如果计算机能够理解文字并能够用文字表达,那么就具备了读写能力,因而NLP被认为是认知智能的重要突破口。目前主流的NLP模型包括Transformer, Bert, GPT, XLNet等,而Bert和GPT都基于Transformer架构。Transformer被视为NLP的典型模型，2017年谷歌提出，利用自我注意力(self-attention)机制迅速并行，可以增加到非常深的深度，充分发掘DNN模型的特性，提高模型的精度。

但Transformer模型训练是一个大问题，参数规模达数亿，对计算能力的需求很大。OpenAI的Transformer模型有12层、768个隐藏单元，8个P100个GPU用8亿个单词的数据集训练40个Epoch需要1个月。背后的原因在于GPU通信的制约。TransformerAttention机制的全连接层在计算时生大量参数，更新参数梯度需要GPU之间的高速传输。同时，模型规模大，占有大量GPU，batchsize通常小，计算时间快，计算后更新参数梯度频繁，这也要求更高的GPU之间的传输速度。

浪潮AI服务器NF5488M5通过没有堵塞的GPU全连接设计，突破了Allto，Alll300GB/s的Peertoper带宽。在当前深入学习通信模型All、Reduce性能表现方面，NF5488M5的实际通信带宽可达到通常NVLink连接的GPU服务器的3倍以上。这一特性大大提高了Transformer模型在NF5488M5上的通信效率，提高了计算通信比，节省了整体运行时间。根据测试结果，NF5488M5大大提高了Transformer的训练性能，GLUE基准训练到80.4%的时间比采用PCIe连接的8GPU服务器短67%，比采用通常NVLink连接的8GPU服务器短31%。

Transformer训练性能测试结果

浪潮集团AIampHPC社长刘军认为，目前基于Transformer的Bert、XLNet等模型代表了NLP的发展方向，其特点是加速器之间的通信制约。测试结果表明，浪潮AI服务器NF5488M5在GPU之间的通信效率方面具有显着的领先优势，可以大幅度提高Transformer等大型AI工作负荷的训练性能，降低训练成本，加快认知智能开发和应用落地。

浪潮是人工智能计算的领导品牌，AI服务器中国市场份额保持在50%以上，与人工智能领导科学技术公司在系统和应用方面深入合作，帮助AI客户在语音、语义、图像、视频、检索、网络等方面提高数量级的应用性能。浪潮与合作伙伴共建元脑生态，共享AI计算、资源和算法三个核心平台能力，帮助行业用户开发和部署自己的行业大脑，加快产业AI化落地。

继续阅读：大幅模型浪潮

浪潮AI服务器大幅提升NLP模型Transformer训练性能？

更多精彩内容

精彩评论

最新问答

央视是哪个频道？

请问买过的朋友，舒提啦旅行箱实际使用体验如何？？

检查不孕不育需要的费用？

海信ULED电视画质有什么不同的地方?？

钉子可以挂的住画框幕布吗？

问答排行榜

河神2九牛入海钓河妖是第几集河妖什么来历可活吞牛？

性激素六项检查的最佳时间是多久？多少钱？？

Easiest way to get words of one line from istream into a vector?

《梦在燃烧 (《三国演义》动画片主题曲)》MP3歌词-汤子星？

抽烟只抽炫赫门？