Gaudi Training系统介绍

随着视频、语音识别、自然语言处理、推荐系统等中基于图像和手势识别的应用和服务的数量不断增加，对高性能人工智能训练计算的需求迅速增加，并在加速增长。随着需求的增加，需要更高的训练速度、吞吐量和容量，这就转化为对训练系统高效扩展的日益增长的需求。
典型的深度学习训练算法包括多种类型的算子，这些算子加起来要进行数十亿次运算。这些大量的操作可以通过使用先进GPU提供的固有并行处理来加速。然而，GPU主要用于高效渲染图形，而不是执行深度学习工作负载。深度学习工作负载的GPU效率低下严重影响了云平台和数据中心的运营成本。为了解决这个问题，哈瓦那实验室开发了从头开始设计的人工智能训练处理器解决方案，以满足大型DNN工作负载的大规模计算需求，并为大规模系统提供前所未有的效率：高迪训练处理器。在训练过程中，神经网络的内部参数会针对目标应用进行调整和优化。一个典型的网络包含数十亿个内部参数，所有这些参数在训练时都经过多次调整和更改，导致处理时间非常长，即使在大规模多GPU系统上也是如此。本文对培训过程作了进一步的阐述。尽管近年来在GPU硬件、网络架构和训练方法方面取得了重大进展，但事实仍然是，在单机上进行网络训练可能需要不切实际的长时间。幸运的是，我们不局限于一台机器。为了实现深度神经网络的高效分布式训练，已经进行了大量的研究和开发。本白皮书对Gaudi Training系统进行了技术回顾，该系统是分布式DNN高性能计算的基础设施

gaududi-培训平台白皮书.pdf (2023-8-4 08:00 上传)

1 Bytes, 下载次数: 0

更多回帖

张虎豹

Gaudi Training系统介绍

相关帖子

Gaudi2夹层卡HL-225B数据表

GAUDIR HL-2000处理器介绍

HLS-GAUD12深度学习服务器数据资料

Gaudi2架构和软件的全面解释

Labview调用OCR Training.exe实现字符识别

Layout_training

PSpice_training

HEV Training

Technical Training-Basic Theory ，The Buck Converter资料

WCDMA Air Interface Training

20万+工程师都在用，免费PCB检查工具