Im Herbst 2020 wurden die ersten Nvidia DGX A100 kurz nach der Veröffentlichung von Nvidia in Hilbert integriert. Die Systeme eignen sich besonders für extreme KI-Anwendungen durch ihren hohen Speicher pro Karte und die sehr hohe Anzahl an CUDA-Cores pro System. Zudem sind die Systeme mit 4x100Gbit/s Infiniband an den restlichen Cluster und an den Storage angeschlossen.
Die Systeme verfügen über einen lokalen Cache für Daten die über mehrere Jobs inweg mehrfach gelesen werden müssen um die Latenzen beim Laden von Daten zu minimieren.
Hardware
Nvidia DGX A100
Jahr | 2020 |
---|---|
CPU-Architektur | AMD EPYC 7742, 2.25GHz |
Cores | 2x64 |
RAM | 2 TB DDR4 |
Netzwerk | 1Gbit/s Ethernet 4x100Gbit/s Infiniband EDR |
Beschleuniger | 8x Nvidia A100 SMX4 40GB |
Peak Performance (CUDA) | 19.5 TFLOPS (FP64, double precision) |
PBS | accelerator_model=a100 |
Nodes | 4Nodes, hilbert[400-403] |