Im Herbst 2020 wurden die ersten Nvidia DGX A100 kurz nach der Veröffentlichung von Nvidia in Hilbert integriert. Die Systeme eignen sich besonders für extreme KI-Anwendungen durch ihren hohen Speicher pro Karte und die sehr hohe Anzahl an CUDA-Cores pro System. Zudem sind die Systeme mit 4x100Gbit/s Infiniband an den restlichen Cluster und an den Storage angeschlossen.

Die Systeme verfügen über einen lokalen Cache für Daten die über mehrere Jobs inweg mehrfach gelesen werden müssen um die Latenzen beim Laden von Daten zu minimieren.

Im Sommer 2025 konnten wir zwei weitere Systeme mit jeweils acht SXM4-80GB Karten hinzufügen

PyTorch

Es wird mindestens Version 1.8.0 benötigt um auf den Karten zu rechnen

pip install --user --pre -i http://pypi.repo.test.hhu.de/simple/ --trusted-host pypi.repo.test.hhu.de /software/pytorch/torch-1.8.0.dev20201102+cu110-cp36-cp36m-linux_x86_64.whl /software/pytorch/torchvision-0.9.0.dev20201102+cu110-cp36-cp36m-linux_x86_64.whl

CMake

Please use Cmake 3.19 or newer when compiling software which uses FindCUDA to generate PTX-Code for Compute Capability 8.0 and above.

Hardware

Nvidia DGX A100

Jahr2020 / 2025
CPU-Architektur

AMD EPYC 7742, 2.25GHz

Cores2x64
RAM2 TB DDR4
Netzwerk

1Gbit/s Ethernet

4x100Gbit/s Infiniband EDR

Beschleuniger

8x Nvidia A100 SMX4

40GB Memory per GPU (SXM4-40GB)

80GB Memory per GPU (SXM4-80GB)

Peak Performance (CUDA)19.5 TFLOPS (FP64, double precision)
PBS

accelerator_model=a100

(arch=zen2)

Nodes

4Nodes, hilbert[400-403] SXM4-40GB

2Nodes, hilbert[408-409] SXM4-80GB