Tilda Publishing
Привет, любопытный друг. Да, это Tilda. Потому что мы хотим быстро внедрять и управлять решением, а не ждать
в очереди разработчика. Контроль, предсказуемость и отказоустойчивость — наша главная идея.
Подберём типовое или произведем на заказ серверное оборудование, предоставим расчёт и поможем интегрировать в систему.

Заполните форму запроса слева или отправьте описание вашей задачи на почту get@work-system.ru

При отправке письма на почту укажите номер телефона вашего специалиста для обсуждения аналогов оборудования в случае необходимости

NVIDIA DGX GB200 NVL72

NVIDIA DGX GB200 NVL72 — стоечное решение экзафлопсного класса для обучения и инференса триллион-параметрических AI-моделей. Система предназначена для задач генеративного ИИ, крупномасштабного машинного обучения, высокопроизводительных вычислений (HPC) и обработки больших данных. Платформа обеспечивает 30-кратное ускорение инференса LLM в режиме реального времени и 4-кратное ускорение обучения по сравнению с предыдущим поколением NVIDIA H100.

Преимущества модели

– Единый 72-GPU NVLink-домен: 72 ускорителя работают как единый вычислительный узел благодаря NVLink пятого поколения с совокупной пропускной способностью 130 ТБ/с.

– Высокая энергоэффективность: жидкостное охлаждение снижает энергопотребление и позволяет получить до 25-кратного прироста производительности на ватт относительно систем H100 с воздушным охлаждением.

– Поддержка современных форматов точности: Tensor Core второго поколения обеспечивают работу с FP4, FP8/FP6 и BF16, что оптимально для инференса и обучения LLM.

– Интегрированная сетевая инфраструктура: поддержка NVIDIA InfiniBand 400 Gb/s и Ethernet через ConnectX-7 и BlueField-3 DPU.

Комплектация

– 18 вычислительных модулей (compute tray) формата 1U, каждый с 2 процессорами Grace и 4 GPU Blackwell.

– 9 модулей NVLink Switch по 2 коммутатора NVLink в каждом.

– 8 полок питания с шиной bus bar и резервированием N+N.

– 2 ToR-коммутатора для управления.

– Жидкостные коллекторы и распределительные манифолды для охлаждения GPU и CPU.

– Накопители E1.S NVMe (4 × 3,84 ТБ на модуль) и M.2 NVMe для загрузки ОС.

Совместимость и монтаж

Система занимает стандартную 48U-стойку и требует инфраструктуры с поддержкой жидкостного охлаждения и мощностью до 120 кВт на стойку. Подключение питания осуществляется через силовые шины (bus bar). Вычислительные и сетевые компоненты подключаются по принципу blind-mate: NVLink-соединения, питание и жидкостные магистрали автоматически стыкуются при установке модуля в стойку. Платформа масштабируется в DGX SuperPOD для построения AI-фабрик корпоративного уровня.

Пропускная способность памяти GPU (всего)
576 ТБ/s (72 GPU × 8 ТБ/s)

Ширина шины памяти GPU
6144 бита

Кэш L2 GPU
60 МБ (за GPU)

Tensor Memory (TMEM)
256 КБ на SM

Декомпрессионный движок
Встроенный (ускорение сжатых данных)

Максимальная частота GPU
2.52 ГГц (максимум буста)

Ядра CPU (всего)
2592 Arm Neoverse V2 ядер (36 CPU × 72 ядра на CPU)

Потоков на ядро CPU
1 поток на ядро (Arm не поддерживает SMT)

Базовая частота CPU
2.5 ГГц

Максимальная частота CPU
3.5 ГГц (максимум буста)

Памяти системы (CPU)
До 17 ТБ LPDDR5X (36 CPU × до 480 ГБ на CPU)

Пропускная способность памяти CPU
До 14 ТБ/s (в рамках NVLink-C2C) или до 18.4 ТБ/s (в направлении памяти)

NVLink (GPU-to-GPU)
1.8 ТБ/s (пятое поколение, между двумя GPU в суперчипе)

Общий NVLink (все GPU)
130 ТБ/s (совокупная пропускная способность для всех 72 GPU)

NVLink-C2C (CPU-to-GPU)
900 ГБ/s (четвёртое поколение между CPU и GPU в суперчипе)

NVLink Switch (GPU-to-GPU между суперчипами)
9x NVLink Switch (пятого поколения) с 144 портами каждый

Конфигурация NVLink
Полносвязная топология (72 GPU подключены через 9 NVSwitch к единому NVLink домену)

PCIe интерфейс
PCIe Gen 5.0 x16 (на базовой плате)

Форм-фактор системы
Rack-scale (18x 1U compute trays × 2 superchip на tray) = 18U высота

Форм-фактор compute tray
1U rackmount (содержит 2x Grace Blackwell Superchip)

Охлаждение
Полное жидкостное охлаждение (необходимо для всех 72 GPU)

Система охлаждения
Supermicro Coolant Distribution Unit (CDU) 250 кВт или 240/180 кВт liquid-to-air

Резервные насосы
Двойные горячие резервные насосы в CDU

Максимальное потребление мощности (72 GPU)
~72 кВт (72 GPU × 1000 Вт TDP)

Максимальное потребление системы (GPU + CPU + сеть + прочее)
~150-180 кВт (зависит от конфигурации нагрузки и охлаждения)

Блоки питания
Резервные модульные PSU (конфигурируется до 48V, 2.5 кА)

Сетевые адаптеры
До 8x NVIDIA BlueField-3 SuperNIC @ 400 Гб/s (InfiniBand/Ethernet) или NVIDIA ConnectX-8

Поддерживаемые сетевые протоколы
NVIDIA Quantum-X800 InfiniBand (800 Гб/s), NVIDIA Spectrum-X800 Ethernet (800 Гб/s)

Общая сетевая пропускная способность
До 3.2 ТБ/s (8 портов × 400 Гб/s)

BlueField-3 DPU
Встроенные в сетевые адаптеры для управления, безопасности, и виртуализации

Внутреннее хранилище OS
1-2x NVMe SSD (1.92-2 ТБ, RAID 1)

Внутреннее хранилище данных
8x E1.S PCIe 5.0 NVMe SSD (конфигурируется до 30+ ТБ)

Интерфейс хранилища
PCIe Gen 5 NVMe

Поддерживаемые конфигурации RAID
RAID 0, 1, 5, 6, 10

Диапазон рабочей температуры
5°C до 35°C (рекомендуется для оптимальной производительности)

Максимальная рабочая температура GPU
83°C

Операционные системы
NVIDIA DGX OS (на базе Ubuntu Linux), Ubuntu 22.04 LTS, Red Hat Enterprise Linux 9

Базовое программное обеспечение
NVIDIA AI Enterprise, NVIDIA Mission Control (управление и оркестрация)

Поддерживаемые фреймворки
PyTorch, TensorFlow, JAX, MXNet, vLLM, DeepSpeed, Megatron-LM, NeMo

Платформы вывода
TensorRT-LLM, vLLM, Ollama, Text Generation WebUI, ONNX Runtime

Специализированные библиотеки
RAPIDS, CUDA-X, cuDNN 9+, cuBLAS, NCCL 3+, NVIDIA Magnum IO

Утилиты для управления
NVIDIA-SMI, DCGM, NVIDIA Mission Control, Kubernetes integration

Поддержка виртуализации
KVM, Docker, Kubernetes, NVIDIA vGPU

SR-IOV поддержка
Да (поддержка виртуальных функций)

Unified memory поддержка
Да (виртуальная адресация)

GPUDirect Storage
Поддерживается (NVIDIA GPUDirect RDMA)

CUDA версия
CUDA 12.4+ (рекомендуется)

CUDA Compute Capability
10.0 (Blackwell)

Форм-фактор Grace Superchip
Прямоугольный модуль (содержит 1x Grace CPU + 2x B200 GPU)

Количество слотов расширения
Конфигурируется (зависит от архитектуры)

Максимальное масштабирование
До 576 GPU в одном NVLink домене (8x GB200 NVL72 в кластере)

Форм-фактор всей системы
Full rack (стандартный 19" rackmount, 18U высота)
Похожие серверы