Tilda Publishing
Привет, любопытный друг. Да, это Tilda. Потому что мы хотим быстро внедрять и управлять решением, а не ждать
в очереди разработчика. Контроль, предсказуемость и отказоустойчивость — наша главная идея.
Подберём типовое или произведем на заказ серверное оборудование, предоставим расчёт и поможем интегрировать в систему.

Заполните форму запроса слева или отправьте описание вашей задачи на почту get@work-system.ru

При отправке письма на почту укажите номер телефона вашего специалиста для обсуждения аналогов оборудования в случае необходимости

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 8-GPU — серверная платформа для ресурсоёмких задач искусственного интеллекта, глубокого обучения и высокопроизводительных вычислений. Система предназначена для обучения крупномасштабных нейросетей, инференса, научных симуляций и анализа больших данных. Платформа обеспечивает до 5 петафлопс производительности FP16, позволяя сократить время обучения моделей с недель до часов. Применяется в дата-центрах, исследовательских институтах и облачных инфраструктурах для решения задач, требующих максимальной вычислительной мощности.

Преимущества модели

– Технология NVLink третьего поколения обеспечивает скорость межпроцессорного обмена 600 ГБ/с между любыми двумя GPU, что в 10 раз превышает пропускную способность PCIe Gen4.

– Шесть узлов NVSwitch второго поколения создают полносвязную топологию, позволяя всем восьми GPU работать как единый вычислительный узел.

– Технология Multi-Instance GPU (MIG) позволяет разделить каждый A100 на семь изолированных экземпляров, обеспечивая до 56 виртуальных ускорителей на платформу.

– Тензорные ядра третьего поколения обеспечивают до 20-кратного ускорения операций ИИ по сравнению с предыдущим поколением.

Комплектация

– Базовая плата HGX A100 с восемью GPU NVIDIA A100 SXM4 (доступны версии 40 ГБ или 80 ГБ HBM2e на GPU).

– Шесть микросхем NVSwitch для полносвязного межсоединения.

– Интерфейсы NVLink для подключения к хост-системе.

Совместимость и монтаж

Платформа HGX A100 8-GPU интегрируется в серверы форм-фактора 4U от сертифицированных партнёров NVIDIA: Supermicro, Inspur, Dell, ASUS, Gigabyte. Поддерживаются двухпроцессорные конфигурации на базе AMD EPYC (Rome/Milan) или Intel Xeon. Рекомендуется использование минимум четырёх линий PCIe x16 Gen4 для связи CPU с GPU. Для масштабирования кластеров поддерживаются сетевые адаптеры NVIDIA ConnectX-6 с пропускной способностью до 200 Гбит/с.

Кэш L2
40 МБ

Максимальная частота GPU
1410 МГц

Ширина шины памяти
5120 бит (HBM2e)

Максимальная мощность TDP
400 Вт (за GPU, стандартное конфигурирование)

NVLink (за GPU)
600 ГБ/с (третье поколение)

Общий NVLink (все GPU)
4.8 ТБ/с совокупный (600 ГБ/с × 8 GPU)

NVLink конфигурация
Полносвязная топология между 8 GPU через NVSwitch

NVSwitch
6x второго поколения (для 8-GPU конфигурации)

Пропускная способность NVSwitch GPU-to-GPU
600 ГБ/с

Совокупная сетевая пропускная способность NVSwitch
4.8 ТБ/с (максимум, оба направления)

Поддержка Transformer Engine
Не встроена (доступна в более новых GPU)

Поддержка спектра структурированной разреженности
2:4 спектр (удваивает эффективную пропускную способность)

Динамическое переключение частоты
Поддерживается

PCIe интерфейс
PCIe Gen 4.0 x16 (16 линий, 64 ГБ/с)

Media Engine
Не поддерживается (NVDEC/NVENC отсутствует)

CUDA Compute Capability
8.0

Multi-Instance GPU (MIG)
До 7 независимых GPU экземпляров на GPU (10 ГБ на экземпляр), всего до 56 MIG экземпляров на системе

Шифрование памяти
Поддерживается

Поддержка ECC память
Поддерживается

Тип процессора (DGX A100)
Двойной AMD EPYC 7742 (серия Rome)

Ядра CPU (всего)
128 ядер (64 на процессор)

Потоков на ядро
2 потока на ядро

Базовая частота CPU
2.25 ГГц

Максимальная частота CPU
3.4 ГГц

Памяти системы (DGX A100)
1 ТБ DDR4-3200 (16 DIMM) или до 2 ТБ (32 DIMM)

Слотов DIMM
32 слота DDR4

Пропускная способность памяти CPU
204.8 ГБ/с на процессор (всего 409.6 ГБ/с)

PCIe линии (CPU)
256 PCIe Gen4 линий (128 на процессор)

Сетевые адаптеры (DGX A100)
8x однопортовых OSFP 200 Гб/с ConnectX-6 HDR InfiniBand портов + 1x двухпортовый ConnectX-6 @ 200 Гб/с

Общая сетевая пропускная способность
3.2 ТБ/с (16 портов × 200 Гб/с)

Поддержка RDMA
Встроенная поддержка GPUDirect RDMA

Поддержка MPI
Через NVIDIA NCCL 2+ и MPI поверх InfiniBand/RoCE

Внутреннее хранилище OS
2x 1.92 ТБ NVMe M.2 SSD (RAID 1)

Внутреннее хранилище данных
4x 3.84 ТБ NVMe U.2 (RAID 0) или расширяемо до 8x 3.84 ТБ (30 ТБ всего)

Максимальное внутреннее хранилище
30 ТБ (с расширением)

Интерфейс хранилища
PCIe Gen 4 NVMe U.2

Поддерживаемые конфигурации RAID
RAID 0, 1, 5, 10 (с поддержкой CacheFS для ускорения)

Максимальное потребление системы
10.2 кВт (максимум) или 6.5 кВт (типичная работа)

TDP за GPU
400 Вт × 8 = 3.2 кВт (только GPU)

Блоки питания
4x 2200 Вт с избыточностью

Входное напряжение
200-240В AC

Форм-фактор системы (DGX A100)
6U rackmount

Физический размер (DGX A100)
Высота: 10.4 дюйма (264 мм), Ширина: 19.0 дюйма (482.3 мм), Глубина: 35.3 дюйма (897.1 мм)

Вес системы
271.5 фунтов (123.16 кг)

Упакованный вес
359.7 фунтов (163.16 кг)

Охлаждение
Встроённое воздушное охлаждение (в центре обработки данных)

Диапазон рабочей температуры
5°C до 30°C (41°F до 86°F)

Максимальная рабочая температура GPU
83°C

Операционные системы
NVIDIA DGX OS, Ubuntu Linux, Red Hat Enterprise Linux, Rocky Linux

Базовое программное обеспечение
NVIDIA DGX OS, NVIDIA AI Enterprise

Поддерживаемые фреймворки
PyTorch, TensorFlow, JAX, MXNet, MLflow

Платформы вывода
TensorRT 7.2+, ONNX Runtime

Специализированные библиотеки
RAPIDS, CUDA-X, cuDNN, cuBLAS, NCCL 2+, Magnum IO

Утилиты для управления
NVIDIA-SMI, DCGM (Data Center GPU Manager), NVIDIA DGX Management Console

Software Stack
NVIDIA Base Command (оркестрация и кластер-менеджмент), NVIDIA AI Enterprise

CUDA версия
CUDA 11+ (рекомендуется)

Поддержка виртуализации
KVM, Docker, Kubernetes

Поддержка контейнеризации
NVIDIA Container Toolkit

SR-IOV поддержка
Нет (не поддерживается в A100)

Unified memory поддержка
Да

GPUDirect Storage
Поддерживается

Совокупная пропускная способность памяти GPU
16.312 ТБ/с (16 ТБ/с)

Совокупный NVSwitch
4.8 ТБ/с (максимум, все GPU)

Производительность обучения LLM vs V100 HGX
6x выше (BERT-Large обучение, TF32)

Производительность вывода LLM vs V100 HGX
172x выше (BERT-Large вывод, INT8 с разреженностью)

Производительность HPC vs V100
1.7x выше (для различных HPC приложений)
Похожие серверы