Tilda Publishing
Привет, любопытный друг. Да, это Tilda. Потому что мы хотим быстро внедрять и управлять решением, а не ждать
в очереди разработчика. Контроль, предсказуемость и отказоустойчивость — наша главная идея.
Подберём типовое или произведем на заказ серверное оборудование, предоставим расчёт и поможем интегрировать в систему.

Заполните форму запроса слева или отправьте описание вашей задачи на почту get@work-system.ru

При отправке письма на почту укажите номер телефона вашего специалиста для обсуждения аналогов оборудования в случае необходимости

NVIDIA DGX A100

NVIDIA DGX A100 — универсальная платформа для корпоративной ИИ-инфраструктуры. Система предназначена для полного цикла задач машинного обучения: аналитики больших данных, обучения нейросетей и инференса. Сервер обеспечивает производительность до 5 петафлопс для ИИ-вычислений в едином форм-факторе 6U. Целевое применение — глубокое обучение, обработка естественного языка, рекомендательные системы, компьютерное зрение и высокопроизводительные вычисления (HPC). DGX A100 используется в исследовательских центрах, крупных предприятиях и для построения масштабируемых ИИ-кластеров.

Преимущества модели

– Технология Multi-Instance GPU (MIG) позволяет разделять один GPU до семи изолированных экземпляров для параллельной обработки разнородных задач.

– Третье поколение NVLink обеспечивает межпроцессорную пропускную способность 600 ГБ/с между GPU через шесть NVSwitch, что почти в 10 раз быстрее PCIe Gen4.

– Поддержка Tensor Float 32 (TF32) ускоряет вычисления без изменения кода, обеспечивая до 20-кратного прироста в ИИ-задачах относительно предыдущего поколения.

– Встроенная многоуровневая система безопасности охватывает BMC, CPU-плату, GPU-плату и накопители с самошифрованием.

Комплектация

– Восемь GPU NVIDIA A100 Tensor Core (версии 40 ГБ или 80 ГБ). – Шесть NVSwitch второго поколения. – Два процессора AMD EPYC 7742 (128 ядер суммарно). – Системная память до 2 ТБ DDR4. – Два M.2 NVMe накопителя для ОС (по 1,92 ТБ в RAID 1). – До восьми U.2 NVMe SSD для данных (до 30 ТБ). – До десяти сетевых адаптеров ConnectX-6/ConnectX-7 (200 Гбит/с InfiniBand/Ethernet). – Шесть блоков питания (резервирование 3+3).

Совместимость и монтаж

Сервер выполнен в форм-факторе 6U для установки в стандартную 19-дюймовую стойку. Габариты: высота 264 мм, ширина 482 мм, глубина 897 мм. Масса — до 123 кг. Система поставляется с предустановленным ПО DGX OS на базе Ubuntu Linux, с поддержкой Red Hat Enterprise Linux и CentOS. Совместима с NVIDIA NGC, CUDA-X, инструментами NVSM и DCGM для мониторинга и управления. Поддерживает построение кластеров через Slurm и Kubernetes с NVIDIA Bright Cluster Manager.

Максимальная частота GPU
1410 МГц (максимум) / 1095 МГц (стандартная приложения)

Базовая частота памяти
1512 МГц

Ширина шины памяти
5120 бит

Максимальная мощность TDP
400 Вт

Инструктажный набор
96 NVLink RX и TX линий (3 мостика)

Пропускная способность NVLink
600 ГБ/с (максимум, в каждом направлении)

Тип процессора
Двойной AMD EPYC 7742 (серия Rome)

Ядра CPU (всего)
128 ядер (64 ядра на процессор)

Потоков на ядро
2 потока на ядро

Базовая частота CPU
2.25 ГГц

Максимальная частота
3.4 ГГц (максимум буста)

PCIe линии
256 линий PCIe Gen 4 (128 на процессор)

Каналы памяти
16 (8 на процессор)

Пропускная способность памяти CPU
204.8 ГБ/с на процессор (всего)

Памяти системы (стандартно)
2 ТБ DDR4-3200

Расширяемость памяти
До 2 ТБ (32 слота DIMM DDR4-3200)

Количество слотов DIMM
32 слота (16 заполнено стандартно)

NVSwitch
6 (второе поколение)

Пропускная способность NVSwitch
600 ГБ/с GPU-to-GPU

Общая пропускная способность (все GPU)
4.8 ТБ/с (оба направления)

Общая пропускная способность сети
3.2 Тб/с (стандартная конфигурация)

Интеграция RDMA
Поддержка GPUDirect RDMA

ОС (OS) хранилище
2x 1.92 ТБ M.2 NVMe SSD (RAID 1)

Внутреннее хранилище
30 ТБ (8x 3.84 ТБ U.2 NVMe, RAID 0)

Базовое внутреннее хранилище
15 ТБ (4x 3.84 ТБ, расширяемое до 30 ТБ)

Интерфейс хранилища
PCIe Gen 4

Конфигурации RAID
RAID 0, 1, 5, 10 поддерживаются

Кэширование
CacheFS для ускорения доступа к данным

Максимальное потребление системы
6.5 кВт

Блоки питания
4x 2200 Вт с избыточностью

Входное напряжение
200-240В AC

Система охлаждения
Воздушное охлаждение в центре обработки данных

Диапазон рабочей температуры
5°C до 30°C (41°F до 86°F)

Форм-фактор
6U

Высота
10.4 дюйма (264.0 мм)

Ширина
19.0 дюймов (482.3 мм, максимум)

Глубина
35.3 дюйма (897.1 мм, максимум)

Вес системы
271.5 фунтов (123.16 кг, максимум)

Упакованный вес
359.7 фунтов (163.16 кг, максимум)

Основная ОС
Ubuntu Linux

Поддерживаемые ОС
Red Hat Enterprise Linux, CentOS, Rocky Linux

CUDA версия
CUDA 11+

Ключевые компоненты
NVIDIA DGX OS, NVIDIA Base Command, NVIDIA NGC, NVIDIA AI Enterprise

Фреймворки
TensorFlow, PyTorch, MXNet

Платформы вывода
TensorRT 7.2+

Обработка данных
RAPIDS для GPU-ускоренных аналитических конвейеров

HPC поддержка
CUDA-X HPC, OpenACC

Структурированная разреженность
Поддержка 2:4 спектра для удвоения пропускной способности

Динамическое переключение частоты
Поддержка 81 уровня частоты (210 МГц - 1410 МГц)

Контроль мощности
Ограничение мощности от 100 до 400 Вт на GPU

Шифрование
Самошифрующиеся диски (SED)

Безопасность
TPM 2.0 (Trusted Platform Module)

ECC память
Поддерживаемо

Поддержка MIG контейнеризации
NVIDIA Container Toolkit для Docker и Kubernetes

BERT-Large обучение (TF32)
1823 последовательностей/сек (vs 308 на DGX-1 с V100 FP32)

Ускорение обучения vs DGX-1
До 6x выше производительности

Вывод BERT-Large (FP16 + разреженность)
4200 предложений/сек

Ускорение вывода vs V100
До 1.25x выше пропускной способности

Производительность аналитики больших данных
До 83x выше vs CPU-только серверы

Трансформер MLPerf обучение
0.62 минуты (время до решения)

ResNet-50 MLPerf обучение
0.76 минут (время до решения)

SR-IOV
Поддерживаемо (16 виртуальных функций)

PCIe конфигурация
x16 на GPU

Поддержка виртуализации
KVM, Docker, Kubernetes готовы
Похожие серверы