Tilda Publishing
Привет, любопытный друг. Да, это Tilda. Потому что мы хотим быстро внедрять и управлять решением, а не ждать
в очереди разработчика. Контроль, предсказуемость и отказоустойчивость — наша главная идея.
Подберём типовое или произведем на заказ серверное оборудование, предоставим расчёт и поможем интегрировать в систему.

Заполните форму запроса слева или отправьте описание вашей задачи на почту get@work-system.ru

При отправке письма на почту укажите номер телефона вашего специалиста для обсуждения аналогов оборудования в случае необходимости

Как выбрать сервер для ИИ: отличия специализированных AI серверов от обычных решений

Обновлено: Февраль 2026.

Оглавление

12

Введение

Выбор сервера для искусственного интеллекта — это не просто покупка мощного железа. AI-серверы 2026 года используют гетерогенную конфигурацию CPU+GPU, где ускорители AI-серверов выполняют параллельные матричные операции и тензорные расчёты для обучения и инференса моделей. В отличие от традиционных Enterprise-платформ, рассчитанных на последовательную обработку задач процессором, графические ускорители AI-серверов потребляют сотни ватт энергии каждый. Это требует специализированного жидкостного охлаждения, высокопроизводительной памяти HBM и усиленных линий питания.

Рынок AI-серверов вырос с $83,33 млрд в 2025 году до $88,29 млрд в 2026 году, и ускоренные серверы остаются основным драйвером инвестиций в AI-инфраструктуру. При этом неверный выбор конфигурации приводит к троттлингу GPU, Out of Memory ошибкам и простоям дорогостоящего оборудования. Разберём, как избежать типовых ошибок и подобрать сервер под реальные задачи.

Сравнение обычного сервера и AI-сервера

Параметр
Обычный сервер
AI-сервер
Архитектура
CPU-центричная, последовательные задачи
Гетерогенная CPU+GPU, параллельные вычисления
GPU-плотность
0–2 GPU (опционально)
4–8 GPU на узел, до 576 GPU в домене с NVSwitch
VRAM
Не критично
40–200 ГБ HBM на GPU, унифицированная память
Интерконнект
PCIe Gen3/Gen4
NVLink/NVSwitch (900 ГБ/с), PCIe Gen5/Gen6
Питание
500–1200 Вт на сервер
700–1200 Вт на один GPU, до 50–80 кВт на стойку
Охлаждение
Воздушное
Жидкостное (DLC) при плотности >20 кВт/стойка
Сеть
1–10 GbE
100–800 GbE, InfiniBand с RDMA/GPUDirect
Storage throughput
SATA/SAS, IOPS для БД
NVMe PCIe Gen4/Gen5, ≥3 ГБ/с для датасетов

Конфигурация сервера под задачи: обучение моделей против внедрения и работы

Требования к серверу для обучения моделей машинного обучения и для их внедрения (инференса) кардинально различаются. Обучение упирается в VRAM и скорость обмена градиентами между GPU, инференс — в задержку первого токена и пропускную способность при батчинге. Неправильный выбор конфигурации приводит либо к замедлению обучения в 5–15 раз из-за узкого места PCIe, либо к высоким latency в продакшене.
Сравнение Training и Inference
Критерий
Training
Inference
Цель
Минимизация времени обучения (time-to-train)
Минимизация задержки (latency) или максимизация RPS
Метрики
Epochs/час, convergence speed, GPU utilization
Time to first token (TTFT), tokens/s, throughput
GPU требования
Много VRAM (модель + градиенты + оптимизатор), FP16/BF16
Меньше VRAM (только веса + KV-cache), INT8/FP8 квантизация
Число GPU
4–8+ на узел, кластеры до 128 GPU
1–4 GPU для большинства задач
Интерконнект
NVLink/NVSwitch обязательны для multi-GPU
PCIe Gen4 достаточно для инференса
Сеть
InfiniBand/RDMA для кластеризации (100–800 GbE)
Ethernet 10–100 GbE
Storage
NVMe RAID 0 для быстрой загрузки датасетов (≥3 ГБ/с)
NVMe для моделей, меньшие требования к IOPS
Масштабирование
Горизонтальное (добавление узлов)
Вертикальное (батчинг) или репликация инстансов
Сервер для обучения (Training): когда нужны много GPU, NVLink и кластер
Обучение современных LLM и GenAI-моделей упирается в два фактора: объём VRAM и пропускную способность обмена данными между GPU. Модель Llama 3 70B в FP16 требует примерно 148–168 ГБ VRAM только для весов, плюс дополнительное место для градиентов, активаций и состояния оптимизатора. Это означает, что одного GPU H100 (80 ГБ) или H200 (141 ГБ) недостаточно: нужен tensor parallelism на 2–4 GPU или data parallelism на 4–8 GPU.

При multi-GPU обучении возникает бутылочное горлышко: каждый GPU должен обмениваться градиентами (гигабайты данных на итерацию) с другими ускорителями. PCIe Gen4 x16 даёт примерно 32 ГБ/с bidirectional — этого мало для 4+ GPU. NVLink обеспечивает до 900 ГБ/с между GPU (на примере H100), снижая задержки обмена параметров.
Когда одного узла недостаточно и нужен кластер:
  • Модели 70B+ с полным обучением: даже 8 GPU H100 (640 ГБ VRAM) могут не хватить для batch size >8 при длинном контексте (32K+ токенов). Приходится распределять обучение на 2–4 узла.

  • Масштабирование на 16–128 GPU: foundation models (100B+ параметров) требуют кластеров. Внутри узла работает NVLink, между узлами — InfiniBand или 100–800 GbE с RDMA/GPUDirect для минимизации задержек.

  • Storage throughput: при кластерной обучении датасет должен загружаться параллельно на все узлы. Без распределённой файловой системы (Lustre, BeeGFS, Ceph) и NVMe RAID 0 на узлах возникает простой GPU в ожидании данных.
NVSwitch 7.2T объединяет до 576 GPU в едином домене, позволяя масштабировать обучение без деградации производительности. 800G коммутаторы поддерживают кластеры до 100 000 ускорителей — такая архитектура используется в крупных AI-лабораториях.
Сервер для инференса (Inference): как выбрать под задержку, RPS и стоимость
Инференс (развёртывание обученной модели) делится на два класса: latency-critical (realtime, низкая задержка) и throughput-oriented (batch processing, высокая пропускная способность). Неправильный выбор GPU и квантизации приводит либо к высоким latency для пользователей, либо к переплате за избыточную мощность.
Latency-critical инференс (чатботы, голосовые ассистенты):
  • Метрика: Time to First Token (TTFT) <50 мс, tokens/s >50.
  • GPU: H100/H200 (низкая задержка) или L40S (оптимизирован для инференса).
  • Batch size: 1–4 запроса одновременно.
  • Квантизация: FP16/BF16 или INT8 для снижения VRAM и ускорения.
Throughput-oriented инференс (обработка логов, анализ текстов):
  • Метрика: Requests per second (RPS) >100.
  • GPU: RTX 6000 Ada, L40S или multi-GPU конфигурации.
  • Batch size: 64–256 запросов одновременно.
  • Квантизация: INT8/FP8 снижает VRAM на 50–75%, ускоряет throughput.
Квантизация (INT8/FP8/FP16) как способ удешевления:

Квантизация снижает точность вычислений с 32 бит (FP32) до 8 бит (INT8/FP8), уменьшая требования к VRAM и ускоряя инференс. Llama 3 70B в FP16 требует примерно 148 ГБ VRAM, в INT8 — 24–48 ГБ (помещается на 2 GPU RTX 6000 Ada с 48 ГБ). При этом потеря точности модели минимальна для большинства задач.
Batching и KV-cache:

KV-cache хранит историю токенов в контексте, занимая значительную часть VRAM при длинном контексте (32K+ токенов). Батчинг увеличивает throughput в 2–10 раз, но повышает VRAM на 20–50% от весов модели. Пример: Llama 3 8B на A100 (80 ГБ) даёт 50–60 tokens/s при batch=1, более 200 tokens/s при batch=8. Latency первого токена растёт с 50–80 мс до 100–150 мс.

Mixtral 8x7B (модель с mixture-of-experts) на A100 показывает 35–45 tokens/s при batch=1, более 120 tokens/s при batch=8, но latency первого токена выше (80–120 мс) из-за routing между экспертами. Квантизация 4-bit (Q4_K_M) позволяет запустить Mixtral на 2 GPU RTX 4090 (48 ГБ суммарно) вместо 4 GPU A100.

Сердце системы: выбор CPU и GPU ускорителей для задач машинного обучения

Связка CPU и GPU определяет производительность AI-сервера. Типовая ошибка — купить топовые GPU, но «забыть» про CPU с достаточным числом линий PCIe. Результат: GPU простаивают из-за узкого места между процессором и ускорителями.
Где возникает бутылочное горлышко
GPU обменивается данными с CPU, RAM, NVMe и другими GPU через PCIe или NVLink. Если CPU даёт только 64 линии PCIe Gen4, а нужно подключить 4 GPU (каждый требует x16) + NVMe (x4) + сетевую карту (x8), возникает конфликт: часть устройств переходит в режим x8 или x4, теряя до 50% пропускной способности.
Основные узкие места:

Мало PCIe-линий от CPU: AMD EPYC 9005 даёт 128 линий PCIe 5.0 на сокет, Intel Xeon 6 — 80–136 линий. Для 4 GPU нужно минимум 64 линии (4 × x16), плюс запас для NVMe и сети.

Медленный storage: NVMe PCIe Gen3 x4 даёт примерно 3,5 ГБ/с, Gen4 x4 — примерно 7 ГБ/с. При обучении на датасетах более 1 ТБ GPU простаивают, ожидая загрузки батчей. Решение: RAID 0 из нескольких NVMe или распределённая FS.

Нехватка RAM: правило эмпирическое — RAM = 2x VRAM GPU. Для 4 GPU H100 (320 ГБ VRAM) нужно 640 ГБ DDR5 ECC. Без этого модель не загружается в GPU, либо система использует swap, замедляя обучение в разы.

NUMA и латентность: в двухсокетных серверах GPU должны подключаться к ближайшему CPU-сокету. Если GPU на NUMA node 1, а CPU на node 0, задержки доступа к памяти вырастают на 20–60%.
Из практики компании Work System: в одном проекте заказчик купил 4 GPU H100, но CPU давал только 48 линий PCIe Gen4 (старый Xeon Scalable 2-го поколения). GPU работали в режиме x8 вместо x16, теряя 50% bandwidth. Обучение Llama 3 70B замедлилось в 2 раза. После замены CPU на AMD EPYC 9005 (128 линий PCIe 5.0) производительность вышла на ожидаемые метрики.
Роль GPU как вычислительного ядра
GPU выполняет параллельные матричные операции для forward/backward pass в нейросетях. CPU отвечает за препроцессинг данных, управление обучением и координацию между GPU. Без баланса CPU перестаёт успевать подавать батчи, GPU простаивают (GPU utilization <50%). Рекомендация: 16+ физических ядер CPU на 4 GPU, 32+ ядер на 8 GPU.
Пропускная способность памяти и HBM
GPU H100 использует HBM3 с bandwidth 3,35 ТБ/с, H200 — HBM3e с 4,8 ТБ/с. Это на порядок выше, чем у системной RAM DDR5 (до 200 ГБ/с на канал). HBM критична для memory-bound задач (attention-механизмы в трансформерах), где вычисления ограничены скоростью доступа к весам модели, а не TFLOPS.

Критерии выбора GPU для ИИ: VRAM, пропускная способность, PCIе/NVLink и точность вычислений

Выбор GPU определяется четырьмя критериями: объём VRAM, пропускная способность памяти (HBM), тип интерконнекта (PCIe vs NVLink) и поддержка точности вычислений (FP32/FP16/INT8/FP8). Неправильный выбор приводит к Out of Memory ошибкам или переплате за избыточные характеристики.
Сколько VRAM нужно на практике (LLM, CV, генерация изображений)
VRAM «съедается» тремя компонентами: веса модели, градиенты/оптимизатор (при обучении), KV-cache и batch size (при инференсе). Для компьютерного зрения добавляется разрешение изображений и длительность видео.
Оценка VRAM по сценариям
Сценарий
Минимальная VRAM
Комфортная VRAM
Комментарий
Inference LLM 7B (Q4)
4–6 ГБ
8–12 ГБ
RTX 4090 24 ГБ подходит
Inference LLM 13B (FP16)
26 ГБ
32–40 ГБ
Нужен RTX 6000 Ada 48 ГБ или offloading
Inference LLM 70B (FP16)
148–168 ГБ
200+ ГБ
2 GPU H100 (160 ГБ) или 4 RTX 6000 Ada
Fine-tune 7B (LoRA)
8–12 ГБ
16–24 ГБ
RTX 4090 достаточно
Fine-tune 70B (QLoRA)
24–48 ГБ
64–80 ГБ
Квантизация снижает требования в 3–4 раза
Training 7B с нуля
40–60 ГБ
80 ГБ
Градиенты + оптимизатор × 3–4 от весов
CV (object detection)
8–16 ГБ
24 ГБ
Зависит от разрешения (1080p vs 4K)
Diffusion (Stable Diffusion)
10–16 ГБ
24–40 ГБ
Высокое разрешение (2K+) требует >24 ГБ
Что «съедает» VRAM при обучении:
  • Веса модели: базовый объём (Llama 3 70B FP16 примерно 140 ГБ).
  • Градиенты: копия весов для backward pass (ещё примерно 140 ГБ).
  • Состояние оптимизатора (Adam): ещё две копии весов (ещё примерно 280 ГБ).
  • Активации: промежуточные тензоры forward pass (зависит от batch size, +20–50 ГБ).

Итого для Llama 3 70B при обучении: 140 + 140 + 280 + 50 = примерно 610 ГБ минимум. Это требует 8 GPU H100 (640 ГБ) или 5 GPU H200 (705 ГБ). При использовании техник оптимизации (gradient checkpointing, mixed precision) можно снизить требования, но с замедлением обучения.
Безопасный запас VRAM:
Рекомендация — закладывать +20–30% над расчётным значением. Причины: overhead операционной системы, драйверов CUDA, буферы для асинхронных операций. Если модель занимает 22 ГБ, а GPU имеет 24 ГБ, высок риск OOM при росте batch size или длины контекста.
Когда выгоднее multi-GPU:
Если модель не помещается в один GPU, есть два пути: model sharding (tensor/pipeline parallelism) на несколько GPU или использование GPU с большей VRAM (переход с H100 80 ГБ на H200 141 ГБ). Первый вариант часто дешевле, но требует NVLink для низких задержек обмена параметрами.
Пропускная способность памяти и HBM: почему «TFLOPS» не равны реальной скорости
Маркетинговые характеристики GPU часто указывают TFLOPS (триллионов операций с плавающей точкой в секунду), но реальная производительность может ограничиваться memory bandwidth, если задача memory-bound.
Compute-bound vs memory-bound:
  • Compute-bound: вычисления (умножение матриц) доминируют над загрузкой данных из памяти. Производительность определяется TFLOPS. Пример: training с большими батчами, где каждый тензор переиспользуется многократно.

  • Memory-bound: вычисления простые, но требуют постоянной загрузки данных из VRAM. Производительность определяется HBM bandwidth. Пример: attention-механизмы в трансформерах, где веса модели загружаются для каждого токена.

Пример: H100 (80 ГБ HBM3) даёт 1000 TFLOPS FP16, но пропускная способность памяти 3,35 ТБ/с. При инференсе LLM с длинным контекстом GPU загружает веса модели (условно 140 ГБ) для каждого токена. Если bandwidth недостаточна, TFLOPS простаивают. A100 (40 ГБ) имеет 1,56 ТБ/с — в 2 раза медленнее, что снижает tokens/s в инференсе пропорционально, несмотря на близкие TFLOPS.
H200 с HBM3e даёт 4,8 ТБ/с (на 43% выше H100), что может ускорить инференс больших моделей на 30–40% при тех же TFLOPS. Для задач обучения разница меньше, так как батчинг и повторное использование данных снижают зависимость от bandwidth.
PCIe vs NVLink/SXM/NVSwitch: когда interconnect критичен
Интерконнект (способ соединения GPU между собой и с CPU) определяет, насколько эффективно GPU обмениваются градиентами, активациями или параметрами модели. PCIe подходит для одиночных GPU или инференса, NVLink — обязателен для multi-GPU обучения.
Сравнение интерфейсов
Интерфейс
Где используется
Пропускная способность
Задержки
Плюсы/минусы | Типовые кейсы
PCIe Gen4 x16
Серверы общего назначения, потребительские GPU
примерно 32 ГБ/с (bidirectional)
1–2 мкс
Универсальность, низкая стоимость; но мало для multi-GPU training

Inference, 1–2 GPU
PCIe Gen5 x16
Новые платформы 2025–2026
примерно 64 ГБ/с
0,8–1,5 мкс
Вдвое быстрее Gen4, подходит для mid-range multi-GPU

Inference, fine-tuning 2–4 GPU
NVLink
NVIDIA datacenter GPU (H100/A100)
900 ГБ/с (H100, bidirectional)
<1 мкс
Высокая скорость, низкие задержки; но только между GPU

Multi-GPU training, 4–8 GPU на узел
SXM
HGX/DGX платформы
Использует NVLink/NVSwitch
<1 мкс
Интеграция до 8 GPU в одном шасси; высокая стоимость

Training foundation models, HPC
NVSwitch
Крупные кластеры GPU
900 ГБ/с (3-е поколение, 64 порта NVLink 4.0)
<1 мкс
Full-mesh до 576 GPU; максимальная масштабируемость

Multi-node training, суперкомпьютеры
Когда PCIe достаточно:
Для инференса и fine-tuning на 1–2 GPU PCIe Gen4/Gen5 не создаёт узкого места. Данные загружаются в GPU единожды, дальнейшие вычисления идут внутри ускорителя. Даже при batch inference GPU успевает обработать batch за время, пока CPU готовит следующую порцию данных.
Когда NVLink критичен:
Multi-GPU обучение (data parallelism или tensor parallelism) требует постоянного обмена градиентами между GPU. PCIe Gen4 x16 (примерно 32 ГБ/с) создаёт bottleneck: для 4 GPU H100 (каждый генерирует 10–20 ГБ/с градиентов) суммарный трафик 40–80 ГБ/с превышает пропускную способность. Результат: GPU простаивают, ожидая синхронизации. NVLink даёт 900 ГБ/с на пару GPU, снимая ограничение.
FP32/FP16/BF16/INT8/FP8: как точность влияет на цену и производительность
Точность вычислений (число бит на число) определяет компромисс между качеством модели, скоростью и требованиями к VRAM. Современные GPU поддерживают mix-precision training и квантизацию для ускорения.
Precision cheat-sheet
Точность
Биты
Где применяется
Риски качества
Требования к GPU
FP32
32
Стандарт обучения (legacy)
Нет
Высокие требования к VRAM и bandwidth
FP16
16
Mixed precision training, inference
Underflow для малых градиентов
Tensor Cores 2-го+ поколения
BF16
16
Training на TPU/GPU (диапазон как FP32)
Минимальные
Tensor Cores 3-го+ поколения (H100/A100)
INT8
8
Inference (квантизация весов)
Небольшое падение accuracy
Tensor Cores 3-го+, INT8 Tensor Ops
FP8
8 (E4M3/E5M2)
Inference/training на Blackwell/H200
Минимальные с block-scaling
5-е поколение Tensor Cores (B200)
FP32 (32 бита): высокая точность и диапазон, стандарт для обучения до 2020 года. Сегодня используется редко из-за высоких требований к памяти (в 2 раза больше, чем FP16).

FP16 (16 бит): в 2 раза меньше VRAM, в 2 раза быстрее вычисления на Tensor Cores. Склонен к underflow (очень малые числа обнуляются), что требует loss scaling при обучении. Стандарт для inference и mixed precision training.

BF16 (Brain Float 16): сохраняет диапазон чисел как FP32, но точность как FP16. Устраняет проблему underflow. Рекомендуется для обучения на современных GPU (H100/A100) и TPU.

INT8 (8 бит): квантизация весов модели для инференса. Llama 3 70B в INT8 занимает 24–48 ГБ вместо примерно 140 ГБ FP16. Точность модели может незначительно снизиться, что допустимо для большинства продакшн-систем. Ускорение инференса в 2–4 раза на edge-устройствах.

FP8 (8 бит, E4M3/E5M2): новый формат от NVIDIA для Blackwell GPU (B200). В 4 раза меньше памяти, чем BF16. Поддерживает block-scaling для снижения потерь точности. Может ускорить обучение foundation models при приемлемой деградации метрик.

Выбор CPU: AMD EPYC или Intel Xeon — как не упереться в PCIe и память

CPU в AI-сервере выполняет роль координатора: управляет GPU, загружает данные, препроцессит батчи. Неправильный выбор CPU создаёт bottleneck в линиях PCIe или пропускной способности памяти.
Линии PCIe и топология слотов: сколько нужно на 1/2/4/8 GPU
PCIe-линии от CPU определяют, сколько устройств можно подключить на полной скорости. Нехватка линий приводит к переключению GPU в режим x8 или x4, теряя до 50% bandwidth.
Минимальные требования PCIe
GPU-конфигурация
Минимальные линии PCIe
Рекомендуемые линии
Почему
1 GPU
16 (x16)
24 (x16 GPU + x4 NVMe + x4 сеть)
Базовая конфигурация
2 GPU
32 (2 × x16)
40 (2 × x16 + x4 NVMe + x4 сеть)
Inference, fine-tune
4 GPU
64 (4 × x16)
80 (4 × x16 + 8 NVMe + x8 сеть)
Mid-range training
8 GPU
128 (8 × x16)
136+ (8 × x16 + резерв)
High-end training, HGX
AMD EPYC 9005 (5-е поколение, 2025):
  • 128 линий PCIe 5.0 на сокет.
  • 12 каналов DDR5 (bandwidth до 460 ГБ/с).
  • Подходит для: 4–8 GPU конфигураций без компромиссов.
Intel Xeon 6 (6-е поколение, 2025):
  • 80–136 линий PCIe 5.0 (136 в single-socket флагманах).
  • 8 каналов DDR5 (bandwidth до 307 ГБ/с).
  • Подходит для: 2–4 GPU в типовых конфигурациях, 8 GPU в топовых.
Риск: если CPU даёт только 64 линии PCIe, а нужно 4 GPU (64 линии) + NVMe (4 линии) + сетевая карта 100 GbE (x16), суммарно 84 линии — часть устройств переходит в x8, теряя производительность. Решение: использовать PLX-переключатели (разветвители PCIe), но это добавляет 1–2 мкс задержки.
Топология слотов:
В двухсокетных серверах линии PCIe распределяются между сокетами. Пример: каждый сокет EPYC 9005 даёт 64 линии для GPU. Если установить 4 GPU на один сокет, они работают через один NUMA-узел (низкая задержка). Если распределить по 2 GPU на сокет, возникает NUMA-эффект: обращение GPU к памяти дальнего сокета замедляется на 20–60%.

RAM и Storage (NVMe): как обеспечить подачу данных без простоев GPU

GPU работают в сотни раз быстрее CPU, поэтому bottleneck смещается на загрузку данных. Нехватка RAM или медленный storage приводят к простою GPU, когда они ждут следующий batch.
Сколько RAM нужно и почему (правило-ориентир + когда оно ломается)
Эмпирическое правило: RAM = 2× VRAM GPU (минимум). Для продакшн-систем — 2–4 ГБ RAM на каждый 1 ГБ VRAM GPU.
Рекомендации RAM
GPU-конфигурация
Минимальная RAM
Комфортная RAM
Для каких задач
1 GPU H100 (80 ГБ)
128 ГБ
256 ГБ
Inference, fine-tune
4 GPU H100 (320 ГБ)
512 ГБ
768 ГБ
Training средних моделей
8 GPU H200 (1128 ГБ)
1 ТБ
1,5–2 ТБ
Foundation models, long context
4 GPU A100 (160 ГБ) + data-engineering
512 ГБ
1 ТБ
Препроцессинг больших датасетов
Почему RAM = 2× VRAM:
  • Загрузка модели: веса модели сначала загружаются в RAM, затем копируются в VRAM GPU через PCIe. Без достаточной RAM модель не поместится, либо система использует swap (в 100+ раз медленнее).

  • Буферизация батчей: CPU подготавливает несколько батчей вперёд, чтобы GPU не простаивали. Каждый batch (например, 32 изображения 1024×1024 × 3 канала × FP32 примерно 400 МБ) требует RAM.

  • Препроцессинг: data augmentation, tokenization, нормализация выполняются в RAM перед отправкой в GPU.
Когда правило ломается:
  • Data-engineering пайплайны: если препроцессинг включает pandas/polars с большими таблицами (>100 ГБ), RAM нужна независимо от GPU. Рекомендация: 512 ГБ–1 ТБ для ETL-задач.

  • Inference с динамическим батчингом: vLLM и подобные системы держат в RAM очередь запросов и частично загруженные модели. RAM = 4× VRAM для high-RPS систем.

  • Модели с длинным контекстом: KV-cache растёт линейно с длиной контекста. Llama 3 70B с 32K контекстом требует дополнительно 50–80 ГБ RAM для буферизации.
NVMe/RAID/горячие и холодные данные: практическая архитектура хранения
Storage для AI-задач делится на три уровня: горячие данные (активные датасеты), тёплые (архив обучений, чекпойнты), холодные (долгосрочное хранение).
Tiered storage:
  • NVMe (hot): активные датасеты, загружаемые в каждой epoch. Требования: ≥3 ГБ/с throughput, низкая латентность (<1 мс). Объём: 1–8 ТБ на узел.

  • SSD/SATA (warm): рабочие копии датасетов, чекпойнты моделей. Throughput ниже (0,5–1 ГБ/с), но больший объём (10–50 ТБ).

  • Object storage/NAS (cold): архив завершённых экспериментов, raw-данные. Доступ редкий (раз в неделю/месяц). Подходит S3-совместимое хранилище или NAS с SATA-дисками.
Почему не переплачивать за NVMe «под всё»:
NVMe PCIe Gen4 x4 стоит условно $100–300 за 1 ТБ, Gen5 — условно $200–500. Если датасет 50 ТБ, полностью на NVMe это значительные затраты. Холодные данные (80% от 50 ТБ примерно 40 ТБ) загружаются раз в месяц — достаточно SATA/NAS за условно $20–50/ТБ. Экономия значительная.
RAID для обучения:
  • RAID 0: объединяет несколько NVMe в один логический диск, увеличивая throughput (2 диска × 7 ГБ/с примерно 14 ГБ/с). Риск: отказ одного диска теряет все данные. Подходит для временных датасетов с бэкапом на NAS.

  • RAID 1/10: зеркалирование для надёжности, но без роста throughput. Используется для чекпойнтов моделей (критичны для восстановления обучения).

  • Без RAID: достаточно для inference, где датасет загружается единожды при старте.

Сеть и кластеризация: Ethernet vs InfiniBand, RDMA и GPUDirect

Сеть становится критична при multi-node обучении: GPU на разных узлах обмениваются градиентами через сетевые карты. Медленная сеть или высокая задержка убивают масштабирование.
Когда достаточно 10/25/100GbE, а когда нужен InfiniBand
Сценарий → сеть
Сценарий
Рекомендуемая скорость
Задержка
RDMA
Почему
Одиночный узел inference
1–10 GbE
Не критична
Нет
Данные загружаются единожды при старте
Multi-node training (2–4 узла)
100–200 GbE
<10 мкс
Желательно
Обмен градиентами 10–50 ГБ/итерация
Multi-node training (8+ узлов)
InfiniBand (200–400 Gbps)
1–2 мкс
Обязательно
Жёсткая синхронизация, low jitter
Распределённое хранилище (Lustre/Ceph)
100 GbE
<10 мкс
RDMA/NFS over RDMA
Параллельный доступ к датасету
Inference с динамическим батчингом
25–100 GbE
<5 мс
Нет
Низкий трафик, latency не критична
Ethernet (RoCEv2):
  • Плюсы: низкая стоимость, использует существующую инфраструктуру, масштабируется до тысяч узлов в гипермасштабных средах.
  • Минусы: задержка 7–10 мкс на настроенных сетях (против 1–2 мкс у InfiniBand), джиттер выше.
  • Когда достаточно: inference, fine-tuning на 1–2 узлах, распределённое хранилище с нечастым доступом
InfiniBand:
  • Плюсы: задержка 1–2 мкс для малых сообщений, bandwidth до 400 Gbps (HDR), масштабируется до десятков тысяч серверов.
  • Минусы: высокая стоимость (коммутаторы дороже Ethernet в 2–4 раза), требует выделенной ткани (не интегрируется с корпоративной сетью).
  • Когда обязателен: training foundation models на 8+ узлах, HPC-симуляции с жёсткой синхронизацией.

Питание, охлаждение и требования к площадке: чтобы сервер работал стабильно 24/7

Недооценка питания и охлаждения — типовая ошибка, приводящая к троттлингу GPU, аварийным отключениям и сокращению срока службы оборудования.
Расчёт мощности (PSU), PDU и запаса по питанию
Оценка потребления
Компонент
Типовое TDP
Комментарий
CPU (AMD EPYC/Intel Xeon)
200–350 Вт
Зависит от числа ядер и частоты
GPU H100 (SXM)
700 Вт
PCIe-версия: 350 Вт
GPU H200
700 Вт
GPU A100 (80 ГБ)
400 Вт
NVMe SSD (каждый)
5–15 Вт
Вентиляторы/прочее
50–100 Вт
Пример расчёта (4 GPU H100 SXM):
  • CPU: 300 Вт
  • 4× GPU H100: 4 × 700 = 2800 Вт
  • 4× NVMe: 4 × 10 = 40 Вт
  • Вентиляторы/прочее: 100 Вт
  • Итого: 3240 Вт
Рекомендация запаса: +20–30% над расчётным значением для пиковых нагрузок и старения компонентов. 3240 Вт × 1,25 примерно 4050 Вт. Нужен БП на 4000–4500 Вт или два БП по 2000–2500 Вт (redundant).
PDU (Power Distribution Unit):
В стойке обычно доступно 15–20 кВт (зависит от ЦОД). Один сервер 4 кВт примерно 5 серверов на стойку. Если превысить лимит, сработает защита PDU, отключив оборудование.
Требования к линиям питания:
  • 230V vs 400V: серверы с TDP >3000 Вт часто требуют 400V (три фазы). Проверьте доступность в ЦОД.
  • C19/C20 разъёмы: стандарт для высокомощных серверов. Убедитесь, что PDU поддерживает.
Воздух vs жидкостное охлаждение (DLC): когда «воздуха недостаточно»
Воздушное охлаждение работает до плотности примерно 20 кВт на стойку. Выше этого порога температура в стойке растёт, GPU троттлят (снижают частоты для защиты), производительность падает на 10–30%.
Сравнение Air vs DLC
Критерий
Воздушное охлаждение
Жидкостное (DLC)
Плотность GPU
До 20 кВт/стойка (примерно 4–6 GPU H100)
До 60–80 кВт/стойка (10–16 GPU)
Шум
Высокий (70–80 дБ при полной нагрузке)
Низкий (контур закрыт, вентиляторы тише)
TDP GPU
Подходит для PCIe-версий (350 Вт)
Обязательно для SXM (700 Вт)
Требования к ЦОД
Холодный/горячий коридор, высокий airflow
Подвод/отвод жидкости, резервуары
CAPEX
Низкий (стандартные серверы)
Высокий (инфраструктура DLC, стоимость +30–50%)
OPEX
Высокий (электроэнергия на охлаждение, PUE 1,5–2,0)
Низкий (PUE 1,1–1,3)
Риски
Перегрев при недостаточном airflow
Протечки (редко при правильной установке)
Когда DLC обязательно
  • Плотность >20 кВт/стойка: 8 GPU H100 SXM примерно 5,6 кВт только GPU + 1 кВт CPU/прочее примерно 6,6 кВт на сервер. В стойке 42U помещается 6–8 серверов примерно 40–50 кВт. Воздух не справляется.

  • SXM GPU: рассчитаны на жидкостное охлаждение (TDP 700 Вт против 350 Вт у PCIe).

  • Ограничения ЦОД: если система кондиционирования не тянет >20 кВт/стойка, DLC — единственный вариант.
Из практики Work System: заказчик установил 8 GPU H100 PCIe в стойку с воздушным охлаждением. Температура GPU достигала 85–90°C (порог троттлинга 83°C), частоты снижались на 20%, обучение замедлилось на 25%. После перехода на DLC температура стабилизировалась на 65–70°C, производительность вышла на номинал.

Типовые ошибки при выборе AI-сервера (и как их избежать)

Даже с лучшими железом проект может провалиться из-за архитектурных просчётов. Разберём антипаттерны и способы их предотвращения.
Экономия на VRAM → OOM и деградация производительности
Симптомы:

  • OOM (Out of Memory): обучение прерывается с ошибкой "CUDA out of memory".

  • Forced offloading: модель частично выгружается в RAM, замедляя обучение в 10–100 раз.

  • Низкий batch size: приходится снижать batch до 1–2, что увеличивает время обучения и ухудшает convergence.

  • Нестабильная скорость: GPU utilization прыгает от 10% до 90% из-за свопинга.
Что делать:

  • Квантизация: переход с FP16 на INT8/FP8 снижает VRAM в 2–4 раза.

  • Gradient checkpointing: пересчитывает активации вместо хранения в памяти, экономит 30–50% VRAM за счёт 10–20% замедления.

  • Model sharding: распределение модели на несколько GPU (tensor/pipeline parallelism).

  • Переход на GPU с большей VRAM: 4 GPU H100 (320 ГБ) → 3 GPU H200 (423 ГБ).
Из практики Work System: заказчик обучал Llama 3 70B на 2 GPU A100 (160 ГБ). Модель не помещалась (требовалось примерно 200+ ГБ с градиентами). Использовали gradient checkpointing + BF16 mixed precision, но обучение замедлилось на 40%. Переход на 4 GPU H100 (320 ГБ) с DeepSpeed ZeRO-2 снизил время обучения в 2,5 раза.
Игнорирование PCIe/NUMA → GPU простаивают
Симптомы:

  • Низкая утилизация GPU: nvidia-smi показывает <70% GPU utilization, хотя задача compute-heavy.

  • Просадки производительности: обучение идёт 100 samples/s, затем падает до 30 samples/s на несколько секунд.

  • Неравномерность между GPU: GPU 0 загружен на 90%, GPU 2 — на 40%.
Причины:

  • Нехватка PCIe-линий: GPU работают в режиме x8 вместо x16, пропускная способность упала вдвое.

  • NUMA cross-access: GPU 0 обращается к памяти дальнего сокета, задержки выросли в 2 раза.

  • PLX-переключатели: использование PCIe-свитчей добавляет 1–2 мкс латентности, снижая производительность синхронизации между GPU.
Решение:
Симптом
Диагностика
Решение
Низкая утилизация GPU
nvidia-smi topo -m (проверка топологии PCIe)
Переключить на CPU с достаточными PCIe-линиями
Неравномерность GPU 0/GPU 2
numactl --hardware (проверка NUMA)
Настроить NUMA-pinning (numactl --cpunodebind)
Просадки производительности
nsys profile (профайлер задержек)
Исключить cross-NUMA доступ, использовать NVLink
Недооценка питания/охлаждения → троттлинг и сбои
Симптомы:

  • Thermal throttling: GPU снижают частоты при достижении 83–85°C, производительность падает на 10–30%.

  • Аварийное отключение: при температуре >90°C GPU выключаются для защиты.

  • Сбои питания: PDU отключает стойку из-за превышения лимита kW.
Причины:

  • Недостаточное охлаждение: плотность GPU >20 кВт/стойка, воздушное охлаждение не справляется.

  • Нехватка мощности БП: суммарное TDP GPU + CPU превышает мощность PSU.

  • Неправильная конфигурация ЦОД: холодный/горячий коридоры смешаны, нет изоляции.
Контрольные точки мониторинга:

  • Температура GPU: <75°C норма, 75–83°C — предупреждение, >83°C — критично.

  • Мощность GPU: должна быть стабильной (±5% от TDP). Если прыгает ±20%, проблема с питанием.

  • Частоты GPU: проверка через nvidia-smi -q | grep "Clocks". Падение на 10%+ — троттлинг.

  • Вентиляторы: скорость >90% длительно — система не справляется с охлаждением.
Решение:


  • Добавление резерва мощности PSU (+20–30%).

  • Проверка лимитов стойки и PDU в ЦОД перед установкой.

Чек-лист: как сконфигурировать идеальный сервер для ваших задач

Пошаговая инструкция для самостоятельного подбора конфигурации.

  1. Определение задач: обучение/инференс, LLM/CV/GenAI, размер модели (7B/70B/100B+), частота запросов (RPS), длина контекста.
  2. Выбор GPU: определить минимальную VRAM (из раздела «Сколько VRAM нужно»), добавить +20–30% запас.
  3. Подбор платформы: PCIe-сервер (до 4 GPU) или HGX/DGX (8 GPU), NVLink для multi-GPU training.
  4. Расчёт мощности БП: суммировать TDP GPU + CPU + NVMe + вентиляторы, добавить +20–30% запас.
  5. Выбор системы охлаждения: воздушное до 20 кВт/стойка, DLC выше.
  6. Подбор CPU: обеспечить достаточные PCIe-линии (16 на GPU + резерв для NVMe/сети), 16+ ядер на 4 GPU.
  7. Расчёт RAM: минимум 2× VRAM GPU, комфортно 2–4 ГБ на 1 ГБ VRAM.
  8. Выбор NVMe: ≥3 ГБ/с throughput, объём 1–8 ТБ в зависимости от размера датасета, RAID 0 для обучения.
  9. Подбор сети: 10–100 GbE для одиночных узлов или inference, InfiniBand для multi-node training.
  10. Проверка лимитов площадки: доступная мощность стойки (кВт), охлаждение (PUE), требования к линиям питания (230V/400V).
  11. Выбор софта: драйверы NVIDIA/AMD, CUDA/ROCm, PyTorch/TensorFlow — проверка совместимости по матрице.
  12. Настройка мониторинга: nvidia-smi exporter, Prometheus/Grafana для GPU utilization/memory/temps.
Как мы подбираем конфигурации в Work System:
  • Анализируем bottlenecks по задаче (VRAM, PCIe, storage throughput).

  • Подбираем сценарии нагрузки (обучение/инференс, RPS, контекст).

  • Учитываем требования ЦОД (мощность, охлаждение, сеть).

  • Проверяем совместимость софта (драйверы, фреймворки, контейнеры).

  • Предоставляем референс-сборки с обоснованием каждого компонента.
Ограничения: рекомендации основаны на типовых сценариях; для уникальных задач (custom архитектуры, нестандартные нагрузки) требуется индивидуальный аудит. Мы не гарантируем отсутствие bottlenecks без тестирования реальной нагрузки на подобранной конфигурации.

FAQ — ответы на частые вопросы по выбору GPU-сервера для ИИ

Источники и методология

Источники данных:

Статья основана на следующих типах источников (в порядке приоритета):

  1. Официальные спецификации производителей: datasheets NVIDIA (A100/H100/H200, NVLink, CUDA), AMD (Instinct MI300X/MI450X, ROCm), Intel/AMD (Xeon 6, EPYC 9005).
  2. Peer-reviewed публикации: документированные исследования по производительности инференса LLM и AI-оптимизации.
  3. Отраслевые аналитики и исследования: отчёты по рынку AI-серверов.
  4. Документация фреймворков: PyTorch (совместимость CUDA), TensorFlow (ROCm support), NVIDIA Kubernetes Device Plugin.
  5. Практический опыт Work System: проекты поставки GPU-серверов для клиентов (2020–2026), анализ типовых ошибок и bottlenecks.
Методика формирования рекомендаций:

  • По типам нагрузок: анализ требований training vs inference, memory-bound vs compute-bound, latency-critical vs throughput-oriented.
  • Узкие места (bottlenecks): идентификация критичных компонентов (VRAM, PCIe lanes, NVMe throughput, сеть, охлаждение) для каждого сценария.
  • TCO-расчёты: учёт CAPEX (стоимость оборудования), OPEX (электроэнергия, PUE, администрирование), амортизации (3 года), сравнение с облаком/арендой.
  • Ограничения: характеристики зависят от модификации (PCIe vs SXM, ревизий HBM), всегда проверяйте актуальные datasheet'ы производителей.
Ссылки на источники:

  1. NVIDIA H100/H200 Datasheets: nvidia.com/en-us/data-center
  2. AMD Instinct MI450X Announcement: amd.com/en/newsroom
  3. PyTorch CUDA Compatibility: pytorch.org/get-started
  4. TensorFlow ROCm Support: tensorflow.org/install/source
  5. NVIDIA Developer Blog (GPUDirect RDMA): developer.nvidia.com/blog/benchmarking-gpudirect-rdma-on-modern-server-platforms
  6. NVIDIA Kubernetes Device Plugin: github.com/NVIDIA/k8s-device-plugin
  7. AMD ROCm Blog: rocm.docs.amd.com
  8. Mellanox/NVIDIA InfiniBand Whitepaper: network.nvidia.com/pdf/whitepapers/TB_GPU_Direct.pdf