Tilda Publishing
Привет, любопытный друг. Да, это Tilda. Потому что мы хотим быстро внедрять и управлять решением, а не ждать
в очереди разработчика. Контроль, предсказуемость и отказоустойчивость — наша главная идея.
Подберём типовое или произведем на заказ серверное оборудование, предоставим расчёт и поможем интегрировать в систему.

Заполните форму запроса слева или отправьте описание вашей задачи на почту get@work-system.ru

При отправке письма на почту укажите номер телефона вашего специалиста для обсуждения аналогов оборудования в случае необходимости

Как выбрать видеокарту (GPU) для ИИ и обучения нейросетей: полное руководство

Обновлено: Февраль 2026.
Выбор видеокарты для ИИ — задача, где объём памяти и экосистема поддержки важнее громких цифр производительности. Современные нейросети — от больших языковых моделей (LLM) до генеративных Stable Diffusion — требуют тысячи параллельных операций с огромными массивами данных. GPU с их архитектурой параллельных вычислений справляются с этим в разы быстрее CPU: тысячи ядер работают одновременно, обрабатывая батчи данных и градиенты в режиме реального времени.

Содержание

8

Быстрый ответ: какую GPU брать под ваш сценарий

Если запускаете LLM 7–8B локально (чат-боты, код-ассистенты) → 8–12 GB VRAM достаточно с квантованием Q4_K_M; подойдёт RTX 3060 12GB или RTX 4060 Ti 8GB с офлоадом на RAM.

Если тренируете LoRA для Stable Diffusion/SDXL или дообучаете малые модели → 16–24 GB VRAM; RTX 3090 (б/у) или RTX 4090 закроют задачу с запасом на эксперименты.

Если обучаете модели с нуля или работаете с большими батчами данных (computer vision, NLP) → 24–48+ GB VRAM; смотрите RTX 6000 Ada (48 GB) для workstation или A100 40/80 GB для серверных стоек.

Если строите прод-инференс с SLA и масштабированием → считайте стоимость на токен/запрос, энергопотребление и стабильность; H100/H200 для датацентров, L40S/RTX 6000 для rack-серверов, или облако (Lambda, RunPod) под пиковую нагрузку.
Индустриальные гайды рекомендуют использовать облачные GPU для пиков и редких задач вместо покупки дорогого ускорителя. — Fluence Network, 9 Best GPU for Deep Learning in 2026, 2025
Если бюджет ограничен, но хочется попробовать → облачные GPU (Colab Pro+, Vast.ai от $0.20/ч за RTX 3090) или б/у RTX 3060 12GB (~$200–250) с проверкой памяти и температур.

Главные критерии: как выбрать GPU ускоритель по техническим характеристикам

При выборе GPU для нейросетей смотрят не на игровые бенчмарки, а на специфические параметры, которые определяют скорость обучения и инференса.
Практические гайды по AI железу отдельно подчёркивают роль пропускной способности памяти и объёма VRAM для реальной скорости. — Lenovo, AI Graphics Cards: A Comprehensive Guide for 2025, 2025
Объём видеопамяти (VRAM)
Первое, на что нужно смотреть. VRAM хранит веса модели, промежуточные активации при обучении, градиенты и состояния оптимизаторов. Если модель не влезает — система начинает использовать медленный своп на диске или CPU RAM через PCIe, скорость падает в десятки раз.

Для LLM 7B в FP16 нужно минимум 14 GB (только веса), для обучения — в 1.5–2 раза больше. Проверяйте объём VRAM в спецификациях карты — раздел "Memory Size".
Пропускная способность памяти (Memory Bandwidth)
Измеряется в ГБ/с и показывает, как быстро GPU загружает данные из VRAM в вычислительные ядра. Для LLM, где на каждый токен приходится обращение к миллиардам параметров, узкий канал памяти становится бутылочным горлышком.

H100 с HBM3 достигает 3 ТБ/с, что даёт кратный прирост в memory-bound сценариях. Bandwidth зависит от типа памяти (GDDR6 < GDDR6X < HBM2e < HBM3) и ширины шины.
Шина памяти и тип памяти
Ширина шины (128-bit, 256-bit, 384-bit) напрямую влияет на Bandwidth. Модели начального уровня часто режут шину до 128-bit, что ограничивает пропускную способность даже при достойном объёме VRAM.

Например, RTX 4060 Ti 16GB имеет шину 128-bit и ~288 ГБ/с — при обучении больших моделей это заметно медленнее, чем 24 GB на 384-bit шине RTX 3090. Тип памяти тоже важен: GDDR7 даёт значительное преимущество по сравнению с GDDR6 при той же шине.
Тензорные ядра (Tensor Cores) и поддержка смешанной точности
Тензорные ядра — специализированные блоки для матричного умножения (операция FMA — fused multiply-add), которая лежит в основе всех нейросетей. Они ускоряют обучение и инференс при использовании форматов FP16, BF16, FP8 или INT8.

Разница между поколениями: Tensor Cores 1-го поколения (Volta, 2017) поддерживали только FP16; 2-е (Turing, 2018) добавили INT8 для инференса; 3-е (Ampere, 2020) — поддержку TF32 и FP32 через тензорные ядра; 4-е (Hopper/Ada, 2022–2024) — FP8 и Transformer Engine, заточенные под LLM. H100 с 456 тензорными ядрами 4-го поколения выдаёт до 1000 TFLOPS в FP8 — это критично для обучения моделей масштаба GPT.
CUDA ядра и архитектура NVIDIA
CUDA ядра — универсальные процессоры GPU, которые выполняют операции в FP32 и общие вычисления. Их количество влияет на производительность в задачах без тензорных ядер (предобработка данных, кастомные операции).

Compute Capability — версия архитектуры CUDA: модели с архитектурой 8.x (Ampere) и выше поддерживают новые инструкции PyTorch 2.x и TensorFlow 2.15+, включая FlashAttention и xFormers. Старые карты (Compute Capability 6.x–7.x) могут не запустить оптимизированные ядра современных библиотек. Проверяйте в спецификациях "CUDA Cores count" и "Compute Capability" — это определяет совместимость с последними версиями фреймворков.
Совместимость с библиотеками и стабильность драйверов
Для PyTorch и TensorFlow критична поддержка CUDA. NVIDIA доминирует благодаря зрелой экосистеме: PyTorch из коробки работает с CUDA 11.8/12.x, поддерживает xFormers (оптимизация attention), FlashAttention (снижение VRAM), Triton (кастомные ядра), bitsandbytes (квантование).

Перед покупкой AMD проверяйте официальный список поддержки ROCm.
PCIe (Gen3/4/5) и влияние на мульти-GPU
Версия PCIe определяет скорость обмена данными между GPU и CPU/RAM. Для одиночной карты разница между PCIe 3.0 и 4.0 минимальна (5–10% в экстремальных сценариях с частым офлоадом), но для двух GPU, работающих через PCIe (без NVLink), Gen4 x16 даёт ~32 ГБ/с на карту против ~16 ГБ/с у Gen3.

PCIe 5.0 удваивает пропускную способность до 64 ГБ/с — полезно при NVMe-офлоаде больших моделей или data parallelism с синхронизацией весов.
Энергопотребление, питание и охлаждение
TDP (Thermal Design Power) показывает, сколько ватт карта потребляет под максимальной нагрузкой. RTX 4090 — 450W, H100 — до 700W. Для обучения нейросетей GPU работает на 100% часами: недостаток мощности блока питания приводит к троттлингу (снижению частот) или перезагрузкам.

Рекомендуется БП с запасом +200–300W сверх TDP карты. Охлаждение тоже критично: при температуре VRAM >95°C начинается деградация памяти, а при 105°C+ — защитный троттлинг. Для серверных стоек выбирайте карты с турбинным (blower) охлаждением, которое выдувает воздух наружу, не грея соседние GPU.
ECC и стабильность для продакшена
Error-Correcting Code (ECC) — механизм обнаружения и исправления ошибок в памяти. В потребительских картах (GeForce RTX) ECC нет; профессиональные (RTX Ada/A100/H100) имеют ECC, что критично для длительных обучений (недели) и продакшен-инференса, где даже одна битовая ошибка может сломать чекпоинт.

Если строите систему с SLA — ECC обязателен.
Промышленные обзоры ML GPU обычно относят A100/H100 к «стандарту» датацентров, когда важны надёжность и длительная нагрузка. — TRG Datacenters, The Best GPUs for Machine Learning in 2025, 2025

Сколько VRAM нужно для ваших задач (рекомендуемые объёмы + расчёт)

Базовая формула для LLM: параметры × точность + оверхед

Расчёт минимального объёма VRAM для LLM строится по формуле:
VRAM (GB) = P × (Q / 8) × (1 + Overhead),
где P — количество параметров модели в миллиардах, Q — биты на параметр (FP16=16, BF16=16, INT8=8, INT4=4), Overhead — запас на активации, KV-cache и системные буферы (обычно 20–50%).
Пример: модель LLaMA 7B в FP16 весит 7 × (16/8) = 14 GB чистого веса. Добавляем 20% оверхеда → ~16.8 GB VRAM минимум для загрузки и простого инференса. При квантовании в INT8 получаем 7 × (8/8) × 1.2 = 8.4 GB, а 4-bit (Q4_K_M) даёт 7 × (4/8) × 1.2 ≈ 4.2 GB — влезает в RTX 3060 12GB с запасом на KV-cache.

Оверхед зависит от длины контекста и размера батча. KV-cache (ключи и значения слоёв attention) растёт линейно с длиной контекста: для 7B-модели один токен занимает ~0.3 MB в FP16, значит контекст 4096 токенов добавляет ~1.2 GB к VRAM. При батче больше 1 или контексте 128K токенов (как у LLaMA 3.1) KV-cache может съесть +20–40 GB сверх весов модели.

Для обучения оверхед ещё выше: градиенты удваивают веса (×2), состояния оптимизатора Adam добавляют ещё ×2, итого модель 7B в FP16 при обучении требует 14 × 4 = 56 GB без учёта батча и активаций.
Методика расчёта: оценка основана на эмпирических данных из документации llama.cpp и практических тестов Ollama VRAM requirements. Формулы упрощены и не учитывают специфику конкретных реализаций (например, PagedAttention в vLLM или FlashAttention 2), поэтому результаты — это оценка, а не точный предел. Всегда закладывайте запас +10–20% на системные буферы и фоновые процессы.
Stable Diffusion / SDXL / генерация изображений
Генерация изображений требует меньше VRAM, чем LLM, но обучение (даже LoRA) съедает память быстро.

Инференс (генерация картинок):
Stable Diffusion 1.5 в FP16 при разрешении 512×512 занимает ~4–6 GB VRAM (базовая модель + VAE + текстовый энкодер). SDXL (улучшенная версия) при 1024×1024 требует ~8–10 GB в FP16 и ~12–16 GB при использовании ControlNet или upscale-моделей (high-res fix). Если добавляется несколько LoRA-адаптеров (по 100–500 MB каждый) — планируйте +1–2 GB на каждый.

Обучение LoRA:
LoRA (Low-Rank Adaptation) — метод файнтюнинга, где обучаются только малые адаптеры, а основная модель заморожена. Для SDXL обучение LoRA с батчем 1 и разрешением 512×512 требует минимум 9 GB VRAM. При увеличении батча до 4 VRAM растёт до ~21 GB. QLoRA (4-bit квантование базовой модели) снижает требования на 60%: модель 7B параметров в QLoRA занимает ~0.5 GB на 1B параметров против 2 GB в FP16 LoRA — это позволяет обучать на картах 8–12 GB.

Обучение DreamBooth или full fine-tune:
Полное дообучение SDXL требует загрузки всех весов + градиентов + оптимизатора. Это 24–32 GB VRAM минимум при батче 1–2 и mixed precision (FP16). Без оптимизаций типа gradient checkpointing или 8-bit оптимизаторов может потребоваться 40+ GB.

Требования VRAM для Stable Diffusion
Сценарий
Минимальная VRAM
Комфортная VRAM
Комментарий
SD 1.5 инференс 512×512
4 GB
6–8 GB
FP16; +2 GB при ControlNet или нескольких LoRA
SDXL инференс 1024×1024
8 GB
12–16 GB
FP16; high-res fix или upscale съедают +4–6 GB
SDXL + ControlNet + LoRA
12 GB
16–20 GB
Несколько адаптеров и модулей одновременно
LoRA обучение SD 1.5 (батч 1)
6 GB
10–12 GB
Gradient checkpointing снижает до 6–8 GB
LoRA обучение SDXL (батч 1)
9 GB
12–16 GB
QLoRA снижает до 6–8 GB
LoRA обучение SDXL (батч 4)
18 GB
24 GB
Линейный рост от размера батча
DreamBooth SDXL (full)
24 GB
32–40 GB
Полное дообучение; 8-bit оптимизатор снижает до 20–24 GB
Flux Dev (новая архитектура)
16 GB
20–24 GB
Аналог SDXL, но тяжелее; проверяйте требования модели
Примечание: при использовании xFormers или FlashAttention VRAM может снизиться на 10–30% за счёт оптимизации attention-слоёв.
Computer Vision (YOLO/Segmentation) и классический Deep Learning
Задачи компьютерного зрения (детекция объектов, сегментация, классификация) обычно работают с меньшими моделями, чем LLM, но требуют больших батчей для стабильной сходимости.

Влияние размера входа и батча:
YOLOv8 Large с входом 640×640 и батчем 16 занимает ~6–8 GB VRAM при mixed precision (FP16). Увеличение батча до 32 удваивает VRAM до ~12–14 GB. При обучении на высоком разрешении (1280×1280) память растёт квадратично: активации на каждом слое пропорциональны площади изображения, и модель может потребовать 20–24 GB при батче 16.

Почему 12–16 GB часто "норм":
Большинство CV-моделей (ResNet, EfficientNet, YOLO, Mask R-CNN) имеют 20–100 миллионов параметров — это 40–200 MB весов в FP16. Основная память уходит на активации (промежуточные выходы слоёв) и градиенты при обучении. Активации пропорциональны батчу и разрешению, но умеренные по объёму: 12 GB хватает для батча 16–32 на типичных разрешениях (224–640 пикселей). Для больших батчей (64–128) или моделей с тяжёлыми attention-блоками (Vision Transformers) нужно 24+ GB.

Mixed precision и аугментации:
Использование FP16/BF16 (automatic mixed precision в PyTorch) снижает VRAM на 30–50% без заметной потери качества. Аугментации (flip, crop, color jitter) применяются на CPU и не влияют на GPU память, но сложные трансформации (например, MixUp, CutMix) делаются на GPU и могут добавить +10–20% к VRAM. Gradient accumulation (накопление градиентов за несколько малых батчей) позволяет обучать с эффективным батчем 64 на карте с 12 GB VRAM, разбивая его на 4 шага по 16.
Когда помогает квантование и offload (и когда — нет)
Квантование — сжатие модели до меньшей разрядности (8-bit, 4-bit), а offload — перенос части весов на CPU RAM или NVMe-диск. Оба метода снижают требования к VRAM, но имеют trade-offs.

4-bit и 8-bit квантование:
4-bit (Q4_K_M, NF4) снижает вес модели в 4 раза: LLaMA 7B с 14 GB падает до ~3.5 GB. 8-bit (INT8) — в 2 раза: ~7 GB. Библиотека bitsandbytes позволяет загружать модели в 8-bit без предварительной калибровки. 4-bit даёт экономию до 60% VRAM по сравнению с FP16. Квантование эффективно для инференса; при обучении (даже файнтюнинге) веса часто остаются в FP16/BF16, а квантуются только базовые слои (QLoRA).

Когда не помогает:
Квантование не снижает VRAM, занятую активациями или KV-cache — а они могут составлять 50–70% памяти при длинном контексте. Offload бесполезен, если модель влезает в VRAM с запасом: переключение между GPU и CPU добавляет латентность без выигрыша. При обучении с большими батчами квантование весов не снижает память активаций, и нужно либо резать батч, либо брать карту с большим VRAM.

Training vs Inference: чем отличается выбор GPU для обучения и для запуска моделей

Обучение и инференс ставят разные требования к железу.
Для обучения (training): что важнее всего
VRAM — критичен.
Обучение требует в 1.5–4 раза больше памяти, чем инференс: нужно хранить веса, активации forward pass, градиенты backward pass и состояния оптимизаторов (momentum, variance для Adam). Модель LLaMA 7B в FP16 весит 14 GB, но при обучении с Adam занимает ~56 GB: веса (14) + градиенты (14) + оптимизатор (28). A100 80 GB — минимум для обучения 7B-моделей без агрессивных оптимизаций; для моделей 13B+ нужно 2+ карты или H100 с большим VRAM.

Пропускная способность памяти.
Training делает частые обращения к весам: каждый backward pass читает активации и обновляет параметры. Узкий Bandwidth замедляет градиентный спуск. H100 с 3 ТБ/с пропускной способности (HBM3) обучает модели в 2–3 раза быстрее, чем A100 с 1.5 ТБ/с при той же VRAM.

FP16/BF16/FP8 и mixed precision.
Automatic Mixed Precision (AMP) в PyTorch автоматически переключает часть операций в FP16, снижая VRAM на 30–50% и ускоряя обучение на тензорных ядрах. BF16 (Brain Float 16) удобнее FP16 из-за большего динамического диапазона (меньше риска overflow/underflow), поддерживается в Ampere и новее. FP8 (Hopper/Ada) даёт ещё большую экономию, но требует Transformer Engine и доступен только на H100/Ada.
Для инференса (inference): стоимость/ватт, latency, стабильность
Токены в секунду (throughput).
Основная метрика — сколько токенов модель генерирует за секунду. Для чат-ботов 20–40 tok/s комфортны, для API с SLA нужно 100+ tok/s. Throughput зависит от VRAM (не должно быть свопа), Bandwidth (быстрая загрузка параметров) и эффективности attention (FlashAttention 2 ускоряет в 2x).

Batch inference и эффективность.
Для API, обслуживающего несколько пользователей одновременно, важна поддержка батчинга: обработка 8 запросов батчем 8 эффективнее, чем 8 последовательных запросов. Это требует больше VRAM (KV-cache умножается на число пользователей), но снижает latency на запрос. Continuous batching (используется в vLLM, TensorRT-LLM) динамически собирает батчи из запросов разной длины, увеличивая утилизацию GPU до 90%.

Оптимизации: TensorRT, FlashAttention, квантование.
TensorRT (NVIDIA) оптимизирует модель для инференса: сливает слои, квантует в INT8/FP8, удаляет неиспользуемые операции. FlashAttention 2 (алгоритм эффективного вычисления attention) снижает VRAM на 30–50% и ускоряет генерацию длинных контекстов в 2–3x. Квантование в INT8/FP8 позволяет запустить модель 13B на карте с 12 GB VRAM и ускорить инференс на 20–40% (Tensor Cores работают быстрее в низкой точности).
LLM vs Stable Diffusion vs CV — быстрые отличия требований
Сравнение требований задач к GPU
Задача
Что ограничивает
Минимум VRAM
Типичный апгрейд
Особенности
LLM (инференс)
Размер модели + KV-cache
8–12 GB (7B Q4)
24 GB (13B FP16), 80 GB (70B)
Bandwidth критичен; квантование эффективно; длинный контекст съедает VRAM
LLM (обучение/файнтюнинг)
Веса + градиенты + оптимизатор
24 GB (7B LoRA)
80 GB (13B full), 2×H100 (70B+)
Нужны FP16/BF16 Tensor Cores; ECC для стабильности; NVLink для мульти-GPU
Stable Diffusion (инференс)
Разрешение + модули (ControlNet, LoRA)
6–8 GB (SD 1.5)
16 GB (SDXL + адаптеры)
Bandwidth важен для загрузки U-Net; батч=1 обычно
Stable Diffusion (обучение LoRA)
Батч × разрешение + активации
9 GB (SDXL батч 1)
24 GB (батч 4–8)
QLoRA снижает до 6–8 GB; gradient checkpointing эффективен
Computer Vision (обучение)
Батч × разрешение + активации модели
8–12 GB (батч 16–32, 640×640)
24 GB (батч 64+, 1280×1280)
Mixed precision даёт 2x экономию VRAM; gradient accumulation обходит лимит батча
Computer Vision (инференс)
Размер модели (обычно малый)
4–6 GB
8 GB (резерв)
VRAM редко ограничение; важнее throughput (FPS) и latency

Какую видеокарту выбрать: сравнение лучших моделей для ИИ

Выбор конкретной модели для ИИ зависит от бюджета, задач и доступности. Разберём актуальные варианты на начало 2026 года с фокусом на VRAM, bandwidth и реальные сценарии применения.
В индустриальных обзорах RTX 4090 часто выделяют как сильный потребительский вариант, а A100/H100 — как типовые датацентр ускорители. — HiveNet Compute, Best AI GPUs of 2025, 2025
Сравнение GPU для ИИ: потребительские, workstation и дата-центр
Модель | VRAM (тип)
Memory Bandwidth | TDP
Tensor Cores | Лучше для
Цена/производительность
Примечания
RTX 3060 12GB

12 GB GDDR6
360 ГБ/с

170W
3-е поколение (Ampere)

• Бюджетный старт
• LLM 7B Q4
• SD 1.5
• Обучение малых CV-моделей
Отличное (б/у ~$200–250)
Узкая шина 192-bit ограничивает скорость; подходит для экспериментов
RTX 4060 Ti 16GB

16 GB GDDR6
288 ГБ/с

160W
4-е поколение (Ada)

• LLM 13B Q4
• SDXL инференс
• Файнтюнинг LoRA
Среднее (новая ~$500)
Шина 128-bit — самая узкая в классе; 16 GB компенсируют
RTX 3090 24GB (б/у)

24 GB GDDR6X
936 ГБ/с

350W
3-е поколение (Ampere)

• LLM 13B FP16
• SDXL обучение LoRA
• CV с большими батчами
Очень хорошее (б/у ~$600–800)
Рабочая лошадка 2020–2024; широкая шина 384-bit
RTX 4090

24 GB GDDR6X
1008 ГБ/с

450W
4-е поколение (Ada)

• LLM 13B FP16
• SDXL full fine-tune
• CV обучение с высоким разрешением
Хорошее (новая ~$1600–2000)
Самая мощная потребительская карта; поддержка FP8 через Ada Tensor Cores
RTX 6000 Ada 48GB

48 GB GDDR6
~672 ГБ/с

300W
4-е поколение (Ada), 18176 CUDA

• LLM 30–70B инференс
• Мульти-модальные системы
• Workstation ML
Среднее для класса (~$6000–7000)
ECC память, vGPU support, тихое охлаждение
A100 40GB

40 GB HBM2e
1555 ГБ/с

250W
3-е поколение (Ampere)

• Обучение LLM 7–13B
• Серверные стойки
• Дата-центры
Среднее (облако ~$1.5/ч)
Стандарт индустрии до 2024; NVLink 600 ГБ/с; ECC
A100 80GB

80 GB HBM2e
2039 ГБ/с

300W
3-е поколение (Ampere)

• Обучение LLM 30–70B
• Inference с длинным контекстом
Среднее (облако ~$2.5/ч)
Удвоенная VRAM vs 40GB; bandwidth выше
H100

80 GB HBM3
3000+ ГБ/с

700W
4-е поколение (Hopper), FP8

• Обучение LLM 70B+
• Прод-инференс с SLA
• HPC
Хорошее для ЦОД (облако ~$4–5/ч)
Transformer Engine, NVLink 900 ГБ/с; требует PCIe 5.0
H200

141 GB HBM3e
4800 ГБ/с

700W
4-е поколение (Hopper)

• Обучение LLM 175B+
• Мульти-модальные гиганты
TBD (новинка 2025–2026)
Увеличенная VRAM для моделей >100B; bandwidth рекорд
L40S

48 GB GDDR6
~864 ГБ/с

350W
4-е поколение (Ada)

• Inference LLM 30–70B
• Рендеринг + ML гибрид
• Rack-серверы
Хорошее (~$8000–10000)
Ada архитектура без игрового маркетинга; тихое blower-охлаждение
Анализ:
Для домашней работы с LLM 7–13B оптимальны RTX 3090 (б/у) или RTX 4090: 24 GB VRAM закрывают файнтюнинг и инференс с запасом, а bandwidth 936–1008 ГБ/с достаточен для комфортной скорости. RTX 3060 12GB — компромисс для новичков с бюджетом <$300. RTX 4060 Ti 16GB спорна: 16 GB хороши для SDXL, но 128-bit шина делает её медленнее 3090 в обучении моделей, несмотря на новую архитектуру.

Для команд и продакшена выбор между A100 80GB (проверенная стабильность, широкая поддержка) и H100 (скорость в 3–5x, но дороже и требует новой инфраструктуры). L40S и RTX 6000 Ada — компромисс для workstation: 48 GB VRAM позволяют работать с моделями 30B+ без облака, а ECC и vGPU упрощают интеграцию в корпоративные стойки. H200 — перспектива 2026 года для тех, кому нужны модели >70B локально.

Цена/производительность: б/у RTX 3090 за $600–800 даёт лучшее соотношение для энтузиастов; RTX 4090 — премиум с запасом на будущее; облачные A100/H100 окупаются при нагрузке <50% времени.

Подбор видеокарты под задачи: от новичка до профи

Для старта (новичок/студент/первый домашний сетап)
12–16GB как практический минимум для экспериментов. Что запускать локально: малые LLM (7B с квантованием), SD 1.5 генерация, обучение простых CV-моделей. Что лучше делать в облаке: обучение моделей >13B, эксперименты с разными архитектурами, пиковые нагрузки.

Б/у рынок — риски:
Карты после майнинга могут иметь изношенную память (деградация GDDR6 при постоянной нагрузке >85°C). Проверяйте визуально: пыль в радиаторе (можно почистить), следы перегрева на PCB (тёмные пятна вокруг VRM/памяти = плохо), состояние термопрокладок/пасты. Запускайте стресс-тесты: Furmark GPU stress test 15 минут + мониторинг HWiNFO/GPU-Z: температура GPU <85°C, VRAM <95°C — ок; >90°C GPU или >100°C VRAM — карта перегревалась, возможна деградация.

Чек-лист б/у покупки:
  • VRAM: минимум 12 GB для LLM 7B Q4 и SD 1.5; 16 GB — запас на SDXL и эксперименты
  • Состояние (б/у): визуальный осмотр PCB, термопаста/прокладки, отсутствие следов перегрева
  • Температуры: стресс-тест 15 минут: GPU <85°C, VRAM <95°C
  • Лимиты питания: проверить TDP карты и запас БП (+200W минимум)
  • Гарантия: б/у без гарантии — риск; новая с гарантией — спокойствие
  • Совместимость корпуса/БП: длина карты, количество слотов, разъёмы питания (8-pin/12VHPWR)

Для серьезных исследований (файнтюнинг, обучение, эксперименты, больше данных)
24GB как "точка комфорта" для файнтюнинга LLM 13B и обучения SDXL. Когда важен bandwidth: обучение с большими батчами, длинные контексты LLM, высокое разрешение в CV. Mixed precision (FP16/BF16) снижает VRAM на 30–50% без потери качества — обязательно включайте в PyTorch/TensorFlow.

NVMe/dataset pipeline:
Быстрый SSD (NVMe Gen4) критичен для загрузки батчей данных: медленный диск (SATA SSD, HDD) создаёт простой GPU в ожидании данных. Для CV с большими датасетами (ImageNet, COCO) используйте NVMe RAID или кэширование в RAM (tmpfs в Linux). Для LLM предзагружайте датасет в RAM или используйте streaming (datasets library в Hugging Face).

Разумные ожидания от одной GPU:
Одна RTX 4090 (24 GB) обучает модели до 13B с LoRA комфортно; для моделей 30B+ нужно либо QLoRA (4-bit), либо две карты с model parallelism. Обучение с нуля моделей >7B на одной карте — медленно (недели); для исследований лучше облако или кластер.

Для бизнеса/команды (продакшен, SLA, масштабирование)
Профессиональные GPU: стабильность (ECC память), сертификация драйверов (долгосрочная поддержка NVIDIA AI Enterprise), TCO (энергопотребление, охлаждение, простои). Когда выгоднее серверные ускорители: нагрузка >80% времени, требования к uptime >99%, длительные обучения (недели), продакшен-инференс с SLA.

Мульти GPU и коммуникации:
Для data parallelism (распределение батча по GPU) нужен быстрый обмен градиентами: NVLink (600–900 ГБ/с) в разы быстрее PCIe (32 ГБ/с). Без NVLink (потребительские RTX 40-й серии) мульти-GPU эффективен только для независимых задач (разные модели/эксперименты). Для model parallelism (распределение слоёв модели) NVLink обязателен — иначе latency передачи активаций убивает скорость.
Решение под бизнес-сценарий
Сценарий бизнеса
Требование
Класс GPU
Комментарий
Прод-инференс API (SLA 99%+)
ECC, стабильность, энергоэффективность
A100/H100/L40S
Облако дешевле при нагрузке <50% времени
Обучение моделей команды (недели)
VRAM 80+ GB, NVLink, ECC
A100 80GB, H100
Локально окупается при регулярной нагрузке
Workstation для ML-инженера
24–48 GB, тихая работа, vGPU
RTX 6000 Ada, RTX 4090
RTX 6000 — ECC и сертификация; 4090 — производительность
Эксперименты/R&D (пики нагрузки)
Гибкость, быстрый старт
Облако (Lambda, RunPod)
Платите только за использование
Гибридная нагрузка (ML + рендеринг)
Универсальность, CUDA + RTX
L40S, RTX 6000 Ada
Ada архитектура — баланс ML и графики

Частые ошибки при выборе GPU для нейросетей

"Мощный чип, мало памяти": почему это провал для LLM

Симптом: Купили RTX 4060 Ti 8GB (новая архитектура Ada, мощные Tensor Cores), но LLaMA 13B не влезает даже с квантованием Q4.
Причина: Tensor Cores могут выдавать тысячи TFLOPS, но если модель не помещается в VRAM — они простаивают. 13B модель в Q4 занимает ~7.5 GB + KV-cache (~2 GB при контексте 4K) = 9.5 GB минимум. RTX 4060 Ti 8GB упрётся в своп или краш.
Решение: Для LLM 13B+ берите минимум 12 GB VRAM (RTX 3060 12GB, RTX 4060 Ti 16GB); для 30B — 24 GB (RTX 3090, 4090). Если бюджет ограничен — облако (Vast.ai, RunPod) дешевле, чем неподходящая карта.

Игнорирование bandwidth и шины памяти

Ситуация: Сравнили RTX 4060 Ti 16GB (новая, Ada) и RTX 3090 24GB (старая, Ampere) — выбрали 4060 Ti, потому что "новее и 16 GB хватит".
Что сравнили неправильно: Смотрели только VRAM и поколение архитектуры, игнорируя bandwidth. RTX 4060 Ti: 128-bit шина, 288 ГБ/с. RTX 3090: 384-bit шина, 936 ГБ/с — в 3.25 раза быстрее загрузка весов.
Как сравнить правильно: Проверяйте Memory Bandwidth в спецификациях; для обучения моделей >7B bandwidth важнее "новизны" архитектуры. RTX 3090 обучает SDXL LoRA быстрее 4060 Ti, несмотря на старшее поколение.

Покупка б/у GPU без проверки (майнинг/память/температуры)

Что проверять при встрече:

Визуальный осмотр: пыль в радиаторе (можно почистить), следы перегрева на PCB (тёмные пятна вокруг VRM/памяти = плохо), состояние термопрокладок/пасты (если видно через щели). Тест включения: карта определяется в системе (POST), экран горит без артефактов (полосы, мерцание).

Стресс-тесты:

Furmark GPU stress test 15 минут + мониторинг HWiNFO/GPU-Z: температура GPU <85°C, VRAM <95°C — ок; >90°C GPU или >100°C VRAM — карта перегревалась, возможна деградация. Запустите cuda-memtest (если есть CUDA-система) или MemtestG80 (Windows): 10–30 минут full pass, 0 ошибок = память стабильна. Любые ошибки (even 1) = откажитесь от покупки.

FAQ

Итог: что купить под бюджет и задачи (резюме + чек-лист)

Чек-лист выбора (короткий, порядок приоритета)
Чек-лист выбора GPU для ИИ
Пункт
Как проверить
Типичная ошибка
1. VRAM (объём видеопамяти)
Спецификации → "Memory Size"; 8–12 GB — минимум для LLM 7B, SD 1.5; 16–24 GB — комфорт для LLM 13B, SDXL; 40–80+ GB — обучение больших моделей
Смотреть только TFLOPS, игнорируя VRAM
2. Пропускная способность памяти (Bandwidth)
Спецификации → "Memory Bandwidth" (ГБ/с); GDDR6X > GDDR6, HBM3 > GDDR6X
Игнорировать bandwidth и шину памяти
3. Совместимость софта и драйверов
NVIDIA CUDA — стандарт (PyTorch, TensorFlow из коробки); AMD ROCm — проверяйте список совместимости; Apple MPS — для инференса и лёгких задач
Купить AMD без проверки поддержки ROCm
4. Питание и охлаждение
БП с запасом +200–300W от TDP карты; качественные кабели (нативные 12VHPWR или толстые 8-pin); blower для мульти-GPU, open-air для одной карты
Недостаток мощности БП → троттлинг/перезагрузки
5. Совместимость с корпусом и материнской платой
Длина карты (fit в корпус), количество слотов (толщина), PCIe x16 слот (верхний от CPU); для 2 GPU — материнка с x8/x8 конфигурацией и расстоянием между слотами ≥2
Карта не влезает в корпус или режется до x4
6. Б/у риски (если покупаете с рук)
Стресс-тесты (Furmark 15 минут, cuda-memtest 30 минут), проверка температур (GPU <85°C, VRAM <95°C), отсутствие ошибок памяти
Покупка без тестов → деградация памяти/перегрев
7. Облако как альтернатива
При загрузке <150 ч/мес аренда (Vast.ai, RunPod, Lambda) дешевле покупки; при >180 ч/мес покупка окупается за год
Покупка дорогой карты для редких задач
8. ECC и стабильность (для бизнеса)
Профессиональные GPU (A100, H100, RTX Ada) с ECC обязательны для продакшена с SLA и длительных обучений; GeForce RTX без ECC подходят для экспериментов
Использовать GeForce для прод-инференса
Сводная таблица "цена за 1 GB VRAM" + "цена/производительность" (ориентиры)
Ориентиры цены и производительности GPU (регион: США, январь 2026)
Модель
VRAM
Ориентир цены
Цена/GB
Комментарий (где разумно)
RTX 3060 12GB (б/у)
12 GB
$200–250
~$17–21/GB
Лучшее для бюджета <$300; старт в ML
RTX 4060 Ti 16GB (новая)
16 GB
$500
~$31/GB
Спорно: узкая шина; лучше 3090 б/у за те же деньги
RTX 3090 24GB (б/у)
24 GB
$600–800
~$25–33/GB
Золотой стандарт цена/VRAM; проверяйте состояние
RTX 4090 (новая)
24 GB
$1600–2000
~$67–83/GB
Премиум; окупается скоростью и FP8 support
RTX 6000 Ada 48GB
48 GB
$6000–7000
~$125–146/GB
Workstation; ECC + vGPU; альтернатива облаку для команд
A100 80GB (облако)
80 GB
~$2.5/ч (~$375/мес при 150 ч)
Стандарт ЦОД; покупка ~$10К окупается за 27 мес при 150 ч/мес
H100 (облако)
80 GB
~$4–5/ч (~$600–750/мес при 150 ч)
Максимальная скорость; покупка ~$30К+ окупается только при 24/7 нагрузке
Примечание: цены зависят от региона, рынка б/у и доступности. Для России/СНГ добавляйте +20–40% к ценам США из-за логистики и курса валют.

Об авторе:

Эта статья подготовлена IT-специалистами Work System — команды, которая занимается поставкой серверного оборудования, настройкой вычислительных кластеров и консалтингом по инфраструктуре ИИ для бизнеса и исследовательских групп. Наш опыт: конфигурирование мульти-GPU серверов, тестирование производительности на реальных нагрузках (обучение LLM, CV-моделей, генеративных систем), подбор решений под бюджет и требования заказчика. Если нужна помощь в подборе GPU или сборке рабочей станции/кластера — напишите нам через форму на сайте.
Источники и дополнительные материалы: