Для старта (новичок/студент/первый домашний сетап)12–16GB как практический минимум для экспериментов. Что запускать локально: малые LLM (7B с квантованием), SD 1.5 генерация, обучение простых CV-моделей. Что лучше делать в облаке: обучение моделей >13B, эксперименты с разными архитектурами, пиковые нагрузки.
Б/у рынок — риски:Карты после майнинга могут иметь изношенную память (деградация GDDR6 при постоянной нагрузке >85°C). Проверяйте визуально: пыль в радиаторе (можно почистить), следы перегрева на PCB (тёмные пятна вокруг VRM/памяти = плохо), состояние термопрокладок/пасты. Запускайте стресс-тесты: Furmark GPU stress test 15 минут + мониторинг HWiNFO/GPU-Z: температура GPU <85°C, VRAM <95°C — ок; >90°C GPU или >100°C VRAM — карта перегревалась, возможна деградация.
Чек-лист б/у покупки:- VRAM: минимум 12 GB для LLM 7B Q4 и SD 1.5; 16 GB — запас на SDXL и эксперименты
- Состояние (б/у): визуальный осмотр PCB, термопаста/прокладки, отсутствие следов перегрева
- Температуры: стресс-тест 15 минут: GPU <85°C, VRAM <95°C
- Лимиты питания: проверить TDP карты и запас БП (+200W минимум)
- Гарантия: б/у без гарантии — риск; новая с гарантией — спокойствие
- Совместимость корпуса/БП: длина карты, количество слотов, разъёмы питания (8-pin/12VHPWR)
Для серьезных исследований (файнтюнинг, обучение, эксперименты, больше данных)24GB как "точка комфорта" для файнтюнинга LLM 13B и обучения SDXL. Когда важен bandwidth: обучение с большими батчами, длинные контексты LLM, высокое разрешение в CV. Mixed precision (FP16/BF16) снижает VRAM на 30–50% без потери качества — обязательно включайте в PyTorch/TensorFlow.
NVMe/dataset pipeline:Быстрый SSD (NVMe Gen4) критичен для загрузки батчей данных: медленный диск (SATA SSD, HDD) создаёт простой GPU в ожидании данных. Для CV с большими датасетами (ImageNet, COCO) используйте NVMe RAID или кэширование в RAM (tmpfs в Linux). Для LLM предзагружайте датасет в RAM или используйте streaming (datasets library в Hugging Face).
Разумные ожидания от одной GPU:Одна RTX 4090 (24 GB) обучает модели до 13B с LoRA комфортно; для моделей 30B+ нужно либо QLoRA (4-bit), либо две карты с model parallelism. Обучение с нуля моделей >7B на одной карте — медленно (недели); для исследований лучше облако или кластер.
Для бизнеса/команды (продакшен, SLA, масштабирование)Профессиональные GPU: стабильность (ECC память), сертификация драйверов (долгосрочная поддержка NVIDIA AI Enterprise), TCO (энергопотребление, охлаждение, простои). Когда выгоднее серверные ускорители: нагрузка >80% времени, требования к uptime >99%, длительные обучения (недели), продакшен-инференс с SLA.
Мульти GPU и коммуникации:Для data parallelism (распределение батча по GPU) нужен быстрый обмен градиентами: NVLink (600–900 ГБ/с) в разы быстрее PCIe (32 ГБ/с). Без NVLink (потребительские RTX 40-й серии) мульти-GPU эффективен только для независимых задач (разные модели/эксперименты). Для model parallelism (распределение слоёв модели) NVLink обязателен — иначе latency передачи активаций убивает скорость.