AI Models

Требования GPT-OSS 120B к памяти: GPU 80 GB, порог 60 GB и локальные маршруты

Разбор VRAM, unified memory, системной RAM и запаса для GPT-OSS 120B: когда нужен GPU 80 GB, что означает порог 60 GB и когда выбирать 20B, облачный GPU или hosted-доступ.

Yingtu AI Editorial
Yingtu AI Editorial
YingTu Editorial
22 мая 2026 г.
Требования GPT-OSS 120B к памяти: GPU 80 GB, порог 60 GB и локальные маршруты
yingtu.ai

Содержание

Заголовки не найдены

Для надежного локального запуска gpt-oss-120b планируйте модель как задачу уровня GPU на 80 GB. Число >=60GB означает ограниченный нижний порог для поддерживаемых MXFP4-маршрутов, а не комфортный запас. Конфигурация с 24 GB VRAM, CPU или NVMe offload годится для эксперимента, но не для спокойной эксплуатации. Если важны скорость, длинный контекст, несколько пользователей или повторяемость, сразу сравнивайте 120B с gpt-oss-20b, арендой облачного GPU и hosted-доступом.

МаршрутКак трактоватьПрактический смысл
GPU серверного класса 80 GBЧистый локальный маршрутЛучший ориентир для серьезной локальной работы с 120B.
>=60GB VRAM или unified memoryОграниченный нижний порогВозможен на поддерживаемом стеке, но контекст, batch и overhead остаются важными.
GPU 24 GB плюс CPU/NVMe offloadЭкспериментПолезно для обучения и проверки формата, но не как production-план.
gpt-oss-20b, облачный GPU или hosted-доступЗапасной маршрутРациональнее, когда локальная память, скорость или надежность являются настоящим ограничением.

Не покупайте железо, если расчет держится на слове «RAM» без уточнения пула памяти, на одном сообщении с Reddit или на benchmark, который не повторяет ваш runtime, длину контекста и concurrency.

Сначала выберите маршрут запуска, затем считайте память

Полезный ответ по памяти GPT-OSS 120B начинается не с одного числа, а с маршрута. В справочных материалах OpenAI модель gpt-oss-120b описывается как open-weight MoE модель с 117B параметрами, 5.1B active parameters и длинным контекстным окном. Запуск в классе одного H100 или другого accelerator на 80 GB является самым понятным ориентиром для локального планирования, потому что в эту рамку помещаются веса, runtime overhead, обычный контекст и запас на реальные запросы.

Но одна и та же модель может вести себя по-разному в Transformers, vLLM, Ollama, multi-GPU setup или offload. Если задача состоит в коротком локальном чате для одного пользователя, требования одни. Если задача состоит в проверке 64k контекста, tool calls, batch-тестах или общем сервисе для команды, запас нужен другой. Поэтому сначала запишите job: локальная приватность, оценка качества 120B, внутренний сервис, демонстрационный эксперимент или production API.

После этого числа становятся управляемыми. 80 GB означает чистый локальный ориентир. 60 GB означает ограниченный нижний порог. 24 GB означает эксперимент. 20B, cloud GPU или hosted route становятся не поражением, а нормальными ветками решения, если они быстрее приводят к полезному результату.

Карта маршрутов GPT-OSS 120B: 80 GB GPU, 60 GB MXFP4, 24 GB offload, 20B, облачный GPU и hosted-доступ

Такой порядок помогает отделить вопрос загрузки модели от вопроса полезной эксплуатации. Рабочая конфигурация должна проходить не только load test, но и ваш контекст, batch, latency и повторяемость.

Почему 80 GB и 60 GB не противоречат друг другу

80 GB и >=60GB отвечают на разные вопросы. 80 GB отвечает на вопрос: какой класс железа планировать, если нужен чистый локальный запуск 120B без постоянного балансирования на краю. >=60GB отвечает на другой вопрос: какой нижний порог может сработать на конкретном MXFP4 runtime path, если контролировать контекст, batch и overhead.

OpenAI runtime материалы для Transformers, vLLM и Ollama показывают именно такую разницу. Transformers route может говорить о 60 GB VRAM или multi-GPU setup, vLLM чаще выглядит как серверный маршрут с H100-class hardware, а локальные инструменты используют формулировку VRAM или unified memory. Эти слова нельзя переносить в универсальное обещание для любой рабочей станции.

Дополнительная память нужна не только под файл весов. Runtime может резервировать буферы, хранить KV cache, использовать temporary allocations, распределять модель по GPU или менять precision в зависимости от kernel support. Демонстрация с коротким prompt не доказывает, что тот же setup выдержит длинный документ, несколько simultaneous requests или строгую latency target.

Разделяйте VRAM, unified memory, RAM, диск и KV cache

Слово «память» слишком широкое. VRAM находится на accelerator и отвечает за веса, runtime state и часто KV cache. Unified memory может быть общей областью для CPU/GPU на некоторых системах, но ее скорость и доступный запас нужно проверять отдельно. System RAM помогает операционной системе, tokenizer, offload buffers и background tasks, но не становится быстрой VRAM. NVMe offload помогает загрузить модель, однако превращает задержку в главный риск.

KV cache заслуживает отдельной строки в плане. Чем длиннее active context и чем больше одновременных запросов, тем сильнее растет давление на память. Поэтому цифра из model file size не равна runtime requirement. Даже quantized модель может потребовать больше пространства из-за allocator reserve, temporary buffers и serving settings.

Хороший hardware plan описывает каждый пул отдельно: сколько VRAM доступно, сколько unified memory реально может использовать runtime, сколько system RAM остается после ОС и процесса, есть ли swap, как ведет себя NVMe, какой context target выбран и сколько запросов должно идти параллельно.

Диаграмма бюджета памяти GPT-OSS 120B: веса, runtime overhead, KV cache, context, batch, CPU RAM и NVMe offload

Тип памятиЧто значит для gpt-oss-120bЧто это меняет в покупке
VRAMПамять accelerator для весов, runtime state и часто KV cacheЧистый single-device target — 80 GB class.
Unified memoryОбщая память CPU/GPU на некоторых системахМожно тестировать как constrained route, но скорость нужно мерить.
System RAMCPU-side память для ОС, runtime, buffers и offloadПомогает experiment, но не заменяет VRAM.
Disk/NVMe offloadПеренос части состояния через storageЗагрузка возможна, latency рискованна.
KV cacheПамять active context во время генерацииДлинный контекст быстро съедает запас.
Batch/concurrencyКоличество tokens или requests вместеServing требует большего запаса, чем single chat.

Эта таблица предотвращает типичную ошибку: приравнять system RAM к GPU VRAM или считать checkpoint size достаточным доказательством runtime memory.

Runtime меняет реальный бюджет памяти

Runtime определяет, где окажется узкое место. Transformers удобен для прямого Python-эксперимента, но hardware support, kernel path и precision choice могут резко изменить память. vLLM больше похож на serving route: max model length, batched tokens, tensor parallelism и KV cache policy прямо влияют на запас. Ollama и desktop runners проще для первого запуска, но текст про VRAM или unified memory относится именно к поддерживаемому маршруту.

Multi-GPU route требует не только суммы памяти. Две или три карты по 24 GB могут выглядеть достаточно по арифметике, но interconnect, sharding, driver versions и manual placement могут превратить запуск в длительную отладку. Один accelerator правильного размера часто дешевле по времени, чем несколько пограничных consumer cards.

Cloud GPU полезен как контрольная ветка. Если 120B нужен для оценки проекта, аренда H100-class инстанса на день может показать реальную длину контекста, throughput и OOM point раньше, чем покупка workstation. Hosted route нужен там, где важнее надежность и time-to-delivery, чем владение инфраструктурой.

Стоп-линии для потребительских GPU

Consumer GPU с 24 GB VRAM меняет обещание. Он может быть хорошим учебным стендом: понять формат модели, проверить prompts, посмотреть tool behavior, попробовать offload. Но как только CPU или NVMe становятся основным путем движения данных, это уже не clean GPU inference.

48 GB workstation card серьезнее, но все еще ниже clean 80 GB target. Две карты по 24 GB или несколько старых GPU можно рассматривать как advanced experiment, если runtime умеет распределять модель без хрупкой ручной схемы. Apple unified memory setup тоже требует измерений throughput, thermal behavior и real prompts, а не только чтения total memory.

Стоп-линия проста: если модель только загружается, но first token latency неприемлема, маршрут не подходит для интерактива. Если короткий prompt работает, а реальные документы ломаются, setup еще не доказан. Если один запрос проходит, но batch или team usage рушится, это все еще эксперимент.

ЖелезоРазумный маршрутСтоп-линия
Один GPU 24 GBOffload experiment или gpt-oss-20bЕсли latency задается CPU/NVMe movement, это не production 120B.
Два GPU 24 GBAdvanced experimentОстановитесь, если placement хрупкий или runtime не держит context target.
GPU 48 GBСерьезный test routeShort demo не доказывает real workload.
High unified memory systemLocal test routeCapacity без throughput measurements недостаточна.
CPU-onlyEducation/offline inspectionНе подходит для интерактива или team serving.

Запасной маршрут экономит деньги. Часто дешевле проверить 120B в облаке, а локально оставить 20B, чем пытаться превратить marginal consumer hardware в production system.

Проверочный лист перед покупкой или арендой

Проверка начинается с workload. Запишите runtime, memory pool, context target, batch или concurrency, precision/quantization, real prompt set, telemetry и fallback. Метрики должны включать peak VRAM, system RAM, swap, NVMe activity, tokens/sec, time-to-first-token и OOM boundary.

Для аренды сначала прогоните exact runtime и exact context target. Для покупки требуйте тест на тех prompt и concurrency, которые действительно нужны. Если полезная цель — приватный локальный ассистент, gpt-oss-20b может дать лучший опыт на меньшем железе. Если цель — оценить 120B, cloud GPU снимает риск закупки. Если цель — продуктовый сервис, hosted route отделяет model evaluation от владения инфраструктурой.

Итоговое решение должно звучать как маршрут: купить 80 GB, тестировать 60 GB floor, оставить 24 GB как offload lab, перейти на 20B, арендовать cloud GPU или использовать hosted access. Одно число без маршрута не защищает от дорогой ошибки.

Проверочный лист перед покупкой GPT-OSS 120B: VRAM, runtime, context, batch, real prompts и fallback route

ШагЧто записатьЗачем
RuntimeTransformers, vLLM, Ollama, multi-GPU, offload, hostedMemory behavior зависит от route.
Memory poolVRAM, unified memory, system RAM, disk offloadСлово RAM скрывает bottleneck.
Context targetShort chat, 32k, 64k, 128k или свой лимитKV cache растет с context.
Batch/concurrencySingle user, batch tests, multi-user servingSingle request не равен service load.
Precision/quantizationMXFP4, BF16, runtime conversionRequirement зависит от representation.
Real promptsTools, long docs, code, short chatToy prompts скрывают latency.
TelemetryPeak VRAM, RAM, swap, tokens/sec, OOM pointПовторяемость важнее screenshot.
Fallback20B, cloud GPU, hosted, shorter contextEscape route должен быть заранее.

После такого теста нормальными ответами становятся разные варианты: покупать 80 GB, арендовать, оставить 20B локально, сократить context или не self-host эту задачу.

Часто задаваемые вопросы

Сколько VRAM нужно GPT-OSS 120B?

Для чистого локального маршрута используйте 80 GB GPU-class hardware как ориентир. >=60GB — это ограниченный нижний порог для некоторых MXFP4 runtime paths, а не универсальный комфортный запас.

Можно ли запустить GPT-OSS 120B на GPU 24 GB?

Да, как offload experiment. CPU или NVMe offload может помочь загрузить модель, но latency, context length и надежность меняют характер задачи.

Может ли большая system RAM заменить VRAM?

Нет. System RAM помогает buffers и offload, но не равна accelerator VRAM. Если состояние модели ходит через CPU или storage, маршрут становится ограниченным экспериментом.

Почему встречаются 80 GB, 60 GB, 64 GB и 96 GB?

Эти числа относятся к разным границам: clean GPU target, constrained load floor, unified memory/offload experiment или serving headroom. Без runtime и workload число неполно.

GPT-OSS 20B требует такого же железа?

Нет. gpt-oss-20b является меньшим local route и относится к 16GB-class сценариям. Он часто лучше для приватного local assistant.

Длинное контекстное окно означает, что 128k доступно на любом setup?

Нет. Long context увеличивает KV cache pressure. Планируйте по фактической длине контекста и concurrency.

Покупать H100-class карту, арендовать GPU или использовать hosted access?

Покупка имеет смысл при повторяемой локальной 120B работе. Аренда хороша для проверки workload. Hosted route лучше, когда delivery и reliability важнее владения железом.

Полезны ли Reddit и Habr отчеты о низкой памяти?

Полезны как идеи для тестов и предупреждения о краевых случаях. Владельцами требования должны оставаться official model/runtime docs и ваш собственный workload proof.

Теги

Поделиться статьей

XTelegram