Требования GPT-OSS 120B к памяти: GPU 80 GB, порог 60 GB и локальные маршруты

Для надежного локального запуска gpt-oss-120b планируйте модель как задачу уровня GPU на 80 GB. Число >=60GB означает ограниченный нижний порог для поддерживаемых MXFP4-маршрутов, а не комфортный запас. Конфигурация с 24 GB VRAM, CPU или NVMe offload годится для эксперимента, но не для спокойной эксплуатации. Если важны скорость, длинный контекст, несколько пользователей или повторяемость, сразу сравнивайте 120B с gpt-oss-20b, арендой облачного GPU и hosted-доступом.

Маршрут	Как трактовать	Практический смысл
GPU серверного класса 80 GB	Чистый локальный маршрут	Лучший ориентир для серьезной локальной работы с 120B.
`>=60GB` VRAM или unified memory	Ограниченный нижний порог	Возможен на поддерживаемом стеке, но контекст, batch и overhead остаются важными.
GPU 24 GB плюс CPU/NVMe offload	Эксперимент	Полезно для обучения и проверки формата, но не как production-план.
`gpt-oss-20b`, облачный GPU или hosted-доступ	Запасной маршрут	Рациональнее, когда локальная память, скорость или надежность являются настоящим ограничением.

Не покупайте железо, если расчет держится на слове «RAM» без уточнения пула памяти, на одном сообщении с Reddit или на benchmark, который не повторяет ваш runtime, длину контекста и concurrency.

Сначала выберите маршрут запуска, затем считайте память

Полезный ответ по памяти GPT-OSS 120B начинается не с одного числа, а с маршрута. В справочных материалах OpenAI модель gpt-oss-120b описывается как open-weight MoE модель с 117B параметрами, 5.1B active parameters и длинным контекстным окном. Запуск в классе одного H100 или другого accelerator на 80 GB является самым понятным ориентиром для локального планирования, потому что в эту рамку помещаются веса, runtime overhead, обычный контекст и запас на реальные запросы.

Но одна и та же модель может вести себя по-разному в Transformers, vLLM, Ollama, multi-GPU setup или offload. Если задача состоит в коротком локальном чате для одного пользователя, требования одни. Если задача состоит в проверке 64k контекста, tool calls, batch-тестах или общем сервисе для команды, запас нужен другой. Поэтому сначала запишите job: локальная приватность, оценка качества 120B, внутренний сервис, демонстрационный эксперимент или production API.

После этого числа становятся управляемыми. 80 GB означает чистый локальный ориентир. 60 GB означает ограниченный нижний порог. 24 GB означает эксперимент. 20B, cloud GPU или hosted route становятся не поражением, а нормальными ветками решения, если они быстрее приводят к полезному результату.

Карта маршрутов GPT-OSS 120B: 80 GB GPU, 60 GB MXFP4, 24 GB offload, 20B, облачный GPU и hosted-доступ

Такой порядок помогает отделить вопрос загрузки модели от вопроса полезной эксплуатации. Рабочая конфигурация должна проходить не только load test, но и ваш контекст, batch, latency и повторяемость.

Почему 80 GB и 60 GB не противоречат друг другу

80 GB и >=60GB отвечают на разные вопросы. 80 GB отвечает на вопрос: какой класс железа планировать, если нужен чистый локальный запуск 120B без постоянного балансирования на краю. >=60GB отвечает на другой вопрос: какой нижний порог может сработать на конкретном MXFP4 runtime path, если контролировать контекст, batch и overhead.

OpenAI runtime материалы для Transformers, vLLM и Ollama показывают именно такую разницу. Transformers route может говорить о 60 GB VRAM или multi-GPU setup, vLLM чаще выглядит как серверный маршрут с H100-class hardware, а локальные инструменты используют формулировку VRAM или unified memory. Эти слова нельзя переносить в универсальное обещание для любой рабочей станции.

Дополнительная память нужна не только под файл весов. Runtime может резервировать буферы, хранить KV cache, использовать temporary allocations, распределять модель по GPU или менять precision в зависимости от kernel support. Демонстрация с коротким prompt не доказывает, что тот же setup выдержит длинный документ, несколько simultaneous requests или строгую latency target.

Разделяйте VRAM, unified memory, RAM, диск и KV cache

Слово «память» слишком широкое. VRAM находится на accelerator и отвечает за веса, runtime state и часто KV cache. Unified memory может быть общей областью для CPU/GPU на некоторых системах, но ее скорость и доступный запас нужно проверять отдельно. System RAM помогает операционной системе, tokenizer, offload buffers и background tasks, но не становится быстрой VRAM. NVMe offload помогает загрузить модель, однако превращает задержку в главный риск.

KV cache заслуживает отдельной строки в плане. Чем длиннее active context и чем больше одновременных запросов, тем сильнее растет давление на память. Поэтому цифра из model file size не равна runtime requirement. Даже quantized модель может потребовать больше пространства из-за allocator reserve, temporary buffers и serving settings.

Хороший hardware plan описывает каждый пул отдельно: сколько VRAM доступно, сколько unified memory реально может использовать runtime, сколько system RAM остается после ОС и процесса, есть ли swap, как ведет себя NVMe, какой context target выбран и сколько запросов должно идти параллельно.

Диаграмма бюджета памяти GPT-OSS 120B: веса, runtime overhead, KV cache, context, batch, CPU RAM и NVMe offload

Тип памяти	Что значит для `gpt-oss-120b`	Что это меняет в покупке
VRAM	Память accelerator для весов, runtime state и часто KV cache	Чистый single-device target — 80 GB class.
Unified memory	Общая память CPU/GPU на некоторых системах	Можно тестировать как constrained route, но скорость нужно мерить.
System RAM	CPU-side память для ОС, runtime, buffers и offload	Помогает experiment, но не заменяет VRAM.
Disk/NVMe offload	Перенос части состояния через storage	Загрузка возможна, latency рискованна.
KV cache	Память active context во время генерации	Длинный контекст быстро съедает запас.
Batch/concurrency	Количество tokens или requests вместе	Serving требует большего запаса, чем single chat.

Эта таблица предотвращает типичную ошибку: приравнять system RAM к GPU VRAM или считать checkpoint size достаточным доказательством runtime memory.

Runtime меняет реальный бюджет памяти

Runtime определяет, где окажется узкое место. Transformers удобен для прямого Python-эксперимента, но hardware support, kernel path и precision choice могут резко изменить память. vLLM больше похож на serving route: max model length, batched tokens, tensor parallelism и KV cache policy прямо влияют на запас. Ollama и desktop runners проще для первого запуска, но текст про VRAM или unified memory относится именно к поддерживаемому маршруту.

Multi-GPU route требует не только суммы памяти. Две или три карты по 24 GB могут выглядеть достаточно по арифметике, но interconnect, sharding, driver versions и manual placement могут превратить запуск в длительную отладку. Один accelerator правильного размера часто дешевле по времени, чем несколько пограничных consumer cards.

Cloud GPU полезен как контрольная ветка. Если 120B нужен для оценки проекта, аренда H100-class инстанса на день может показать реальную длину контекста, throughput и OOM point раньше, чем покупка workstation. Hosted route нужен там, где важнее надежность и time-to-delivery, чем владение инфраструктурой.

Стоп-линии для потребительских GPU

Consumer GPU с 24 GB VRAM меняет обещание. Он может быть хорошим учебным стендом: понять формат модели, проверить prompts, посмотреть tool behavior, попробовать offload. Но как только CPU или NVMe становятся основным путем движения данных, это уже не clean GPU inference.

48 GB workstation card серьезнее, но все еще ниже clean 80 GB target. Две карты по 24 GB или несколько старых GPU можно рассматривать как advanced experiment, если runtime умеет распределять модель без хрупкой ручной схемы. Apple unified memory setup тоже требует измерений throughput, thermal behavior и real prompts, а не только чтения total memory.

Стоп-линия проста: если модель только загружается, но first token latency неприемлема, маршрут не подходит для интерактива. Если короткий prompt работает, а реальные документы ломаются, setup еще не доказан. Если один запрос проходит, но batch или team usage рушится, это все еще эксперимент.

Железо	Разумный маршрут	Стоп-линия
Один GPU 24 GB	Offload experiment или `gpt-oss-20b`	Если latency задается CPU/NVMe movement, это не production 120B.
Два GPU 24 GB	Advanced experiment	Остановитесь, если placement хрупкий или runtime не держит context target.
GPU 48 GB	Серьезный test route	Short demo не доказывает real workload.
High unified memory system	Local test route	Capacity без throughput measurements недостаточна.
CPU-only	Education/offline inspection	Не подходит для интерактива или team serving.

Запасной маршрут экономит деньги. Часто дешевле проверить 120B в облаке, а локально оставить 20B, чем пытаться превратить marginal consumer hardware в production system.

Проверочный лист перед покупкой или арендой

Проверка начинается с workload. Запишите runtime, memory pool, context target, batch или concurrency, precision/quantization, real prompt set, telemetry и fallback. Метрики должны включать peak VRAM, system RAM, swap, NVMe activity, tokens/sec, time-to-first-token и OOM boundary.

Для аренды сначала прогоните exact runtime и exact context target. Для покупки требуйте тест на тех prompt и concurrency, которые действительно нужны. Если полезная цель — приватный локальный ассистент, gpt-oss-20b может дать лучший опыт на меньшем железе. Если цель — оценить 120B, cloud GPU снимает риск закупки. Если цель — продуктовый сервис, hosted route отделяет model evaluation от владения инфраструктурой.

Итоговое решение должно звучать как маршрут: купить 80 GB, тестировать 60 GB floor, оставить 24 GB как offload lab, перейти на 20B, арендовать cloud GPU или использовать hosted access. Одно число без маршрута не защищает от дорогой ошибки.

Проверочный лист перед покупкой GPT-OSS 120B: VRAM, runtime, context, batch, real prompts и fallback route

Шаг	Что записать	Зачем
Runtime	Transformers, vLLM, Ollama, multi-GPU, offload, hosted	Memory behavior зависит от route.
Memory pool	VRAM, unified memory, system RAM, disk offload	Слово RAM скрывает bottleneck.
Context target	Short chat, 32k, 64k, 128k или свой лимит	KV cache растет с context.
Batch/concurrency	Single user, batch tests, multi-user serving	Single request не равен service load.
Precision/quantization	MXFP4, BF16, runtime conversion	Requirement зависит от representation.
Real prompts	Tools, long docs, code, short chat	Toy prompts скрывают latency.
Telemetry	Peak VRAM, RAM, swap, tokens/sec, OOM point	Повторяемость важнее screenshot.
Fallback	20B, cloud GPU, hosted, shorter context	Escape route должен быть заранее.

После такого теста нормальными ответами становятся разные варианты: покупать 80 GB, арендовать, оставить 20B локально, сократить context или не self-host эту задачу.

Часто задаваемые вопросы

Сколько VRAM нужно GPT-OSS 120B?

Для чистого локального маршрута используйте 80 GB GPU-class hardware как ориентир. >=60GB — это ограниченный нижний порог для некоторых MXFP4 runtime paths, а не универсальный комфортный запас.

Можно ли запустить GPT-OSS 120B на GPU 24 GB?

Да, как offload experiment. CPU или NVMe offload может помочь загрузить модель, но latency, context length и надежность меняют характер задачи.

Может ли большая system RAM заменить VRAM?

Нет. System RAM помогает buffers и offload, но не равна accelerator VRAM. Если состояние модели ходит через CPU или storage, маршрут становится ограниченным экспериментом.

Почему встречаются 80 GB, 60 GB, 64 GB и 96 GB?

Эти числа относятся к разным границам: clean GPU target, constrained load floor, unified memory/offload experiment или serving headroom. Без runtime и workload число неполно.

GPT-OSS 20B требует такого же железа?

Нет. gpt-oss-20b является меньшим local route и относится к 16GB-class сценариям. Он часто лучше для приватного local assistant.

Длинное контекстное окно означает, что 128k доступно на любом setup?

Нет. Long context увеличивает KV cache pressure. Планируйте по фактической длине контекста и concurrency.

Покупать H100-class карту, арендовать GPU или использовать hosted access?

Покупка имеет смысл при повторяемой локальной 120B работе. Аренда хороша для проверки workload. Hosted route лучше, когда delivery и reliability важнее владения железом.

Полезны ли Reddit и Habr отчеты о низкой памяти?

Полезны как идеи для тестов и предупреждения о краевых случаях. Владельцами требования должны оставаться official model/runtime docs и ваш собственный workload proof.