NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста

На этой неделе NVIDIA тихо выкатила то, что может стать одной из самых важных открытых моделей 2026 года. Nemotron 3 Super — это не просто ещё одна языковая модель. Это принципиально новая архитектура, сочетающая три разных подхода к обработке текста, и результаты впечатляют.

Что такое Nemotron 3 Super

Nemotron 3 Super — это языковая модель с 120 миллиардами параметров, из которых в каждый момент времени активны только 12 миллиардов. Она вышла 11 марта 2026 года и доступна через NVIDIA NIM и в открытом доступе.

Ключевые характеристики:

Архитектура: гибрид Mamba-2 + Transformer + MoE (Mixture of Experts)
Параметры: 120B общих, 12B активных
Контекст: до 1 миллиона токенов
Бенчмарк: #1 на DeepResearch Bench
Лицензия: открытая (можно использовать и дорабатывать)

Разбираем архитектуру: почему это важно

Большинство языковых моделей используют один тип архитектуры — Transformer (GPT-4, Claude, Llama). Немного по-другому устроены Mamba-модели. Nemotron 3 Super объединяет три типа слоёв в одной модели — и это даёт уникальные преимущества.

Mamba-2 слои: скорость

Mamba — это архитектура, разработанная как альтернатива Transformer. Её главное преимущество: она обрабатывает длинные контексты значительно быстрее. Transformer требует времени пропорционально квадрату длины контекста (O(n²)), Mamba — линейно (O(n)).

Для 1M токенов это разница в скорости в сотни раз.

Transformer слои: качество

Transformer — лучшая архитектура для точности рассуждений и понимания контекста. Даже при меньшем количестве таких слоёв они обеспечивают высокое качество ответов на сложные задачи.

MoE (Mixture of Experts): эффективность

LatentMoE — собственная разработка NVIDIA. Вместо того чтобы использовать все параметры для каждого токена, модель маршрутизирует токены к «экспертам» — специализированным подсетям. Только 12B из 120B параметров активны в каждый момент.

Результат: мощность большой модели при вычислительной стоимости маленькой.

Почему сочетание работает

Mamba-слои берут на себя большую часть обработки последовательности — быстро и эффективно. Transformer-слои добавляются в ключевых точках для качества рассуждений. MoE-слои обеспечивают специализацию.

NVIDIA называет это «LatentMoE архитектурой» — токены проецируются в меньшее скрытое пространство для маршрутизации и вычислений, что улучшает точность на байт.

Производительность: цифры

Согласно техническому отчёту NVIDIA:

Скорость:

На последовательностях 8K input / 64K output: до 2,2× быстрее чем GPT-OSS-120B
На последовательностях 8K input / 64K output: до 7,5× быстрее чем GPT-OSS-120B в другом тесте

Длинный контекст:

Поддерживает 1M токенов
Превосходит GPT-OSS-120B и Qwen3.5-122B на бенчмарке RULER при 1M контексте

Бенчмарки рассуждений:

#1 на DeepResearch Bench
Сопоставимо или лучше GPT-OSS-120B и Qwen3.5-122B на стандартных бенчмарках

Обучение:

Впервые для такого масштаба: предобучение с NVFP4 квантизацией
Это снижает требования к памяти без потери качества

Что такое 1M токенов контекста на практике

1 миллион токенов — это примерно:

750 000 слов
Полное собрание сочинений Толстого («Война и мир» — около 580 000 слов)
~3000 страниц кода
Весь кодовый репозиторий среднего размера

На практике это означает:

Для разработчиков: можно загрузить весь проект и спрашивать о взаимосвязях между файлами, искать баги в контексте всего кода.

Для юристов: анализ всей документации по делу за один раз.

Для аналитиков: обработка годовых отчётов нескольких компаний одновременно для сравнительного анализа.

Для исследователей: синтез нескольких научных статей с учётом всего контекста каждой.

DeepResearch Bench: что это и почему важно

DeepResearch Bench — относительно новый бенчмарк, оценивающий способность модели проводить сложные многошаговые исследования. В отличие от стандартных тестов на факты или рассуждения, он проверяет:

Способность собирать информацию из множества источников
Синтез противоречивой информации
Формирование обоснованных выводов

Именно это нужно для реальных задач «глубокого исследования» — анализа рынков, due diligence, научных обзоров.

Первое место Nemotron 3 Super на этом бенчмарке говорит о том, что модель особенно хороша именно для агентских задач, требующих длительного рассуждения с большим контекстом.

Сравнение с конкурентами

Модель	Параметры	Контекст	Открытая?
Nemotron 3 Super	120B/12B	1M	Да
Llama 3.3	70B	128K	Да
Qwen3.5	122B	1M	Да
GPT-OSS-120B	~120B	128K	Нет
DeepSeek-R1	671B/37B	128K	Да

Главные конкуренты в классе открытых моделей с 1M контекстом — Qwen3.5-122B от Alibaba. NVIDIA явно целилась именно в неё.

Кому нужна эта модель

Компаниям с конфиденциальными данными: открытая модель можно развернуть локально. Документы клиентов не уходят в облако.

Разработчикам AI-агентов: модель оптимизирована для агентских задач (глубокое исследование, длительные рассуждения). 1M контекст позволяет агенту держать в памяти весь ход работы.

Исследовательским организациям: можно дообучать на собственных данных, адаптировать под специфические задачи.

Тем, кто хочет скорости: 2-7× быстрее аналогов при сопоставимом качестве — это реальная экономия на inference-затратах.

NVIDIA как игрок в AI-разработке

Интересно, что NVIDIA — компания, зарабатывающая на GPU — активно инвестирует в открытые языковые модели. Зачем?

Логика проста: чем больше людей используют Nemotron, тем больше вычислений нужно для его запуска, тем больше GPU нужно покупать. Открытые модели — это маркетинг и экосистема для бизнеса с железом.

Но это не делает Nemotron менее полезным. Для пользователей мотивация NVIDIA не важна — важно качество продукта. А оно, судя по бенчмаркам, очень высокое.

Как попробовать

Nemotron 3 Super доступен через:

NVIDIA NIM — облачный API, можно попробовать без своего железа
Hugging Face — скачать веса и запустить самостоятельно
NVIDIA NGC — для корпоративных пользователей с расширенной поддержкой

Для запуска 120B-модели в полном размере нужны несколько A100/H100 GPU. Но с квантизацией NVFP4 требования снижаются.

Итог

Nemotron 3 Super — это значимый шаг вперёд для открытых языковых моделей. Гибридная архитектура Mamba-Transformer-MoE, 1M токенов контекста и лидерство на DeepResearch Bench делают её особенно ценной для агентских приложений и задач глубокого анализа.

Важно: это открытая модель. В мире, где мощнейшие модели закрыты в проприетарных API, наличие конкурентоспособной открытой альтернативы — это хорошо для всей индустрии.

Если вы разрабатываете AI-приложения или ищете модель для деплоя на своей инфраструктуре — Nemotron 3 Super определённо стоит оценить.

Следите за новыми AI-моделями? Подписывайтесь на @AI_and_zarubejka — разбираем каждый релиз!

NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста

NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста

Что такое Nemotron 3 Super

Разбираем архитектуру: почему это важно

Mamba-2 слои: скорость

Transformer слои: качество

MoE (Mixture of Experts): эффективность

Почему сочетание работает

Производительность: цифры

Что такое 1M токенов контекста на практике

DeepResearch Bench: что это и почему важно

Сравнение с конкурентами

Кому нужна эта модель

NVIDIA как игрок в AI-разработке

Как попробовать

Итог

Оцените статью

📬 Получай новые гайды первым

📚 Похожие статьи

Claude Sonnet 4.6 и Opus 4.6 — полный обзор февральских релизов Anthropic

DeepSeek R1: полный обзор reasoning-модели, которая шокировала индустрию

World Models: что это и почему все ими занимаются в 2026

Комментарии (0)

Хотите обсудить статью?

Нужна помощь с настройкой?