NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста
NVIDIA выпустила Nemotron 3 Super — гибридную архитектуру Mamba-Transformer-MoE (120B параметров, 12B активных), поддержку 1M токенов контекста и #1 на DeepResearch Bench. Разбираем технологию и практическое применение.

NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста
На этой неделе NVIDIA тихо выкатила то, что может стать одной из самых важных открытых моделей 2026 года. Nemotron 3 Super — это не просто ещё одна языковая модель. Это принципиально новая архитектура, сочетающая три разных подхода к обработке текста, и результаты впечатляют.
Что такое Nemotron 3 Super
Nemotron 3 Super — это языковая модель с 120 миллиардами параметров, из которых в каждый момент времени активны только 12 миллиардов. Она вышла 11 марта 2026 года и доступна через NVIDIA NIM и в открытом доступе.
Ключевые характеристики:
- Архитектура: гибрид Mamba-2 + Transformer + MoE (Mixture of Experts)
- Параметры: 120B общих, 12B активных
- Контекст: до 1 миллиона токенов
- Бенчмарк: #1 на DeepResearch Bench
- Лицензия: открытая (можно использовать и дорабатывать)
Разбираем архитектуру: почему это важно
Большинство языковых моделей используют один тип архитектуры — Transformer (GPT-4, Claude, Llama). Немного по-другому устроены Mamba-модели. Nemotron 3 Super объединяет три типа слоёв в одной модели — и это даёт уникальные преимущества.
Mamba-2 слои: скорость
Mamba — это архитектура, разработанная как альтернатива Transformer. Её главное преимущество: она обрабатывает длинные контексты значительно быстрее. Transformer требует времени пропорционально квадрату длины контекста (O(n²)), Mamba — линейно (O(n)).
Для 1M токенов это разница в скорости в сотни раз.
Transformer слои: качество
Transformer — лучшая архитектура для точности рассуждений и понимания контекста. Даже при меньшем количестве таких слоёв они обеспечивают высокое качество ответов на сложные задачи.
MoE (Mixture of Experts): эффективность
LatentMoE — собственная разработка NVIDIA. Вместо того чтобы использовать все параметры для каждого токена, модель маршрутизирует токены к «экспертам» — специализированным подсетям. Только 12B из 120B параметров активны в каждый момент.
Результат: мощность большой модели при вычислительной стоимости маленькой.
Почему сочетание работает
Mamba-слои берут на себя большую часть обработки последовательности — быстро и эффективно. Transformer-слои добавляются в ключевых точках для качества рассуждений. MoE-слои обеспечивают специализацию.
NVIDIA называет это «LatentMoE архитектурой» — токены проецируются в меньшее скрытое пространство для маршрутизации и вычислений, что улучшает точность на байт.
Производительность: цифры
Согласно техническому отчёту NVIDIA:
Скорость:
- На последовательностях 8K input / 64K output: до 2,2× быстрее чем GPT-OSS-120B
- На последовательностях 8K input / 64K output: до 7,5× быстрее чем GPT-OSS-120B в другом тесте
Длинный контекст:
- Поддерживает 1M токенов
- Превосходит GPT-OSS-120B и Qwen3.5-122B на бенчмарке RULER при 1M контексте
Бенчмарки рассуждений:
- #1 на DeepResearch Bench
- Сопоставимо или лучше GPT-OSS-120B и Qwen3.5-122B на стандартных бенчмарках
Обучение:
- Впервые для такого масштаба: предобучение с NVFP4 квантизацией
- Это снижает требования к памяти без потери качества
Что такое 1M токенов контекста на практике
1 миллион токенов — это примерно:
- 750 000 слов
- Полное собрание сочинений Толстого («Война и мир» — около 580 000 слов)
- ~3000 страниц кода
- Весь кодовый репозиторий среднего размера
На практике это означает:
Для разработчиков: можно загрузить весь проект и спрашивать о взаимосвязях между файлами, искать баги в контексте всего кода.
Для юристов: анализ всей документации по делу за один раз.
Для аналитиков: обработка годовых отчётов нескольких компаний одновременно для сравнительного анализа.
Для исследователей: синтез нескольких научных статей с учётом всего контекста каждой.
DeepResearch Bench: что это и почему важно
DeepResearch Bench — относительно новый бенчмарк, оценивающий способность модели проводить сложные многошаговые исследования. В отличие от стандартных тестов на факты или рассуждения, он проверяет:
- Способность собирать информацию из множества источников
- Синтез противоречивой информации
- Формирование обоснованных выводов
Именно это нужно для реальных задач «глубокого исследования» — анализа рынков, due diligence, научных обзоров.
Первое место Nemotron 3 Super на этом бенчмарке говорит о том, что модель особенно хороша именно для агентских задач, требующих длительного рассуждения с большим контекстом.
Сравнение с конкурентами
| Модель | Параметры | Контекст | Открытая? |
|---|---|---|---|
| Nemotron 3 Super | 120B/12B | 1M | Да |
| Llama 3.3 | 70B | 128K | Да |
| Qwen3.5 | 122B | 1M | Да |
| GPT-OSS-120B | ~120B | 128K | Нет |
| DeepSeek-R1 | 671B/37B | 128K | Да |
Главные конкуренты в классе открытых моделей с 1M контекстом — Qwen3.5-122B от Alibaba. NVIDIA явно целилась именно в неё.
Кому нужна эта модель
Компаниям с конфиденциальными данными: открытая модель можно развернуть локально. Документы клиентов не уходят в облако.
Разработчикам AI-агентов: модель оптимизирована для агентских задач (глубокое исследование, длительные рассуждения). 1M контекст позволяет агенту держать в памяти весь ход работы.
Исследовательским организациям: можно дообучать на собственных данных, адаптировать под специфические задачи.
Тем, кто хочет скорости: 2-7× быстрее аналогов при сопоставимом качестве — это реальная экономия на inference-затратах.
NVIDIA как игрок в AI-разработке
Интересно, что NVIDIA — компания, зарабатывающая на GPU — активно инвестирует в открытые языковые модели. Зачем?
Логика проста: чем больше людей используют Nemotron, тем больше вычислений нужно для его запуска, тем больше GPU нужно покупать. Открытые модели — это маркетинг и экосистема для бизнеса с железом.
Но это не делает Nemotron менее полезным. Для пользователей мотивация NVIDIA не важна — важно качество продукта. А оно, судя по бенчмаркам, очень высокое.
Как попробовать
Nemotron 3 Super доступен через:
- NVIDIA NIM — облачный API, можно попробовать без своего железа
- Hugging Face — скачать веса и запустить самостоятельно
- NVIDIA NGC — для корпоративных пользователей с расширенной поддержкой
Для запуска 120B-модели в полном размере нужны несколько A100/H100 GPU. Но с квантизацией NVFP4 требования снижаются.
Итог
Nemotron 3 Super — это значимый шаг вперёд для открытых языковых моделей. Гибридная архитектура Mamba-Transformer-MoE, 1M токенов контекста и лидерство на DeepResearch Bench делают её особенно ценной для агентских приложений и задач глубокого анализа.
Важно: это открытая модель. В мире, где мощнейшие модели закрыты в проприетарных API, наличие конкурентоспособной открытой альтернативы — это хорошо для всей индустрии.
Если вы разрабатываете AI-приложения или ищете модель для деплоя на своей инфраструктуре — Nemotron 3 Super определённо стоит оценить.
Следите за новыми AI-моделями? Подписывайтесь на @AI_and_zarubejka — разбираем каждый релиз!
Оцените статью
0 реакций📬 Получай новые гайды первым
Раз в неделю, без спама
📚 Похожие статьи

Claude Sonnet 4.6 и Opus 4.6 — полный обзор февральских релизов Anthropic
Подробный обзор новых моделей Anthropic: Claude Sonnet 4.6 с производительностью уровня Opus за 5x меньшую цену, и Claude Opus 4.6 с расширенным мышлением. Бенчмарки, цены, сравнения, практические рекомендации.

DeepSeek R1: полный обзор reasoning-модели, которая шокировала индустрию
Китайская модель DeepSeek R1 достигла уровня OpenAI o1 при стоимости в 30 раз меньше. Разбираем архитектуру, бенчмарки, как запустить локально и что это значит для рынка AI.

World Models: что это и почему все ими занимаются в 2026
LeCun уходит из Meta ради World Models, Google развивает Genie, World Labs привлекает миллиарды. Разбираем, что такое World Models и почему это следующий фронтир AI.
Комментарии (0)
Обсудить в Telegram💬
Пока нет комментариев. Будьте первым!
💬
Хотите обсудить статью?
Присоединяйтесь к нашему Telegram-каналу для живого общения
Перейти в TelegramНужна помощь с настройкой?
Бесплатная консультация в Telegram. Поможем за 5 минут.
Получить консультацию