Назад
Обзоры13 марта 20269 мин

NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста

NVIDIA выпустила Nemotron 3 Super — гибридную архитектуру Mamba-Transformer-MoE (120B параметров, 12B активных), поддержку 1M токенов контекста и #1 на DeepResearch Bench. Разбираем технологию и практическое применение.

NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста

NVIDIA Nemotron 3 Super: открытая модель с 1M токенами контекста

На этой неделе NVIDIA тихо выкатила то, что может стать одной из самых важных открытых моделей 2026 года. Nemotron 3 Super — это не просто ещё одна языковая модель. Это принципиально новая архитектура, сочетающая три разных подхода к обработке текста, и результаты впечатляют.

Что такое Nemotron 3 Super

Nemotron 3 Super — это языковая модель с 120 миллиардами параметров, из которых в каждый момент времени активны только 12 миллиардов. Она вышла 11 марта 2026 года и доступна через NVIDIA NIM и в открытом доступе.

Ключевые характеристики:

  • Архитектура: гибрид Mamba-2 + Transformer + MoE (Mixture of Experts)
  • Параметры: 120B общих, 12B активных
  • Контекст: до 1 миллиона токенов
  • Бенчмарк: #1 на DeepResearch Bench
  • Лицензия: открытая (можно использовать и дорабатывать)

Разбираем архитектуру: почему это важно

Большинство языковых моделей используют один тип архитектуры — Transformer (GPT-4, Claude, Llama). Немного по-другому устроены Mamba-модели. Nemotron 3 Super объединяет три типа слоёв в одной модели — и это даёт уникальные преимущества.

Mamba-2 слои: скорость

Mamba — это архитектура, разработанная как альтернатива Transformer. Её главное преимущество: она обрабатывает длинные контексты значительно быстрее. Transformer требует времени пропорционально квадрату длины контекста (O(n²)), Mamba — линейно (O(n)).

Для 1M токенов это разница в скорости в сотни раз.

Transformer слои: качество

Transformer — лучшая архитектура для точности рассуждений и понимания контекста. Даже при меньшем количестве таких слоёв они обеспечивают высокое качество ответов на сложные задачи.

MoE (Mixture of Experts): эффективность

LatentMoE — собственная разработка NVIDIA. Вместо того чтобы использовать все параметры для каждого токена, модель маршрутизирует токены к «экспертам» — специализированным подсетям. Только 12B из 120B параметров активны в каждый момент.

Результат: мощность большой модели при вычислительной стоимости маленькой.

Почему сочетание работает

Mamba-слои берут на себя большую часть обработки последовательности — быстро и эффективно. Transformer-слои добавляются в ключевых точках для качества рассуждений. MoE-слои обеспечивают специализацию.

NVIDIA называет это «LatentMoE архитектурой» — токены проецируются в меньшее скрытое пространство для маршрутизации и вычислений, что улучшает точность на байт.

Производительность: цифры

Согласно техническому отчёту NVIDIA:

Скорость:

  • На последовательностях 8K input / 64K output: до 2,2× быстрее чем GPT-OSS-120B
  • На последовательностях 8K input / 64K output: до 7,5× быстрее чем GPT-OSS-120B в другом тесте

Длинный контекст:

  • Поддерживает 1M токенов
  • Превосходит GPT-OSS-120B и Qwen3.5-122B на бенчмарке RULER при 1M контексте

Бенчмарки рассуждений:

  • #1 на DeepResearch Bench
  • Сопоставимо или лучше GPT-OSS-120B и Qwen3.5-122B на стандартных бенчмарках

Обучение:

  • Впервые для такого масштаба: предобучение с NVFP4 квантизацией
  • Это снижает требования к памяти без потери качества

Что такое 1M токенов контекста на практике

1 миллион токенов — это примерно:

  • 750 000 слов
  • Полное собрание сочинений Толстого («Война и мир» — около 580 000 слов)
  • ~3000 страниц кода
  • Весь кодовый репозиторий среднего размера

На практике это означает:

Для разработчиков: можно загрузить весь проект и спрашивать о взаимосвязях между файлами, искать баги в контексте всего кода.

Для юристов: анализ всей документации по делу за один раз.

Для аналитиков: обработка годовых отчётов нескольких компаний одновременно для сравнительного анализа.

Для исследователей: синтез нескольких научных статей с учётом всего контекста каждой.

DeepResearch Bench: что это и почему важно

DeepResearch Bench — относительно новый бенчмарк, оценивающий способность модели проводить сложные многошаговые исследования. В отличие от стандартных тестов на факты или рассуждения, он проверяет:

  • Способность собирать информацию из множества источников
  • Синтез противоречивой информации
  • Формирование обоснованных выводов

Именно это нужно для реальных задач «глубокого исследования» — анализа рынков, due diligence, научных обзоров.

Первое место Nemotron 3 Super на этом бенчмарке говорит о том, что модель особенно хороша именно для агентских задач, требующих длительного рассуждения с большим контекстом.

Сравнение с конкурентами

МодельПараметрыКонтекстОткрытая?
Nemotron 3 Super120B/12B1MДа
Llama 3.370B128KДа
Qwen3.5122B1MДа
GPT-OSS-120B~120B128KНет
DeepSeek-R1671B/37B128KДа

Главные конкуренты в классе открытых моделей с 1M контекстом — Qwen3.5-122B от Alibaba. NVIDIA явно целилась именно в неё.

Кому нужна эта модель

Компаниям с конфиденциальными данными: открытая модель можно развернуть локально. Документы клиентов не уходят в облако.

Разработчикам AI-агентов: модель оптимизирована для агентских задач (глубокое исследование, длительные рассуждения). 1M контекст позволяет агенту держать в памяти весь ход работы.

Исследовательским организациям: можно дообучать на собственных данных, адаптировать под специфические задачи.

Тем, кто хочет скорости: 2-7× быстрее аналогов при сопоставимом качестве — это реальная экономия на inference-затратах.

NVIDIA как игрок в AI-разработке

Интересно, что NVIDIA — компания, зарабатывающая на GPU — активно инвестирует в открытые языковые модели. Зачем?

Логика проста: чем больше людей используют Nemotron, тем больше вычислений нужно для его запуска, тем больше GPU нужно покупать. Открытые модели — это маркетинг и экосистема для бизнеса с железом.

Но это не делает Nemotron менее полезным. Для пользователей мотивация NVIDIA не важна — важно качество продукта. А оно, судя по бенчмаркам, очень высокое.

Как попробовать

Nemotron 3 Super доступен через:

  1. NVIDIA NIM — облачный API, можно попробовать без своего железа
  2. Hugging Face — скачать веса и запустить самостоятельно
  3. NVIDIA NGC — для корпоративных пользователей с расширенной поддержкой

Для запуска 120B-модели в полном размере нужны несколько A100/H100 GPU. Но с квантизацией NVFP4 требования снижаются.

Итог

Nemotron 3 Super — это значимый шаг вперёд для открытых языковых моделей. Гибридная архитектура Mamba-Transformer-MoE, 1M токенов контекста и лидерство на DeepResearch Bench делают её особенно ценной для агентских приложений и задач глубокого анализа.

Важно: это открытая модель. В мире, где мощнейшие модели закрыты в проприетарных API, наличие конкурентоспособной открытой альтернативы — это хорошо для всей индустрии.

Если вы разрабатываете AI-приложения или ищете модель для деплоя на своей инфраструктуре — Nemotron 3 Super определённо стоит оценить.


Следите за новыми AI-моделями? Подписывайтесь на @AI_and_zarubejka — разбираем каждый релиз!

NVIDIANemotronОткрытые моделиLLMMoE

Понравилась статья? Поделись с друзьями!

Поделиться:

Оцените статью

0 реакций

📬 Получай новые гайды первым

Раз в неделю, без спама

Комментарии (0)

Обсудить в Telegram

Комментарии модерируются

💬

Пока нет комментариев. Будьте первым!

💬

Хотите обсудить статью?

Присоединяйтесь к нашему Telegram-каналу для живого общения

Перейти в Telegram

Нужна помощь с настройкой?

Бесплатная консультация в Telegram. Поможем за 5 минут.

Получить консультацию