После 15 месяцев ожидания DeepSeek наконец представил V4 Preview: комплексный анализ

В этой статье рассматриваются технические особенности, производительность и рекомендации по использованию DeepSeek V4, а также даётся комплексный анализ ключевых преимуществ этой новой большой языковой модели. Материал изложен доступным языком и подойдёт как техническим энтузиастам, так и разработчикам.

Ключевые слова: deepseek v4, официальный сайт deepseek, руководство deepseek, цена deepseek v4.

Дата публикации: 25 апреля 2026 г. Автор: DeepSeek HK

Начать использовать DeepSeek

Комплексный анализ DeepSeek V4 Preview

1. Официальный запуск DeepSeek V4 Preview

24 апреля DeepSeek официально объявил о запуске V4 Preview. Это крупное обновление вышло спустя 15 месяцев после релиза V3.2 и стало ещё одним важным прорывом в дорожной карте технологий больших моделей DeepSeek.

Согласно официальному описанию, серия V4 включает две MoE-модели:

DeepSeek-V4-Pro: 1,6 трлн общих параметров, 49 млрд активированных параметров
DeepSeek-V4-Flash: 284 млрд общих параметров, 13 млрд активированных параметров

Обе модели нативно поддерживают контекст в 1 миллион токенов, что означает качественный скачок в возможностях обработки длинных текстов. В режиме контекста 1M:

инференс FLOPs на токен V4-Pro составляет всего 27% от V3.2, KV Cache — всего 10%
V4-Flash ещё эффективнее: эти показатели снижены до 10% и 7% соответственно

Это означает, что при увеличении длины контекста почти в 8 раз (с 128K у V3.2 до 1M у V4) вычислительные требования на токен фактически существенно снизились, достигнув прорыва одновременно в длинном контексте и эффективности инференса.

Представители DeepSeek чётко заявляют, что V4 Preview позиционируется как инфраструктурное обновление, главная задача которого — реконструировать стоимость длинного контекста, чтобы подготовить почву для следующего этапа масштабирования во время тестирования и задач с большим охватом. На текущий момент уровень возможностей всё ещё уступает GPT-5.4 и Gemini-3.1-Pro, отставание от передовых закрытых моделей составляет примерно 3–6 месяцев.

2. Две модели, три режима инференса: ключевые особенности V4

2.1 Параметры моделей и преимущества стоимости

Главный акцент серии V4 — значительная оптимизация кривой стоимости. В режиме контекста 1M токенов:

V4-Pro: инференс FLOPs на токен составляет всего 27% от V3.2, KV Cache — только 10%
V4-Flash: инференс FLOPs на токен составляет всего 10% от V3.2, KV Cache — только 7%

Это повышение эффективности резко снижает стоимость инференса для контекста уровня миллиона токенов, обеспечивая экономически обоснованное решение для сценариев обработки длинных текстов и анализа документов.

2.2 Система ценообразования API

DeepSeek продолжает придерживаться проверенной стратегии высокой ценности:

V4-Pro: ¥1 за миллион входных токенов (при попадании в кэш) или ¥12 (промах кэша), ¥24 за миллион выходных токенов
V4-Flash: ¥0,2 за миллион входных токенов (при попадании в кэш) или ¥1 (промах кэша), ¥2 за миллион выходных токенов

2.3 Три уровня интенсивности инференса

Каждая модель предлагает три режима инференса для различных сценариев:

Non-think: режим прямого вывода, максимальная скорость ответа
Think High: обычный режим глубокого размышления, баланс скорости и качества
Think Max: вводятся сильные инструкции, максимизируются контекст и длина вывода, раскрываются все возможности модели

Режим Max значительно повышает производительность модели: показатели V4-Pro-Max вырастают с 34,5 до 37,7 в тестах HLE и с 85,5 до 90,2 в тестах Apex Shortlist, ценой удвоения количества выходных токенов.

3. Результаты бенчмарк-тестов

Согласно официальным тестовым данным DeepSeek, серия V4 отлично показывает себя в нескольких оценках:

3.1 Тесты на знания и рассуждения

DeepSeek-V4-Pro-Max занимает первое место в Apex Shortlist (90,2%) и Codeforces (рейтинг 3206) — двух сложнейших задачах на рассуждение и программирование, демонстрируя исключительно сильные логические и алгоритмические способности
Gemini-3.1-Pro-High лидирует в SimpleQA Verified (75,6%)
Claude и GPT имеют свои сильные стороны в разных проектах, общие разрывы невелики

3.2 Тесты способностей агента

Все четыре модели показывают равные результаты в задачах SWE Verified (все достигают 80,6%)
DeepSeek превосходит конкурентов в Terminal Bench 2.0 (67,9%) и Toolathlon (51,8%), демонстрируя явные преимущества в сценариях выполнения сложных инструкций и вызова инструментов

Представители заявляют, что способности агента DeepSeek-V4-Pro значительно улучшились по сравнению с предыдущими поколениями: «пользовательский опыт лучше, чем у Sonnet 4.5, качество выполнения близко к неразмышляющему режиму Opus 4.6, хотя и всё ещё уступает размышляющему режиму Opus 4.6».

3.3 Знания мира и общие способности

V4-Pro значительно превосходит другие открытые модели в оценках знаний мира, уступая лишь немного лидирующей закрытой модели Gemini-Pro-3.1
В математике, STEM и оценках соревновательного программирования V4-Pro превосходит все текущие публично оценённые открытые модели, достигая уровня лучших в мире закрытых моделей
Как экономичная модель, V4-Flash имеет несколько меньший запас знаний, чем версия Pro, но схожие способности к рассуждению. Благодаря меньшему числу параметров и активаций она предоставляет более быстрые и экономичные API-услуги
В оценках агента V4-Flash показывает результаты, сравнимые с версией Pro, на простых задачах, но всё ещё отстаёт на сложных задачах

4. Ключевое технологическое новшество: переписывание механизма внимания

Самое главное техническое изменение V4 — уровень механизма внимания, фундаментально решающее проблему эффективности инференса с длинным контекстом.

В традиционных механизмах внимания Transformer каждый токен должен вычислять сходство со всеми предыдущими токенами. При расширении контекста с 100K до 1M вычислительные затраты возрастают в 100 раз, и это главное узкое место, мешающее широкому внедрению длинного контекста.

V4 применяет инновационный двойной механизм внимания с чередующимися слоями:

CSA (Compressed Sparse Attention): сначала объединяет KV-кэш для каждых 4 токенов в один обзор, затем позволяет каждому запросу выбирать только наиболее релевантные top-k обзоры для вычисления внимания, сжимая обрабатываемый контент и фокусируясь только на релевантной информации
HCA (Heavy Compressed Attention): использует более агрессивное сжатие, объединяя каждые 128 токенов в один обзор, затем применяет плотное внимание к оставшимся обзорам без разреженного отбора

Два механизма внимания чередуются и накладываются, в сочетании с ветвью скользящего окна, обрабатывающей детальные зависимости между близкими токенами, формируя комбинированный подход «крупнозернистый + мелкозернистый, разреженный + плотный».

С точки зрения эволюции технологий DeepSeek V2 и V3 в основном следовали пути разреженности параметров (большое общее число параметров, но активация лишь части экспертов на токен). V4 открывает новый путь разреженности контекста (сжатие KV, top-k отбор, многоуровневые коэффициенты сжатия) на этой основе. Это первый случай, когда DeepSeek применяет концепцию «разреженности» к основной структуре Transformer.

Помимо уровня внимания, в V4 есть ещё два важных архитектурных улучшения:

Традиционные остаточные связи заменены на mHC (Manifold Constrained Hyperconnection), делающие прямое и обратное распространение в глубоких сетях более стабильными через математические ограничения
AdamW заменён оптимизатором Muon для большинства модулей, обеспечивая более быструю сходимость и более стабильное обучение

Это первый случай, когда DeepSeek одновременно изменил три основных компонента Transformer: внимание, остаточные связи и оптимизатор.

5. Инновация в парадигме пост-тренинга: дистилляция экспертных моделей

По сравнению с архитектурными изменениями, инновации V4 в методах пост-тренинга ещё более примечательны.

V3.2 использовала подход «смешанного RL», одновременно оптимизируя несколько целей с помощью обучения с подкреплением. V4 применяет двухэтапную стратегию «разделения и объединения»:

Фаза дифференциации: для различных областей, таких как математика, код, агент и следование инструкциям, для каждой области обучается отдельная экспертная модель. Эти эксперты сначала проходят контролируемую тонкую настройку на высококачественных данных области, затем обучение с подкреплением с алгоритмом GRPO, каждый эксперт достигает оптимальной производительности в своей специализированной области
Фаза унификации: используется метод On-Policy Distillation (OPD) для «синтеза» более чем десятка экспертов областей обратно в единую студенческую модель. После генерации ответа студентом он сопоставляет распределение вывода с экспертом, который «лучше всего понимает эту задачу», впитывая возможности экспертов через выравнивание на уровне логитов

Этот подход можно понимать как дистилляцию возможностей нескольких «лучших студентов» области в одну модель. Для решения инженерной задачи одновременной загрузки более десятка моделей-учителей с триллионами параметров DeepSeek выгружает все веса учителей в распределённое хранилище, кэшируя только скрытое состояние последнего слоя каждого учителя. Во время обучения образцы сортируются по индексу учителя, гарантируя, что в любой момент в памяти GPU находится только одна голова учителя.

Этот подход позволяет избежать проблемы интерференции возможностей, типичной для традиционного «смешанного RL», позволяя модели достигать топ-уровня производительности в нескольких областях.

6. Специальная оптимизация способностей агента

DeepSeek V4 включает специализированные адаптации и оптимизации для основных продуктов-агентов, с повышенной производительностью в задачах кода, генерации документов и других сценариях.

Специальные оптимизации V4 для способностей агента включают:

В процессе пост-тренинга агент рассматривается как независимое экспертное направление наряду с математикой и кодом, с отдельным обучением
Формат вызова инструментов изменён с JSON на XML-структуру со специальными токенами, снижая частоту ошибок экранирования
Междуходовые следы рассуждений полностью сохраняются в сценариях вызова инструментов, в отличие от V3.2, где они очищались каждый ход
Самостоятельно построенная песочница DSec, один кластер которой способен одновременно управлять сотнями тысяч экземпляров песочниц, поддерживая обучение и оценку агентов с подкреплением

Представители заявляют, что способности агента V4-Pro «лучше, чем у Sonnet 4.5, качество выполнения близко к неразмышляющему режиму Opus 4.5, хотя и всё ещё уступает размышляющему режиму Opus 4.6».

Техническая архитектура DeepSeek V4

Резюме

DeepSeek V4 Preview — это большая модель с выдающимися технологическими инновациями. Благодаря реконструкции механизма внимания и инновациям в парадигме обучения она сохраняет мощные способности к рассуждению при резком снижении стоимости инференса для длинного контекста, прокладывая путь для практического применения контекста уровня миллиона токенов.

Будь то профессиональные сценарии, требующие мощных способностей к рассуждению, или крупномасштабные приложения, ориентированные на экономическую эффективность — серия V4 предлагает подходящие варианты. Если вы хотите испытать мощные возможности DeepSeek V4, добро пожаловать на нашу платформу.

Начать использовать DeepSeek