После 15 месяцев ожидания DeepSeek наконец представил V4 Preview: комплексный анализ
В этой статье рассматриваются технические особенности, производительность и рекомендации по использованию DeepSeek V4, а также даётся комплексный анализ ключевых преимуществ этой новой большой языковой модели. Материал изложен доступным языком и подойдёт как техническим энтузиастам, так и разработчикам.
Ключевые слова: deepseek v4, официальный сайт deepseek, руководство deepseek, цена deepseek v4.
Дата публикации: 25 апреля 2026 г. Автор: DeepSeek HK

1. Официальный запуск DeepSeek V4 Preview
24 апреля DeepSeek официально объявил о запуске V4 Preview. Это крупное обновление вышло спустя 15 месяцев после релиза V3.2 и стало ещё одним важным прорывом в дорожной карте технологий больших моделей DeepSeek.
Согласно официальному описанию, серия V4 включает две MoE-модели:
- DeepSeek-V4-Pro: 1,6 трлн общих параметров, 49 млрд активированных параметров
- DeepSeek-V4-Flash: 284 млрд общих параметров, 13 млрд активированных параметров
Обе модели нативно поддерживают контекст в 1 миллион токенов, что означает качественный скачок в возможностях обработки длинных текстов. В режиме контекста 1M:
- инференс FLOPs на токен V4-Pro составляет всего 27% от V3.2, KV Cache — всего 10%
- V4-Flash ещё эффективнее: эти показатели снижены до 10% и 7% соответственно
Это означает, что при увеличении длины контекста почти в 8 раз (с 128K у V3.2 до 1M у V4) вычислительные требования на токен фактически существенно снизились, достигнув прорыва одновременно в длинном контексте и эффективности инференса.
Представители DeepSeek чётко заявляют, что V4 Preview позиционируется как инфраструктурное обновление, главная задача которого — реконструировать стоимость длинного контекста, чтобы подготовить почву для следующего этапа масштабирования во время тестирования и задач с большим охватом. На текущий момент уровень возможностей всё ещё уступает GPT-5.4 и Gemini-3.1-Pro, отставание от передовых закрытых моделей составляет примерно 3–6 месяцев.
2. Две модели, три режима инференса: ключевые особенности V4
2.1 Параметры моделей и преимущества стоимости
Главный акцент серии V4 — значительная оптимизация кривой стоимости. В режиме контекста 1M токенов:
- V4-Pro: инференс FLOPs на токен составляет всего 27% от V3.2, KV Cache — только 10%
- V4-Flash: инференс FLOPs на токен составляет всего 10% от V3.2, KV Cache — только 7%
Это повышение эффективности резко снижает стоимость инференса для контекста уровня миллиона токенов, обеспечивая экономически обоснованное решение для сценариев обработки длинных текстов и анализа документов.
2.2 Система ценообразования API
DeepSeek продолжает придерживаться проверенной стратегии высокой ценности:
- V4-Pro: ¥1 за миллион входных токенов (при попадании в кэш) или ¥12 (промах кэша), ¥24 за миллион выходных токенов
- V4-Flash: ¥0,2 за миллион входных токенов (при попадании в кэш) или ¥1 (промах кэша), ¥2 за миллион выходных токенов
2.3 Три уровня интенсивности инференса
Каждая модель предлагает три режима инференса для различных сценариев:
- Non-think: режим прямого вывода, максимальная скорость ответа
- Think High: обычный режим глубокого размышления, баланс скорости и качества
- Think Max: вводятся сильные инструкции, максимизируются контекст и длина вывода, раскрываются все возможности модели
Режим Max значительно повышает производительность модели: показатели V4-Pro-Max вырастают с 34,5 до 37,7 в тестах HLE и с 85,5 до 90,2 в тестах Apex Shortlist, ценой удвоения количества выходных токенов.
3. Результаты бенчмарк-тестов
Согласно официальным тестовым данным DeepSeek, серия V4 отлично показывает себя в нескольких оценках:
3.1 Тесты на знания и рассуждения
- DeepSeek-V4-Pro-Max занимает первое место в Apex Shortlist (90,2%) и Codeforces (рейтинг 3206) — двух сложнейших задачах на рассуждение и программирование, демонстрируя исключительно сильные логические и алгоритмические способности
- Gemini-3.1-Pro-High лидирует в SimpleQA Verified (75,6%)
- Claude и GPT имеют свои сильные стороны в разных проектах, общие разрывы невелики
3.2 Тесты способностей агента
- Все четыре модели показывают равные результаты в задачах SWE Verified (все достигают 80,6%)
- DeepSeek превосходит конкурентов в Terminal Bench 2.0 (67,9%) и Toolathlon (51,8%), демонстрируя явные преимущества в сценариях выполнения сложных инструкций и вызова инструментов
Представители заявляют, что способности агента DeepSeek-V4-Pro значительно улучшились по сравнению с предыдущими поколениями: «пользовательский опыт лучше, чем у Sonnet 4.5, качество выполнения близко к неразмышляющему режиму Opus 4.6, хотя и всё ещё уступает размышляющему режиму Opus 4.6».
3.3 Знания мира и общие способности
- V4-Pro значительно превосходит другие открытые модели в оценках знаний мира, уступая лишь немного лидирующей закрытой модели Gemini-Pro-3.1
- В математике, STEM и оценках соревновательного программирования V4-Pro превосходит все текущие публично оценённые открытые модели, достигая уровня лучших в мире закрытых моделей
- Как экономичная модель, V4-Flash имеет несколько меньший запас знаний, чем версия Pro, но схожие способности к рассуждению. Благодаря меньшему числу параметров и активаций она предоставляет более быстрые и экономичные API-услуги
- В оценках агента V4-Flash показывает результаты, сравнимые с версией Pro, на простых задачах, но всё ещё отстаёт на сложных задачах
4. Ключевое технологическое новшество: переписывание механизма внимания
Самое главное техническое изменение V4 — уровень механизма внимания, фундаментально решающее проблему эффективности инференса с длинным контекстом.
В традиционных механизмах внимания Transformer каждый токен должен вычислять сходство со всеми предыдущими токенами. При расширении контекста с 100K до 1M вычислительные затраты возрастают в 100 раз, и это главное узкое место, мешающее широкому внедрению длинного контекста.
V4 применяет инновационный двойной механизм внимания с чередующимися слоями:
- CSA (Compressed Sparse Attention): сначала объединяет KV-кэш для каждых 4 токенов в один обзор, затем позволяет каждому запросу выбирать только наиболее релевантные top-k обзоры для вычисления внимания, сжимая обрабатываемый контент и фокусируясь только на релевантной информации
- HCA (Heavy Compressed Attention): использует более агрессивное сжатие, объединяя каждые 128 токенов в один обзор, затем применяет плотное внимание к оставшимся обзорам без разреженного отбора
Два механизма внимания чередуются и накладываются, в сочетании с ветвью скользящего окна, обрабатывающей детальные зависимости между близкими токенами, формируя комбинированный подход «крупнозернистый + мелкозернистый, разреженный + плотный».
С точки зрения эволюции технологий DeepSeek V2 и V3 в основном следовали пути разреженности параметров (большое общее число параметров, но активация лишь части экспертов на токен). V4 открывает новый путь разреженности контекста (сжатие KV, top-k отбор, многоуровневые коэффициенты сжатия) на этой основе. Это первый случай, когда DeepSeek применяет концепцию «разреженности» к основной структуре Transformer.
Помимо уровня внимания, в V4 есть ещё два важных архитектурных улучшения:
- Традиционные остаточные связи заменены на mHC (Manifold Constrained Hyperconnection), делающие прямое и обратное распространение в глубоких сетях более стабильными через математические ограничения
- AdamW заменён оптимизатором Muon для большинства модулей, обеспечивая более быструю сходимость и более стабильное обучение
Это первый случай, когда DeepSeek одновременно изменил три основных компонента Transformer: внимание, остаточные связи и оптимизатор.
5. Инновация в парадигме пост-тренинга: дистилляция экспертных моделей
По сравнению с архитектурными изменениями, инновации V4 в методах пост-тренинга ещё более примечательны.
V3.2 использовала подход «смешанного RL», одновременно оптимизируя несколько целей с помощью обучения с подкреплением. V4 применяет двухэтапную стратегию «разделения и объединения»:
- Фаза дифференциации: для различных областей, таких как математика, код, агент и следование инструкциям, для каждой области обучается отдельная экспертная модель. Эти эксперты сначала проходят контролируемую тонкую настройку на высококачественных данных области, затем обучение с подкреплением с алгоритмом GRPO, каждый эксперт достигает оптимальной производительности в своей специализированной области
- Фаза унификации: используется метод On-Policy Distillation (OPD) для «синтеза» более чем десятка экспертов областей обратно в единую студенческую модель. После генерации ответа студентом он сопоставляет распределение вывода с экспертом, который «лучше всего понимает эту задачу», впитывая возможности экспертов через выравнивание на уровне логитов
Этот подход можно понимать как дистилляцию возможностей нескольких «лучших студентов» области в одну модель. Для решения инженерной задачи одновременной загрузки более десятка моделей-учителей с триллионами параметров DeepSeek выгружает все веса учителей в распределённое хранилище, кэшируя только скрытое состояние последнего слоя каждого учителя. Во время обучения образцы сортируются по индексу учителя, гарантируя, что в любой момент в памяти GPU находится только одна голова учителя.
Этот подход позволяет избежать проблемы интерференции возможностей, типичной для традиционного «смешанного RL», позволяя модели достигать топ-уровня производительности в нескольких областях.
6. Специальная оптимизация способностей агента
DeepSeek V4 включает специализированные адаптации и оптимизации для основных продуктов-агентов, с повышенной производительностью в задачах кода, генерации документов и других сценариях.
Специальные оптимизации V4 для способностей агента включают:
- В процессе пост-тренинга агент рассматривается как независимое экспертное направление наряду с математикой и кодом, с отдельным обучением
- Формат вызова инструментов изменён с JSON на XML-структуру со специальными токенами, снижая частоту ошибок экранирования
- Междуходовые следы рассуждений полностью сохраняются в сценариях вызова инструментов, в отличие от V3.2, где они очищались каждый ход
- Самостоятельно построенная песочница DSec, один кластер которой способен одновременно управлять сотнями тысяч экземпляров песочниц, поддерживая обучение и оценку агентов с подкреплением
Представители заявляют, что способности агента V4-Pro «лучше, чем у Sonnet 4.5, качество выполнения близко к неразмышляющему режиму Opus 4.5, хотя и всё ещё уступает размышляющему режиму Opus 4.6».

Резюме
DeepSeek V4 Preview — это большая модель с выдающимися технологическими инновациями. Благодаря реконструкции механизма внимания и инновациям в парадигме обучения она сохраняет мощные способности к рассуждению при резком снижении стоимости инференса для длинного контекста, прокладывая путь для практического применения контекста уровня миллиона токенов.
Будь то профессиональные сценарии, требующие мощных способностей к рассуждению, или крупномасштабные приложения, ориентированные на экономическую эффективность — серия V4 предлагает подходящие варианты. Если вы хотите испытать мощные возможности DeepSeek V4, добро пожаловать на нашу платформу.