DeepSeek V4: Контекст 1 млн токенов, снижение затрат на 73%

Ключевые слова: deepseek v4, официальный сайт deepseek, руководство deepseek, цена deepseek v4

Дата публикации: 24 апреля 2026 г.

Автор: DeepSeek HK

DeepSeek V4: Контекст 1 млн токенов, снижение затрат на 73%

Сегодня компания DeepSeek официально объявила о выпуске и открытии исходного кода предпросмотровой версии серии DeepSeek-V4 — флагманской системы моделей следующего поколения после V3.2. Этот выпуск включает две модели: DeepSeek-V4-Pro и DeepSeek-V4-Flash, обе используют архитектуру MoE с общим объемом параметров 1,6 Т (49 млрд активируемых) и 284 млрд (13 млрд активируемых) соответственно, и обе поддерживают максимальный контекст в 1 миллион токенов.

Представители DeepSeek также заявили, что из-за ограничений высокопроизводительных вычислительных мощностей текущая пропускная способность сервиса DeepSeek-V4-Pro очень ограничена. Ожидается, что после массового запуска суперузлов Ascend 950 во второй половине года его цена значительно снизится. Кроме того, DeepSeek-V4 получил поддержку адаптации Day 0 от Cambricon, а соответствующий код адаптации был открыт для сообщества GitHub.

Различия в позиционировании моделей

DeepSeek-V4-Pro сосредоточен на верхней границе производительности, сравниваясь с флагманскими моделями с закрытым исходным кодом; в то время как DeepSeek-V4-Flash значительно снижает масштаб параметров и масштаб активации в обмен на более низкую задержку и более низкую стоимость. По сравнению с моделью предыдущего поколения он получил дальнейшее улучшение в возможностях агента, знаниях о мире и сложных задачах рассуждения, и впервые «контекст в 1 миллион токенов» открыт как стандартная возможность.

Значительно улучшенные возможности агента

Что касается возможностей агента, то возможности агента DeepSeek-V4-Pro были значительно улучшены. Он вошел в первый эшелон открытых решений в оценках, таких как агентное кодирование. Внутренние оценки показывают, что качество его работы близко к режиму неразмышления Claude Opus 4.6, но все еще есть разрыв по сравнению с его режимом размышления.

DeepSeek-V4-Pro превзошел текущие публично оцениваемые модели с открытым исходным кодом в задачах высокой сложности, таких как математика, STEM и конкурсный код, а его общая производительность близка или даже сопоставима с лучшими моделями с закрытым исходным кодом, такими как GPT-5.4 и Claude Opus 4.6-Max.

Значительно сниженная стоимость длинного контекста

В то же время DeepSeek-V4 ввел ряд более радикальных оптимизаций эффективности длинного контекста: в сценариях с 1 миллионом токенов вычисления на токен при выводе составляют всего 27% от V3.2, а использование кэша KV сокращено до примерно 10%, что значительно снижает затраты на вычислительную мощность и видеопамять для задач с длинными ссылками.

План тарифов на API

Официально объявленные цены на API для серии DeepSeek-V4:

DeepSeek-V4-Pro: 1 юань / миллион токенов для кэшированного ввода, 12 юаней / миллион токенов для некэшированного ввода, 24 юаня / миллион токенов для вывода
DeepSeek-V4-Flash: всего 0,2 юаня / миллион токенов для кэшированного ввода, 1 юань / миллион токенов для некэшированного ввода, 2 юаня / миллион токенов для вывода

В настоящее время серия DeepSeek-V4 запущена на официальном сайте и в приложении, а API и веса моделей открыты одновременно.

Практический опыт: Комплексное улучшение возможностей

Мы первоначально протестировали изменения в DeepSeek-V4, в основном тестируя модель DeepSeek-V4-Pro.

Значительно улучшенная способность агентного программирования

В случае однократной разработки фронтенд-сайта DeepSeek-V4-Pro показал высокую эффективность выполнения. Поскольку требования не были сложными, модели потребовалось всего 5 секунд на обдумывание, после чего она быстро разработала решение, что значительно отличается от паттерна предыдущих моделей DeepSeek, которые тратят много токенов на размышления. После входа в реальный процесс генерации длина вывода DeepSeek-V4-Pro значительно больше, чем у других моделей DeepSeek, с высокой скоростью генерации, в основном выводя блоками по 5 строк кода, а степень завершенности веб-страницы выше, чем у DeepSeek-V3.2, с более богатым дизайном.

В тесте задач, сочетающих возможности агента и программирование, DeepSeek-V4-Pro может выполнять сложные многократные вызовы инструментов, а количество поисковых запросов в Интернете также увеличилось по сравнению с предыдущими моделями, сбор информации стал более полным. Окончательно сгенерированный план поездки составлен разумно и содержит местоположение каждой туристической достопримечательности, которое можно использовать напрямую в приложении навигации после нажатия, что очень удобно. В задачах агента можно наблюдать, что его действия очень решительны, вызовы инструментов и размышления решаются за несколько секунд, а эффективность использования токенов хорошая.

Практическое тестирование контекста из 1 млн токенов

Модели серии DeepSeek-V4 поддерживают контекст в 1 миллион токенов. Мы загрузили полную трилогию «Три тела» (в общей сложности около 540 000 токенов) для тестирования, и модель может быстро локализовать указанный контент, успешно реализуя поиск информации в очень длинных текстах.

Тест даты отсечки знаний показывает, что дата отсечки знаний DeepSeek-V4-Pro все еще находится в 2025 году. Кроме того, эта модель пока не поддерживает визуальные возможности. После загрузки изображений он все равно будет выполнять извлечение текста, а изображения без текста будут показывать, что их невозможно обработать.

Инновация технической архитектуры

Самое непосредственное изменение этого поколения V4 заключается в том, что «длинный контекст» стал стандартной возможностью. В отличие от традиционного метода простого расширения окна, DeepSeek-V4-Pro вводит новую гибридную архитектуру внимания, сочетающую сжатое разреженное внимание с высококомпрессионным вниманием (HCA) и взаимодействующую с разреженным вниманием DSA для сжатия в измерении токенов.

Кроме того, модель вводит гиперсвязь с ограничением на многообразии (mHC) для улучшения традиционных остаточных связей и использует оптимизатор Muon для повышения скорости сходимости и стабильности обучения. Эта серия разработок позволяет модели эффективно контролировать вычислительные затраты, при этом «запоминая дольше».

Согласно официальным данным, в контексте из 1 миллиона токенов количество TFLOP на токен при выводе у DeepSeek-V4-Pro снизилось примерно в 3,7–9,8 раза по сравнению с DeepSeek-V3.2, а использование кэша KV снизилось в 9,5–13,7 раза. Это означает, что задачи с очень длинными ссылками, которые было трудно реально запустить в прошлом (например, многоэтапное планирование агента, обработка длинных документов), начали попадать в диапазон выполнимых.

Производительность: Новый потолок для моделей с открытым исходным кодом

С точки зрения структуры возможностей улучшение DeepSeek-V4-Pro заключается в одновременном улучшении возможностей рассуждения, знаний и возможностей агента:

Возможности знаний и рассуждения

В задачах знаний и рассуждения он превосходит текущие основные модели с открытым исходным кодом в оценках, таких как SimpleQA, Apex и Codeforces, и во многих задачах близок к GPT-5.4 и Gemini 3.1 Pro. Например, он набрал 90,2 балла в коротком списке Apex, уже превзойдя лучшие модели с закрытым исходным кодом; он также сохраняет уровень первого эшелона в конкурсных задачах, таких как Codeforces.

Возможности агента

В задачах, связанных с возможностями агента, DeepSeek-V4-Pro показывает стабильные показатели по таким индикаторам, как SWE Verified и Terminal Bench. SWE Verified достигает 80,6, что близко к Claude Opus 4.6, значительно выше, чем у большинства моделей с открытым исходным кодом. В Terminal Bench 2.0 его производительность также превосходит модели такие как GLM-5.1 Thinking и Kimi K2.6 Thinking.

В целом, DeepSeek-V4-Pro в настоящее время является «потолком» для моделей с открытым исходным кодом.

Специальная оптимизация для сценариев агента

Это поколение DeepSeek-V4 значительно усиливает адаптацию к сценариям агента. Он имеет специальные оптимизации для основных фреймворков агентов, таких как Claude Code, OpenClaw и CodeBuddy, и работает более стабильно в многоэтапных задачах, таких как генерация кода и генерация документов.

С точки зрения практического позиционирования, DeepSeek-V4-Pro уже используется в качестве модели агентного кодирования внутри DeepSeek с фокусом на «завершение задач». Для простых задач V4-Flash уже близок к версии Pro, но в сложных задачах все еще есть значительный разрыв, что, по сути, обеспечивает две «ступени мощности» для приложений агента.

Заключение

Выпуск DeepSeek-V4 не только демонстрирует накопленный командой опыт в области технологий и архитектуры, но и отмечает реальную возможность развертывания больших моделей с открытым исходным кодом в экосистеме отечественных вычислительных мощностей. После адаптации и оптимизации для отечественных чипов, таких как Huawei Ascend и Cambricon, серия DeepSeek-V4 достигла стабильной поддержки и эффективного вывода для контекста в 1 миллион токенов, сделав возможными задачи с длинными ссылками и многоэтапное выполнение агента.

Эта версия реализует дифференцированное позиционирование Pro и Flash, приближаясь к флагманским моделям с закрытым исходным кодом по производительности и сохраняя высокую экономичность по затратам, предоставляя беспрецедентные открытые возможности для отечественных разработчиков. Что еще важнее, этот выпуск показывает, что модели с открытым исходным кодом могут не только прочно закрепиться в глобальной конкуренции, но и преобразовать технический потенциал в практическую производительность с помощью отечественных вычислительных мощностей и оптимизированной архитектуры.

DeepSeek-V4 может стать ключевым шагом, сделанным китайскими силами открытого кода на рынке высокопроизводительного ИИ, а также обеспечивает четкие ориентиры для инноваций и внедрения отечественной экосистемы ИИ.

Начать использовать DeepSeek