DeepSeek V4: Контекст на 1 мільйон токенів, зниження витрат на 73%

Ключові слова: deepseek v4, офіційний сайт deepseek, посібник deepseek, ціна deepseek v4

Дата публікації: 24 квітня 2026 р.

Автор: DeepSeek HK

DeepSeek V4: Контекст на 1 мільйон токенів, зниження витрат на 73%

Сьогодні компанія DeepSeek офіційно оголосила про випуск та відкриття вихідного коду попередньої версії серії DeepSeek-V4 — флагманської системи моделей наступного покоління після V3.2. Цей випуск включає дві моделі: DeepSeek-V4-Pro та DeepSeek-V4-Flash, обидві використовують архітектуру MoE з загальним обсягом параметрів 1,6 Т (49 млрд активованих) та 284 млрд (13 млрд активованих) відповідно, і обидві підтримують максимальний контекст в 1 мільйон токенів.

Представники DeepSeek також заявили, що через обмеження високопродуктивних обчислювальних потужностей поточна пропускна здатність сервісу DeepSeek-V4-Pro дуже обмежена. Очікується, що після масового запуску супервузлів Ascend 950 у другій половині року його ціна значно зменшиться. Крім того, DeepSeek-V4 отримав підтримку адаптації Day 0 від Cambricon, а відповідний код адаптації був відкритий для спільноти GitHub.

Відмінності у позиціонуванні моделей

DeepSeek-V4-Pro зосереджений на верхній межі продуктивності, порівнюючись з флагманськими моделями з закритим вихідним кодом; тоді як DeepSeek-V4-Flash значно зменшує масштаб параметрів та масштаб активації в обмін на нижчу затримку та нижчу вартість. У порівнянні з моделлю попереднього покоління він отримав подальше покращення в можливостях агента, знаннях про світ та складних завданнях міркування, і вперше «контекст в 1 мільйон токенів» відкритий як стандартна можливість.

Значно покращені можливості агента

Щодо можливостей агента, то можливості агента DeepSeek-V4-Pro були значно покращені. Він увійшов до першого ешелону відкритих рішень у оцінках, таких як агентне кодування. Внутрішні оцінки показують, що якість його роботи близька до режиму нерозмислення Claude Opus 4.6, але все ще є розрив у порівнянні з його режимом розмислення.

DeepSeek-V4-Pro перевершив поточні публічно оцінювані моделі з відкритим вихідним кодом у завданнях високої складності, таких як математика, STEM та конкурсний код, а його загальна продуктивність близька або навіть порівнянна з кращими моделями з закритим вихідним кодом, такими як GPT-5.4 та Claude Opus 4.6-Max.

Значно знижена вартість довгого контексту

Одночасно DeepSeek-V4 ввів ряд більш радикальних оптимізацій ефективності довгого контексту: у сценаріях з 1 мільйоном токенів обчислення на токен при висновку становлять лише 27% від V3.2, а використання кешу KV зменшено до приблизно 10%, що значно знижує витрати на обчислювальну потужність та відеопам’ять для завдань з довгими посиланнями.

План цін на API

Офіційно оголошені ціни на API для серії DeepSeek-V4:

DeepSeek-V4-Pro: 1 юань / мільйон токенів для кешованого введення, 12 юанів / мільйон токенів для некешованого введення, 24 юанів / мільйон токенів для виведення
DeepSeek-V4-Flash: лише 0,2 юаня / мільйон токенів для кешованого введення, 1 юань / мільйон токенів для некешованого введення, 2 юанів / мільйон токенів для виведення

Наразі серія DeepSeek-V4 запущена на офіційному сайті та в додатку, а API та ваги моделей відкриті одночасно.

Практичний досвід: Комплексне покращення можливостей

Ми спочатку протестували зміни в DeepSeek-V4, в основному тестуючи модель DeepSeek-V4-Pro.

Значно покращена здатність агентного програмування

У випадку одноразової розробки фронтенд-сайту DeepSeek-V4-Pro показав високу ефективність виконання. Оскільки вимоги не були складними, моделі знадобилося всього 5 секунд на обдумування, після чого вона швидко розробила рішення, що значно відрізняється від патерну попередніх моделей DeepSeek, які витрачають багато токенів на роздуми. Після входження в реальний процес генерації довжина виведення DeepSeek-V4-Pro значно більша, ніж у інших моделей DeepSeek, з високою швидкістю генерації, в основному виводячи блоками по 5 рядків коду, а ступінь завершення веб-сторінки вищий, ніж у DeepSeek-V3.2, з багатшим дизайном.

У тесті завдань, що поєднують можливості агента та програмування, DeepSeek-V4-Pro може виконувати складні багатократні виклики інструментів, а кількість пошукових запитів в Інтернеті також збільшилася порівняно з попередніми моделями, збір інформації став повнішим. Остаточно згенерований план подорожі складено розумно і містить розташування кожної туристичної визначної пам’ятки, яке можна використовувати безпосередньо в додатку навігації після натискання, що дуже зручно. У завданнях агента можна спостерігати, що його дії дуже рішучі, виклики інструментів та роздуми вирішуються за кілька секунд, а ефективність використання токенів хороша.

Практичне тестування контексту з 1 млн токенів

Моделі серії DeepSeek-V4 підтримують контекст в 1 мільйон токенів. Ми завантажили повну трилогію «Три тіла» (загалом приблизно 540 000 токенів) для тестування, і модель може швидко локалізувати вказаний вміст, успішно реалізуючи пошук інформації в дуже довгих текстах.

Тест дати відсіки знань показує, що дата відсіки знань DeepSeek-V4-Pro все ще знаходиться у 2025 році. Крім того, ця модель поки не підтримує візуальні можливості. Після завантаження зображень він все одно виконуватиме вилучення тексту, а зображення без тексту показуватимуть, що їх неможливо обробити.

Інновація технічної архітектури

Найбільш безпосередня зміна цього покоління V4 полягає в тому, що «довгий контекст» став стандартною можливістю. На відміну від традиційного методу простого розширення вікна, DeepSeek-V4-Pro вводить нову гібридну архітектуру уваги, що поєднує стиснуте розріджене внимание з висококомпресійним увагою (HCA) та взаємодіє з розрідженою увагою DSA для стиснення у вимірі токенів.

Крім того, модель вводить гіперз’єднання з обмеженням на многовид (mHC) для поліпшення традиційних залишкових зв’язків та використовує оптимізатор Muon для підвищення швидкості збіжності та стабільності навчання. Ця серія розробок дозволяє моделі ефективно контролювати обчислювальні витрати, водночас «запам’ятовуючи довше».

Згідно з офіційними даними, в контексті з 1 мільйоном токенів кількість TFLOP на токен при висновку у DeepSeek-V4-Pro зменшилася приблизно в 3,7–9,8 рази в порівнянні з DeepSeek-V3.2, а використання кешу KV зменшилося в 9,5–13,7 рази. Це означає, що завдання з дуже довгими посиланнями, які було важко реально запустити в минулому (наприклад, багатоетапне планування агента, обробка довгих документів), почали потрапляти в діапазон виконуваних.

Продуктивність: Нова стеля для моделей з відкритим вихідним кодом

З точки зору структури можливостей покращення DeepSeek-V4-Pro полягає в одночасному вдосконаленні можливостей міркування, знань та можливостей агента:

Можливості знань та міркування

У завданнях знань та міркування він перевершує поточні основні моделі з відкритим вихідним кодом у оцінках, таких як SimpleQA, Apex та Codeforces, і у багатьох завданнях близький до GPT-5.4 та Gemini 3.1 Pro. Наприклад, він набрав 90,2 бали у короткому списку Apex, вже перевершивши найкращі моделі з закритим вихідним кодом; він також зберігає рівень першого ешелону в конкурсних завданнях, таких як Codeforces.

Можливості агента

У завданнях, пов’язаних з можливостями агента, DeepSeek-V4-Pro показує стабільні показники за такими індикаторами, як SWE Verified та Terminal Bench. SWE Verified досягає 80,6, що близько до Claude Opus 4.6, значно вище, ніж у більшості моделей з відкритим вихідним кодом. У Terminal Bench 2.0 його продуктивність також перевершує моделі такі як GLM-5.1 Thinking та Kimi K2.6 Thinking.

Загалом, DeepSeek-V4-Pro в даний час є «стелею» для моделей з відкритим вихідним кодом.

Спеціальна оптимізація для сценаріїв агента

Це покоління DeepSeek-V4 значно посилює адаптацію до сценаріїв агента. Він має спеціальні оптимізації для основних фреймворків агентів, таких як Claude Code, OpenClaw та CodeBuddy, і працює стабільніше в багатокрокових завданнях, таких як генерація коду та генерація документів.

З точки зору практичного позиціонування, DeepSeek-V4-Pro вже використовується як модель агентного кодування всередині DeepSeek з фокусом на «завершення завдань». Для простих завдань V4-Flash вже близький до версії Pro, але в складних завданнях все ще є значний розрив, що, по суті, забезпечує дві «ступені потужності» для додатків агента.

Висновок

Випуск DeepSeek-V4 не лише демонструє накопичений командою досвід у галузі технологій та архітектури, але й відзначає реальну можливість розгортання великих моделей з відкритим вихідним кодом в екосистемі вітчизняних обчислювальних потужностей. Після адаптації та оптимізації для вітчизняних чіпів, таких як Huawei Ascend та Cambricon, серія DeepSeek-V4 досягла стабільної підтримки та ефективного висновку для контексту в 1 мільйон токенів, зробивши можливими завдання з довгими посиланнями та багатокрокове виконання агента.

Ця версія реалізує диференційоване позиціонування Pro та Flash, наближаючись до флагманських моделей з закритим вихідним кодом за продуктивністю та зберігаючи високу економічність за витратами, надаючи безпрецедентні відкриті можливості для вітчизняних розробників. Що ще важливіше, цей випуск показує, що моделі з відкритим вихідним кодом можуть не тільки міцно закріпитися у глобальній конкуренції, але й перетворити технічний потенціал на практичну продуктивність за допомогою вітчизняних обчислювальних потужностей та оптимізованої архітектури.

DeepSeek-V4 може стати ключовим кроком, зробленим китайськими силами відкритого коду на ринку високопродуктивного ШІ, а також забезпечує чіткі орієнтири для інновацій та впровадження вітчизняного екосистеми ШІ.

Почати використовувати DeepSeek