Після 15 місяців очікування DeepSeek нарешті представляє V4 Preview: комплексний аналіз

Ця стаття досліджує технічні особливості, продуктивність та інструкції з використання DeepSeek V4, надаючи комплексний аналіз основних переваг цієї нової генерації великої мовної моделі. Контент написано доступною мовою, що підходить як для технологічних ентузіастів, так і для розробників.

Ключові слова: deepseek v4, deepseek official website, deepseek tutorial, deepseek v4 price.

Дата публікації: 25 квітня 2026 Автор: DeepSeek HK

Почати використовувати DeepSeek

DeepSeek V4 Preview Комплексний аналіз

1. DeepSeek V4 Preview офіційно запущено

24 квітня DeepSeek офіційно оголосив про запуск V4 Preview. Це велике оновлення відбулося через 15 місяців після випуску V3.2, що позначає ще одну важливу віху в дорожній карті технологій великих моделей DeepSeek.

За офіційним представленням, серія V4 включає дві моделі MoE:

DeepSeek-V4-Pro: 1,6T загальних параметрів, 49B активованих параметрів
DeepSeek-V4-Flash: 284B загальних параметрів, 13B активованих параметрів

Обидві моделі нативно підтримують контекст у 1 мільйон токенів, що є якісним стрибком у можливостях обробки довгих текстів. Варто зазначити, що при налаштуваннях контексту 1M:

Інференс FLOPs V4-Pro на токен становить лише 27% від V3.2, а KV Cache — лише 10%
V4-Flash ще більш екстремальний, знижуючи ці показники до 10% та 7% відповідно

Це означає, що хоча довжина контексту розширилася майже в 8 разів з 128K у V3.2 до 1M у V4, обчислювальні вимоги на токен фактично значно зменшилися, досягаючи прориву як у можливостях довгого контексту, так і в ефективності інференсу.

Представники DeepSeek чітко зазначають, що V4 Preview позиціонується як інфраструктурне оновлення, головним чином перебудовуючи структуру вартості довгого контексту, щоб прокласти шлях для наступного етапу масштабування часу тестування та далекосяжних завдань. Його поточний рівень можливостей все ще поступається GPT-5.4 та Gemini-3.1-Pro, з траєкторією розвитку, що приблизно на 3–6 місяців відстає від передових закритих моделей.

2. Дві моделі, три режими інференсу: основні особливості V4

2.1 Параметри моделі та переваги вартості

Найбільший акцент серії V4 — це значна оптимізація кривої вартості. При налаштуваннях контексту в 1M токенів:

V4-Pro: Інференс FLOPs на токен становить лише 27% від V3.2, KV Cache лише 10%
V4-Flash: Інференс FLOPs на токен становить лише 10% від V3.2, KV Cache лише 7%

Це покращення ефективності різко знижує вартість інференсу для контексту рівня мільйона токенів, забезпечуючи економічно доцільне рішення для обробки довгих текстів, аналізу документів та інших сценаріїв.

2.2 Система ціноутворення API

DeepSeek продовжує свою послідовну стратегію високої вартості:

V4-Pro: ¥1 за мільйон вхідних токенів (попадання в кеш) або ¥12 (промах кешу), ¥24 за мільйон вихідних токенів
V4-Flash: ¥0,2 за мільйон вхідних токенів (попадання в кеш) або ¥1 (промах кешу), ¥2 за мільйон вихідних токенів

2.3 Три рівні інтенсивності інференсу

Кожна модель пропонує три режими інференсу для задоволення різних вимог сценаріїв:

Non-think: Режим прямого виводу, найшвидша швидкість відгуку
Think High: Режим регулярного глибокого мислення, баланс швидкості та якості
Think Max: Ін’єкція потужних інструкцій, максимізація довжини контексту та виводу, розкриття повних можливостей моделі

Режим Max значно покращує продуктивність моделі: показники V4-Pro-Max зростають з 34,5 до 37,7 у тестах HLE та з 85,5 до 90,2 у тестах Apex Shortlist, ціною подвоєння кількості вихідних токенів.

3. Продуктивність бенчмарк-тестів

За даними офіційних тестів, опублікованих DeepSeek, серія V4 чудово показує себе в численних оцінках:

3.1 Тести знань та міркувань

DeepSeek-V4-Pro-Max посідає перше місце в Apex Shortlist (90,2%) та Codeforces (Рейтинг 3206), двох складних завданнях з міркувань/програмування, демонструючи надзвичайно потужні логічні та алгоритмічні можливості
Gemini-3.1-Pro-High лідирує в SimpleQA Verified (75,6%)
Claude та GPT мають свої сильні сторони в різних проєктах, із загальними невеликими розривами

3.2 Тести можливостей Agent

Усі чотири моделі однаково показують себе в завданнях SWE Verified (усі досягають 80,6%)
DeepSeek виділяється в Terminal Bench 2.0 (67,9%) та Toolathlon (51,8%), демонструючи чіткі переваги в сценаріях виконання складних інструкцій та виклику інструментів

Представники заявляють, що можливості Agent DeepSeek-V4-Pro значно покращилися порівняно з попередніми поколіннями, «пропонуючи кращий досвід користувача, ніж Sonnet 4.5, із якістю виконання, близькою до режиму non-thinking Opus 4.6, хоча все ще певною мірою поступаючись режиму thinking Opus 4.6».

3.3 Світові знання та загальні можливості

V4-Pro значно перевершує інші моделі з відкритим кодом в оцінках світових знань, лише трохи поступаючись провідній закритій моделі Gemini-Pro-3.1
У математиці, STEM та оцінках конкурентного кодування V4-Pro перевершує всі поточні публічно оцінені моделі з відкритим кодом, досягаючи рівня провідних закритих моделей світу
Як економічна модель, V4-Flash має трохи менший запас знань, ніж версія Pro, але подібні можливості міркувань. З меншими параметрами та значеннями активації він забезпечує швидші та економічніші API-сервіси
В оцінках Agent V4-Flash показує себе порівняно з версією Pro на простих завданнях, але все ще має розриви на завданнях високої складності

4. Основне технологічне новаторство: переписування механізму уваги

Найбільш фундаментальна технічна зміна V4 полягає в шарі уваги, фундаментально вирішуючи проблему ефективності інференсу довгого контексту.

У традиційних механізмах уваги Transformer кожен токен повинен обчислювати схожість з усіма попередніми токенами. Коли контекст розширюється з 100K до 1M, обчислювальна вартість зростає в 100 разів, що є основним вузьким місцем, що перешкоджає широкому впровадженню довгого контексту.

V4 використовує інноваційний подвійний механізм уваги з чергуванням шарів:

CSA (Compressed Sparse Attention): Спочатку об’єднує KV-кеш для кожних 4 токенів в один підсумок, потім дозволяє кожному запиту вибирати лише найбільш релевантні top-k підсумки для обчислення уваги, стискаючи вміст, що обробляється, і фокусуючись лише на релевантній інформації
HCA (Heavy Compressed Attention): Використовує більш агресивне стиснення, об’єднуючи кожні 128 токенів в один підсумок, потім застосовує щільну увагу на залишених підсумках без розрідженого вибору

Два механізми уваги чергуються та накопичуються в шарах, в поєднанні з гілкою ковзаючого вікна, що обробляє детальні залежності між сусідніми токенами, формуючи підхід «грубозернистий + дрібнозернистий, розріджений + щільний».

З точки зору еволюції технологій, DeepSeek V2 та V3 насамперед дотримувалися маршруту розрідження параметрів (великі загальні параметри, але активація лише частини експертів на токен). V4 відкриває новий шлях розрідження контексту (стиснення KV, top-k вибір, шарові темпи стиснення) на цій основі. Це перший раз, коли DeepSeek застосував концепцію «розрідження» до основної структури Transformer.

Окрім шару уваги, V4 має ще два важливі архітектурні покращення:

Оновлення традиційних залишкових з’єднань до mHC (Manifold Constrained Hyperconnection), що робить пряме та зворотне поширення в глибоких мережах стабільнішим через математичні обмеження
Заміна AdamW оптимізатором Muon для більшості модулів, досягаючи швидшої збіжності та стабільнішого навчання

Це перший раз, коли DeepSeek одночасно змінив три основні компоненти Transformer: увагу, залишкові з’єднання та оптимізатор.

5. Інновація парадигми після навчання: дистиляція експертних моделей

Порівняно з архітектурними змінами, інновація V4 в методах після навчання ще більш примітна.

V3.2 використовував підхід «змішаного RL», одночасно оптимізуючи кілька цілей за допомогою навчання з підкріпленням. V4 використовує двоетапну стратегію «спочатку диференціювати, потім уніфікувати»:

Фаза диференціації: Для різних домен, таких як математика, код, Agent та виконання інструкцій, навчається окрема експертна модель для кожної домену. Ці експерти спочатку проходять кероване доопрацювання з високоякісними доменними даними, потім навчання з підкріпленням за алгоритмом GRPO, кожен експерт досягає оптимальної продуктивності у своїй спеціалізованій галузі
Фаза уніфікації: Використовує метод On-Policy Distillation (OPD) для «синтезу» більш ніж десяти доменних експертів назад в єдину студентську модель. Після того, як студент генерує відповідь, він узгоджується з розподілом виводу експерта, який «найкраще розуміє цю проблему», поглинаючи можливості експертів через узгодження на рівні logits

Цей підхід можна розуміти як дистиляцію можливостей кількох доменних «відмінників» в одну модель. Для вирішення інженерної проблеми одночасного завантаження вчительських моделей загальним обсягом понад десять трильйонів параметрів DeepSeek вивантажує всі ваги вчителів на розподілене сховище, кешуючи лише прихований стан останнього шару кожного вчителя. Під час навчання зразки сортуються за індексом вчителя, забезпечуючи, що в будь-який момент часу в пам’яті GPU перебуває лише одна голова вчителя.

Цей підхід уникає проблеми інтерференції можливостей, типової для традиційного «змішаного RL», дозволяючи моделі досягати провідного рівня продуктивності в кількох доменах.

6. Спеціальна оптимізація можливостей Agent

DeepSeek V4 включає спеціальні адаптації та оптимізації для основних продуктів Agent, з покращеною продуктивністю в завданнях з кодом, генерації документів та інших сценаріїв.

Спеціальні оптимізації V4 для можливостей Agent включають:

Під час після навчання Agent розглядається як незалежний напрям експерта поряд з математикою та кодом, з окремим навчанням
Формат виклику інструментів змінено з JSON на XML-структуру зі спеціальними токенами, знижуючи частоту помилок екранування
Міжсесійні сліди міркувань повністю зберігаються в сценаріях виклику інструментів, більше не очищаються кожну сесію, як у V3.2
Саморозроблена платформа пісочниці DSec, де один кластер здатний одночасно керувати сотнями тисяч екземплярів пісочниць, підтримуючи навчання та оцінку Agent з підкріпленням

Представники заявляють, що можливості Agent V4-Pro «кращі, ніж Sonnet 4.5, із якістю виконання, близькою до режиму non-thinking Opus 4.5, хоча все ще певною мірою поступаючись режиму thinking Opus 4.6».

DeepSeek V4 Технічна архітектура

Підсумок

DeepSeek V4 Preview — це велика модель з видатними технологічними інноваціями. Через реконструкцію механізму уваги та інновацію парадигми навчання вона зберігає потужні можливості міркувань при різкому зниженні вартості інференсу довгого контексту, прокладаючи шлях для практичних застосувань контексту рівня мільйона токенів.

Чи для професійних сценаріїв, що потребують потужних можливостей міркувань, чи для масових застосувань, що прагнуть економічної ефективності, серія V4 пропонує відповідні варіанти. Якщо ви хочете відчути потужні можливості DeepSeek V4, ласкаво просимо використовувати його безпосередньо через нашу платформу.

Почати використовувати DeepSeek