DeepSeek V4: Kontekst 1M tokenów, obniżka kosztów o 73%

Słowa kluczowe: deepseek v4, oficjalna strona deepseek, tutorial deepseek, cena deepseek v4

Data publikacji: 24 kwietnia 2026 r.

Autor: DeepSeek HK

DeepSeek V4: Kontekst 1M tokenów, obniżka kosztów o 73%

Dzisiaj DeepSeek oficjalnie ogłosiło premierę i otwarcie kodu wersji preview serii DeepSeek-V4, systemu modeli flagowych kolejnej generacji po V3.2. Wydanie obejmuje dwa modele: DeepSeek-V4-Pro i DeepSeek-V4-Flash, oba przyjmują architekturę MoE z całkowitą skalą parametrów odpowiednio 1,6T (49B aktywowanych) i 284B (13B aktywowanych), a oba obsługują maksymalny kontekst 1 miliona tokenów.

Przedstawiciele DeepSeek stwierdzili również, że z powodu ograniczeń mocy obliczeniowej wysokiej klasy, bieżąca przepustowość usługi DeepSeek-V4-Pro jest bardzo ograniczona. Oczekuje się, że po masowym wdrożeniu superwęzłów Ascend 950 w drugiej połowie roku, jego cena znacznie spadnie. Ponadto DeepSeek-V4 otrzymał wsparcie adaptacji Day 0 od Cambricon, a odpowiedni kod adaptacyjny został udostępniony jako otwarty kod społeczności GitHub.

Różnice w pozycjonowaniu modeli

DeepSeek-V4-Pro skupia się na górnej granicy wydajności, porównując się do flagowych modeli o zamkniętym kodzie; natomiast DeepSeek-V4-Flash znacznie zmniejsza skalę parametrów i skalę aktywacji w zamian za niższe opóźnienie i niższy koszt. W porównaniu do modelu z poprzedniej generacji, został on dalej ulepszony pod względem możliwości agenta, wiedzy o świecie i złożonych zadań rozumowania, a po raz pierwszy “kontekst 1 miliona tokenów” został udostępniony jako domyślna funkcja.

Znacznie ulepszone możliwości agenta

Pod względem możliwości agenta, możliwości agenta DeepSeek-V4-Pro zostały znacznie ulepszone. Weszedł on do pierwszego rzędu rozwiązań o otwartym kodzie w ocenach takich jak kodowanie agentowe. Wewnętrzne oceny pokazują, że jakość dostarczanych rozwiązań jest bliska trybowi niemyślącemu Claude Opus 4.6, ale nadal istnieje luka w porównaniu do jego trybu myślącego.

DeepSeek-V4-Pro przewyższa obecnie publicznie oceniane modele o otwartym kodzie w zadaniach o wysokim stopniu trudności, takich jak matematyka, STEM i kod konkursowy, a jego ogólna wydajność jest bliska lub nawet porównywalna z najlepszymi modelami o zamkniętym kodzie, takimi jak GPT-5.4 i Claude Opus 4.6-Max.

Znacznie obniżony koszt długiego kontekstu

Jednocześnie DeepSeek-V4 wprowadził serię bardziej radykalnych optymalizacji w zakresie wydajności długich kontekstów: w scenariuszach z 1 milionem tokenów, obliczenia inferencji na token wynoszą tylko 27% wartości z V3.2, a użycie pamięci podręcznej KV zostało zmniejszone do około 10%, znacznie obniżając koszty mocy obliczeniowej i pamięci wideo dla zadań z długimi linkami.

Plan cenowy API

Oficjalnie ogłoszone ceny API dla serii DeepSeek-V4:

DeepSeek-V4-Pro: 1 juan / milion tokenów dla wejścia buforowanego, 12 juanów / milion tokenów dla wejścia niebuforowanego, 24 juanów / milion tokenów dla wyjścia
DeepSeek-V4-Flash: tylko 0,2 juanu / milion tokenów dla wejścia buforowanego, 1 juan / milion tokenów dla wejścia niebuforowanego, 2 juanów / milion tokenów dla wyjścia

Obecnie seria DeepSeek-V4 została wprowadzona na oficjalnej stronie internetowej i w aplikacji, a interfejsy API i wagi modeli są udostępniane jednocześnie.

Doświadczenie praktyczne: Kompleksowa poprawa możliwości

Początkowo doświadczyliśmy zmian w DeepSeek-V4, głównie testując model DeepSeek-V4-Pro.

Znacznie ulepszona zdolność programowania agentowego

W przypadku jednokrotnego rozwoju frontendu internetowego DeepSeek-V4-Pro wykazał wysoką wydajność wykonania. Ponieważ wymagania nie były złożone, model potrzebował tylko 5 sekund na przemyślenie, a następnie szybko opracował rozwiązanie, co znacznie różni się od wzorca poprzednich modeli DeepSeek, które marnowały wiele tokenów na myślenie. Po wejściu w rzeczywisty proces generowania długość wyjścia DeepSeek-V4-Pro jest znacznie dłuższa niż w przypadku innych modeli DeepSeek, z szybką szybkością generowania, zasadniczo generując w jednostkach po 5 linii kodu, a stopień ukończenia strony internetowej jest wyższy niż w przypadku DeepSeek-V3.2, z bogatszym projektem.

W teście zadań łączących możliwości agenta i programowanie DeepSeek-V4-Pro może wykonywać złożone wielokrotne wywołania narzędzi, a liczba wpisów wyszukiwania online również wzrosła w porównaniu do poprzednich modeli, a zbieranie informacji jest bardziej kompleksowe. Ostatecznie wygenerowany plan podróży jest rozsądnie zaplanowany i wyposażony w lokalizację każdej atrakcji turystycznej, którą można bezpośrednio użyć w aplikacji nawigacyjnej po kliknięciu, co jest bardzo wygodne. W zadaniach agenta można zaobserwować, że jego działania są bardzo zdecydowane, wywołania narzędzi i myślenie są rozwiązywane w ciągu kilku sekund, a wydajność tokenów jest dobra.

Test praktyczny kontekstu 1M tokenów

Modele z serii DeepSeek-V4 obsługują kontekst 1 miliona tokenów. Wysłaliśmy pełną trylogię “Trzech ciał” (łącznie około 540 000 tokenów) do testów, a model może szybko zlokalizować określoną treść, pomyślnie realizując wyszukiwanie informacji w bardzo długich tekstach.

Test daty granicy wiedzy pokazuje, że data granicy wiedzy DeepSeek-V4-Pro jest nadal w 2025 roku. Ponadto ten model na razie nie obsługuje możliwości wizualnych. Po przesłaniu obrazów nadal będzie przeprowadzał ekstrakcję tekstu, a obrazy bez tekstu pokażą, że nie można ich przetworzyć.

Innowacja architektury technicznej

Najbardziej bezpośrednia zmiana w tej generacji V4 polega na tym, że “długi kontekst” stał się domyślną funkcją. W przeciwieństwie do tradycyjnej metody prostego rozszerzania okna, DeepSeek-V4-Pro wprowadza nową hybrydową architekturę uwagi, łączącą skompresowaną rzadką uwagę z uwagą o wysokiej kompresji (HCA) i współpracującą z rzadką uwagą DSA w celu kompresji w wymiarze tokenów.

Ponadto model wprowadza hiperpołączenie ograniczone przez rozmaitość (mHC) w celu ulepszenia tradycyjnych połączeń resztkowych i wykorzystuje optymalizator Muon do poprawy szybkości konwergencji i stabilności treningu. Ta seria rozwiązań projektowych pozwala modelowi skutecznie kontrolować koszty obliczeniowe, jednocześnie “pamiętając dłużej”.

Według danych oficjalnych, w kontekście 1 miliona tokenów liczba TFLOP inferencji na token DeepSeek-V4-Pro zmniejszyła się o około 3,7 do 9,8 razy w porównaniu do DeepSeek-V3.2, a użycie pamięci podręcznej KV zmniejszyło się o 9,5 do 13,7 razy. Oznacza to, że zadania z bardzo długimi linkami, które w przeszłości były trudne do rzeczywistego uruchomienia (takie jak wielokrotne planowanie agenta, przetwarzanie długich dokumentów) zaczęły wchodzić w zakres wykonywalny.

Wydajność: Nowy pułap dla modeli o otwartym kodzie

Z perspektywy struktury możliwości ulepszenie DeepSeek-V4-Pro polega na jednoczesnym ulepszeniu możliwości rozumowania, wiedzy i możliwości agenta:

Możliwości wiedzy i rozumowania

W zadaniach z wiedzy i rozumowania przewyższa on obecnie główne modele o otwartym kodzie w ocenach takich jak SimpleQA, Apex i Codeforces, a w wielu zadaniach jest bliski GPT-5.4 i Gemini 3.1 Pro. Na przykład uzyskał 90,2 punkty na liście krótkiej Apex, już przewyższając najlepsze modele o zamkniętym kodzie; utrzymuje również poziom pierwszego rzędu w zadaniach konkursowych, takich jak Codeforces.

Możliwości agenta

W zadaniach związanych z możliwościami agenta DeepSeek-V4-Pro działa stabilnie pod względem wskaźników takich jak SWE Verified i Terminal Bench. SWE Verified osiąga 80,6, blisko Claude Opus 4.6, znacznie wyżej niż większość modeli o otwartym kodzie. W Terminal Bench 2.0 jego wydajność przewyższa również modele takie jak GLM-5.1 Thinking i Kimi K2.6 Thinking.

Ogólnie rzecz biorąc, DeepSeek-V4-Pro jest obecnie “pułapem” modeli o otwartym kodzie.

Specjalna optymalizacja dla scenariuszy agenta

Ta generacja DeepSeek-V4 znacznie wzmacnia adaptację do scenariuszy agenta. Przeprowadzono specjalne optymalizacje dla głównych platform agentowych, takich jak Claude Code, OpenClaw i CodeBuddy, co sprawia, że działa on stabilniej w zadaniach wieloetapowych, takich jak generowanie kodu i generowanie dokumentów.

Z perspektywy praktycznego pozycjonowania DeepSeek-V4-Pro jest już używany jako model kodowania agentowego wewnątrz DeepSeek, skupiając się na “ukończeniu zadań”. W przypadku prostych zadań V4-Flash jest już blisko wersji Pro, ale w złożonych zadaniach nadal istnieje znacząca luka, co w zasadzie zapewnia dwa “biegi mocy obliczeniowej” dla aplikacji agentowych.

Wniosek

Wydanie DeepSeek-V4 nie tylko demonstruje nagromadzenie wiedzy zespołu w zakresie technologii i architektury, ale także oznacza rzeczywiste możliwości wdrażania dużych modeli o otwartym kodzie w ekosystemie krajowej mocy obliczeniowej. Po adaptacji i optymalizacji dla krajowych chipów, takich jak Huawei Ascend i Cambricon, seria DeepSeek-V4 osiągnęła stabilne wsparcie i wydajną inferencję dla kontekstu 1 miliona tokenów, co sprawia, że zadania z długimi linkami i wieloetapowe wykonywanie agenta stały się możliwe.

Ta wersja implementuje zróżnicowane pozycjonowanie Pro i Flash, zbliżając się do flagowych modeli o zamkniętym kodzie pod względem wydajności i utrzymując wysoką opłacalność pod względem kosztów, zapewniając bezprecedensowe otwarte opcje dla krajowych developerów. Co ważniejsze, to wydanie pokazuje, że modele o otwartym kodzie mogą nie tylko mocno ugruntować swoją pozycję w globalnej konkurencji, ale także przekształcić potencjał techniczny w praktyczną produktywność dzięki krajowej mocy obliczeniowej i zoptymalizowanej architekturze.

DeepSeek-V4 może być kluczowym krokiem, który podjęły chińskie siły open source na rynku wysokowydajnej sztucznej inteligencji, a także zapewnia jasne wskazówki dotyczące innowacji i wdrażania krajowego ekosystemu AI.

Zacznij korzystać z DeepSeek