DeepSeek V4: 100만 토큰 컨텍스트, 73% 비용 절감

키워드: deepseek v4, deepseek 공식 사이트, deepseek 튜토리얼, deepseek v4 가격

발행일: 2026년 4월 24일

저자: DeepSeek HK

DeepSeek V4: 100만 토큰 컨텍스트, 73% 비용 절감

오늘 DeepSeek는 V3.2 후속 차세대 플래그십 모델 시스템인 DeepSeek-V4 시리즈 미리보기 버전을 공식 발표하고 오픈 소스화했습니다. 이번 출시에는 DeepSeek-V4-Pro와 DeepSeek-V4-Flash 두 가지 모델이 포함되어 있으며, 둘 다 MoE 아키텍처를 채택하여 총 파라미터 규모는 각각 1.6T(490억 활성화)와 2840억(130억 활성화)이고, 최대 100만 토큰 컨텍스트를 지원합니다.

DeepSeek 공식 측은 고성능 컴퓨팅 파워 제한으로 인해 현재 DeepSeek-V4-Pro의 서비스 처리량이 매우 제한적이라고 밝혔습니다. 올해 하반기 Ascend 950 슈퍼노드가 대량 출시되면 가격이 크게 낮아질 것으로 예상됩니다. 또한 DeepSeek-V4는 Cambricon Day 0 어댑테이션 지원을 받았으며, 관련 어댑테이션 코드는 GitHub 커뮤니티에 오픈 소스로 공개되었습니다.

모델 포지셔닝 차이

DeepSeek-V4-Pro는 성능 상한에 집중하여 클로즈드 소스 플래그십 모델과 비교되는 수준이며, DeepSeek-V4-Flash는 더 낮은 지연 시간과 저렴한 비용을 위해 파라미터 규모와 활성화 규모를 크게 줄였습니다. 전 세대 모델과 비교하여 에이전트 능력, 세계 지식, 복잡한 추론 작업에서 더욱 개선되었으며, 처음으로 “100만 토큰 컨텍스트”가 기본 기능으로 오픈되었습니다.

크게 향상된 에이전트 능력

에이전트 능력 면에서 DeepSeek-V4-Pro의 에이전트 능력은 크게 향상되었습니다. 에이전트 코딩 등의 평가에서 오픈 소스 1티어에 진입했습니다. 내부 평가에 따르면 전달 품질은 Claude Opus 4.6의 비사고 모드에 가깝지만, 사고 모드와 비교하면 여전히 격차가 있습니다.

DeepSeek-V4-Pro는 수학, STEM, 경진대회 코드 등 고난도 작업에서 현재 공개 평가된 오픈 소스 모델을 능가하며, 전반적인 성능은 GPT-5.4, Claude Opus 4.6-Max 등 최고 수준의 클로즈드 소스 모델과 가깝거나 심지어 비슷한 수준입니다.

장문 컨텍스트 비용 대폭 감소

동시에 DeepSeek-V4는 장문 컨텍스트 효율성에서 더 과감한 최적화를 도입했습니다: 100만 토큰 시나리오에서 토큰당 추론 계산량은 V3.2의 27%에 불과하며, KV 캐시 사용량은 약 10%로 감소하여 장기 링크 작업의 컴퓨팅 파워와 비디오 메모리 비용을 크게 줄였습니다.

API 가격 정책

DeepSeek-V4 시리즈의 공식 발표된 API 가격:

DeepSeek-V4-Pro: 캐시된 입력은 1위안/백만 토큰, 캐시되지 않은 입력은 12위안/백만 토큰, 출력은 24위안/백만 토큰
DeepSeek-V4-Flash: 캐시된 입력은 0.2위안/백만 토큰, 캐시되지 않은 입력은 1위안/백만 토큰, 출력은 2위안/백만 토큰

현재 DeepSeek-V4 시리즈는 공식 웹사이트와 앱에서 출시되었으며, API와 모델 가중치가 동시에 오픈됩니다.

실제 경험: 종합적인 능력 향상

우리는 DeepSeek-V4의 변경 사항을 초기 경험했으며, 주로 DeepSeek-V4-Pro 모델을 테스트했습니다.

에이전트 프로그래밍 능력 대폭 향상

프론트엔드 웹 원샷 개발 사례에서 DeepSeek-V4-Pro는 높은 실행 효율성을 보여주었습니다. 요구 사항이 복잡하지 않았기 때문에 모델은 생각하는 데 5초만 소요한 후 빠르게 개발했으며, 이는 토큰을 많이 낭비하던 이전 DeepSeek 모델 패턴과 크게 다릅니다. 실제 생성 프로세스에 들어간 후 DeepSeek-V4-Pro의 출력 길이는 다른 DeepSeek 모델보다 훨씬 길며, 생성 속도가 빠르고 기본적으로 5줄 코드 단위로 출력되며, 웹 페이지 완성도는 DeepSeek-V3.2보다 높고 디자인도 더 풍부합니다.

에이전트 능력과 프로그래밍을 결합한 작업 테스트에서 DeepSeek-V4-Pro는 복잡한 다중 라운드 도구 호출을 수행할 수 있으며, 온라인 검색 항목 수도 이전 모델에 비해 증가하여 정보 수집이 더 포괄적입니다. 최종 생성된 여행 계획은 합리적으로 계획되어 있으며 각 관광지 위치가 포함되어 있어 클릭 후 네비게이션 앱에서 직접 사용할 수 있어 매우 편리합니다. 에이전트 작업에서 그의 행동이 매우 결단력 있고 도구 호출과 생각이 몇 초 만에 해결되며 토큰 효율성도 좋은 것을 관찰할 수 있습니다.

100만 토큰 컨텍스트 실제 테스트

DeepSeek-V4 시리즈 모델은 100만 토큰 컨텍스트를 지원합니다. 우리는 완전한 “삼체” 3부작(총 약 54만 토큰)을 업로드하여 테스트했으며, 모델은 지정된 내용을 빠르게 찾아낼 수 있어 초장문 텍스트에서의 정보 검색을 성공적으로 구현했습니다.

지식 마감일 테스트 결과 DeepSeek-V4-Pro의 지식 마감일은 여전히 2025년인 것으로 나타났습니다. 또한 이 모델은 현재 시각 기능을 지원하지 않습니다. 이미지를 업로드한 후에도 텍스트 추출을 계속 수행하며, 텍스트가 없는 이미지는 처리할 수 없다고 표시됩니다.

기술 아키텍처 혁신

이번 V4 세대의 가장 직접적인 변화는 “장문 컨텍스트”가 기본 기능이 되었다는 점입니다. 단순히 창을 확장하는 전통적인 방식과 달리 DeepSeek-V4-Pro는 새로운 하이브리드 어텐션 아키텍처를 도입하여 압축 희소 어텐션과 고압축 어텐션(HCA)을 결합하고 DSA 희소 어텐션과 협력하여 토큰 차원에서 압축합니다.

또한 모델은 전통적인 잔차 연결을 개선하기 위해 다양체 제한 초연결(mHC)을 도입하고 Muon 옵티마이저를 사용하여 수렴 속도와 학습 안정성을 향상시킵니다. 이러한 일련의 설계를 통해 모델은 “더 오래 기억”하면서도 계산 비용을 효과적으로 제어할 수 있습니다.

공식 데이터에 따르면 100만 토큰 컨텍스트에서 DeepSeek-V4-Pro의 토큰당 추론 TFLOP는 DeepSeek-V3.2 대비 약 3.7~~9.8배 감소했으며, KV 캐시 사용량은 9.5~~13.7배 감소했습니다. 이는 과거에 실제로 실행하기 어려웠던 초장기 링크 작업(다중 라운드 에이전트 계획, 장문서 처리 등)이 실행 가능한 범위에 들어가기 시작했음을 의미합니다.

성능: 오픈 소스 모델의 새로운 한계점

능력 구조의 관점에서 DeepSeek-V4-Pro의 향상은 추론 능력, 지식, 에이전트 능력의 동시 향상입니다:

지식 및 추론 능력

지식 및 추론 작업에서 SimpleQA, Apex, Codeforces 등의 평가에서 현재 주류 오픈 소스 모델을 능가하며, 많은 작업에서 GPT-5.4 및 Gemini 3.1 Pro에 가깝습니다. 예를 들어 Apex 쇼트리스트에서 90.2점을 획득하여 이미 최고 수준의 클로즈드 소스 모델을 능가했으며, Codeforces 등의 경진대회 작업에서도 1티어 수준을 유지하고 있습니다.

에이전트 능력

에이전트 능력 관련 작업에서 DeepSeek-V4-Pro는 SWE Verified, Terminal Bench 등의 지표에서 안정적인 성능을 보입니다. SWE Verified는 80.6에 도달하여 Claude Opus 4.6에 가깝고 대부분의 오픈 소스 모델보다 훨씬 높습니다. Terminal Bench 2.0에서도 GLM-5.1 Thinking, Kimi K2.6 Thinking 등의 모델보다 성능이 우수합니다.

전반적으로 DeepSeek-V4-Pro는 현재 오픈 소스 모델의 “한계점”입니다.

에이전트 시나리오 특화 최적화

이번 DeepSeek-V4 세대는 에이전트 시나리오에 대한 적응을 크게 강화했습니다. Claude Code, OpenClaw, CodeBuddy 등 주류 에이전트 프레임워크에 대해 특수 최적화를 수행했으며, 코드 생성, 문서 생성 등 다단계 작업에서 더 안정적으로 작동합니다.

실제 포지셔닝 관점에서 DeepSeek-V4-Pro는 이미 DeepSeek 내부에서 에이전트 코딩 모델로 사용되고 있으며 “작업 완료”에 집중하고 있습니다. 간단한 작업의 경우 V4-Flash가 이미 Pro 버전에 가깝지만 복잡한 작업에서는 여전히 상당한 격차가 있어 본질적으로 에이전트 애플리케이션에 두 가지 “컴퓨팅 파워 기어”를 제공합니다.

결론

DeepSeek-V4의 출시는 기술과 아키텍처에 대한 팀의 축적을 보여줄 뿐만 아니라, 국내 컴퓨팅 파워 생태계 하에서 오픈 소스 대형 모델의 실제 적용 능력을 나타냅니다. 화웨이 Ascend, Cambricon 등 국내 칩에 대한 적응 및 최적화를 거쳐 DeepSeek-V4 시리즈는 100만 토큰 컨텍스트에 대한 안정적인 지원과 효율적인 추론을 달성하여 장기 링크 작업과 다단계 에이전트 실행을 가능하게 했습니다.

이번 버전은 Pro와 Flash의 차별화된 포지셔닝을 구현하여 성능 면에서 클로즈드 소스 플래그십 모델에 접근하고 비용 면에서 높은 비용 효율성을 유지하여 국내 개발자에게 전례 없는 오픈 옵션을 제공합니다. 더 중요한 것은 이번 출시를 통해 오픈 소스 모델이 글로벌 경쟁에서 확고하게 자리 잡을 수 있을 뿐만 아니라 국내 컴퓨팅 파워와 최적화된 아키텍처의 도움으로 기술 잠재력을 실제 생산성으로 전환할 수 있음을 보여줍니다.

DeepSeek-V4는 고성능 AI 분야에서 중국 오픈 소스 세력이 내디딘 중요한 발걸음일 수 있으며, 국내 AI 생태계의 혁신과 적용에 대한 명확한 가이드라인도 제공합니다.

DeepSeek 사용 시작하기