پس از ۱۵ ماه انتظار، دیپ‌سیک سرانجام V4 Preview را رونمایی کرد: تحلیل جامع

این مقاله ویژگی‌های فنی، عملکرد و راهنماهای استفاده از دیپ‌سیک V4 را بررسی می‌کند و تحلیلی جامع از مزایای اصلی این مدل زبانی بزرگ نسل جدید ارائه می‌دهد. محتوا به سبکی ساده و قابل فهم نوشته شده و برای علاقه‌مندان به فناوری و توسعه‌دهندگان مناسب است.

کلمات کلیدی: deepseek v4، وب‌سایت رسمی deepseek، آموزش deepseek، قیمت deepseek v4.

تاریخ انتشار: ۲۵ آوریل ۲۰۲۶ نویسنده: DeepSeek HK

شروع استفاده از DeepSeek

تحلیل جامع DeepSeek V4 Preview

۱. DeepSeek V4 Preview به طور رسمی عرضه شد

در ۲۴ آوریل، دیپ‌سیک به طور رسمی از عرضه نسخه پیش‌نمایش V4 رونمایی کرد. این به‌روزرسانی مهم ۱۵ ماه پس از انتشار V3.2 انجام شد و نشان‌دهنده گام مهم دیگری در نقشه راه فناوری مدل‌های بزرگ دیپ‌سیک است.

بر اساس معرفی رسمی، سری V4 شامل دو مدل MoE است:

DeepSeek-V4-Pro: ۱.۶ تریلیون پارامتر کل، ۴۹ میلیارد پارامتر فعال
DeepSeek-V4-Flash: ۲۸۴ میلیارد پارامتر کل، ۱۳ میلیارد پارامتر فعال

هر دو مدل به صورت بومی از بافت ۱ میلیون توکن پشتیبانی می‌کنند که نشان‌دهنده جهشی کیفی در قابلیت پردازش متون طولانی است. به‌ویژه در تنظیمات بافت ۱M:

FLOPهای استنتاج به ازای هر توکن V4-Pro تنها ۲۷٪ از V3.2 است و KV Cache فقط ۱۰٪
V4-Flash حتی چشمگیرتر است و این شاخص‌ها را به ترتیب به ۱۰٪ و ۷٪ کاهش می‌دهد

این بدان معناست که در حالی که طول بافت تقریباً ۸ برابر از ۱۲۸K V3.2 به ۱M V4 گسترش یافته، نیازهای محاسباتی به ازای هر توکن در واقع به طور قابل توجهی کاهش یافته و هم قابلیت بافت طولانی و هم پیشرفت در کارایی استنتاج محقق شده است.

مسئولان دیپ‌سیک به طور مشخص اعلام کردند که V4 Preview به عنوان یک به‌روزرسانی زیرساختی موقعیت‌یابی شده است که عمدتاً برای بازسازی ساختار هزینه بافت طولانی طراحی شده تا راه را برای مرحله بعدی test-time scaling و وظایف دوربرد هموار کند. سطح قابلیت فعلی آن هنوز از GPT-5.4 و Gemini-3.1-Pro عقب‌تر است و مسیر توسعه آن تقریباً ۳ تا ۶ ماه از مدل‌های پیش‌روی بسته عقب‌تر است.

۲. دو مدل، سه حالت استنتاج: ویژگی‌های اصلی V4

۲.۱ پارامترهای مدل و مزایای هزینه

برجسته‌ترین نکته سری V4 بهینه‌سازی چشمگیر منحنی هزینه است. در تنظیمات بافت ۱ میلیون توکن:

V4-Pro: FLOPهای استنتاج به ازای هر توکن تنها ۲۷٪ از V3.2 است، KV Cache تنها ۱۰٪
V4-Flash: FLOPهای استنتاج به ازای هر توکن تنها ۱۰٪ از V3.2 است، KV Cache تنها ۷٪

این بهبود کارایی هزینه استنتاج برای بافت سطح میلیونی را به شدت کاهش می‌دهد و راه‌حلی اقتصادی برای پردازش متون طولانی، تحلیل اسناد و سایر سناریوها فراهم می‌کند.

۲.۲ سیستم قیمت‌گذاری API

دیپ‌سیک استراتژی قیمت‌گذاری با ارزش و سازگار خود را ادامه می‌دهد:

V4-Pro: ۱ یوان به ازای هر میلیون توکن ورودی (cache hit) یا ۱۲ (cache miss)، ۲۴ یوان به ازای هر میلیون توکن خروجی
V4-Flash: ۰.۲ یوان به ازای هر میلیون توکن ورودی (cache hit) یا ۱ (cache miss)، ۲ یوان به ازای هر میلیون توکن خروجی

۲.۳ سه سطح شدت استنتاج

هر مدل سه حالت استنتاج ارائه می‌دهد تا نیازهای سناریوهای مختلف را برآورده کند: ۱. Non-think: حالت خروجی مستقیم، سریع‌ترین سرعت پاسخ‌دهی ۲. Think High: حالت تفکر عمیق معمولی، تعادل بین سرعت و کیفیت ۳. Think Max: تزریق دستورالعمل‌های قوی، حداکثرسازی بافت و طول خروجی، آزادسازی تمام قابلیت‌های مدل

حالت Max به طور قابل توجهی عملکرد مدل را بهبود می‌بخشد: امتیازات V4-Pro-Max از ۳۴.۵ به ۳۷.۷ در تست‌های HLE و از ۸۵.۵ به ۹۰.۲ در تست‌های Apex Shortlist افزایش می‌یابد، به قیمت دو برابر شدن تعداد توکن‌های خروجی.

۳. عملکرد در تست‌های بنچمارک

بر اساس داده‌های تست رسمی منتشرشده توسط دیپ‌سیک، سری V4 در چندین ارزیابی عملکرد عالی دارد:

۳.۱ تست‌های دانش و استدلال

DeepSeek-V4-Pro-Max در Apex Shortlist (۹۰.۲٪) و Codeforces (ریتینگ ۳۲۰۶) دو وظیفه سخت استدلال/برنامه‌نویسی رتبه اول را کسب می‌کند و توانایی منطق و الگوریتم بسیار قوی را نشان می‌دهد
Gemini-3.1-Pro-High در SimpleQA Verified (۷۵.۶٪) پیشتاز است
Claude و GPT نقاط قوت خاص خود را در پروژه‌های مختلف دارند و به طور کلی شکاف‌های کوچکی وجود دارد

۳.۲ تست‌های قابلیت عامل

هر چهار مدل در وظایف SWE Verified به طور مساوی عمل می‌کنند (همه به ۸۰.۶٪ می‌رسند)
دیپ‌سیک در Terminal Bench ۲.۰ (۶۷.۹٪) و Toolathlon (۵۱.۸٪) برتری دارد و مزایای مشخصی در سناریوهای اجرای دستورالعمل‌های پیچیده و فراخوانی ابزار نشان می‌دهد

مسئولان اعلام کردند که قابلیت‌های عامل DeepSeek-V4-Pro نسبت به نسل‌های قبلی به طور قابل توجهی بهبود یافته است، “ارائه تجربه کاربری بهتر از Sonnet ۴.۵، با کیفیت تحویل نزدیک به حالت non-thinking Opus ۴.۶، اگرچه هنوز تا حدی از حالت thinking Opus ۴.۶ عقب‌تر است.”

۳.۳ دانش جهانی و قابلیت‌های عمومی

V4-Pro به طور قابل توجهی از سایر مدل‌های متن‌باز در ارزیابی‌های دانش جهانی عملکرد بهتری دارد و تنها کمی از مدل برتر بسته Gemini-Pro-۳.۱ عقب‌تر است
در ریاضیات، STEM و ارزیابی‌های کد رقابتی، V4-Pro از تمام مدل‌های متن‌باز فعلی که به صورت عمومی ارزیابی شده‌اند پیشی می‌گیرد و به سطح مدل‌های برتر بسته جهانی می‌رسد
به عنوان یک مدل اقتصادی، V4-Flash ذخایر دانش کمی کمتر از نسخه Pro دارد، اما قابلیت‌های استدلال مشابهی دارد. با پارامترها و مقادیر فعال‌سازی کوچک‌تر، خدمات API سریع‌تر و مقرون‌به‌صرفه‌تری ارائه می‌دهد
در ارزیابی‌های عامل، V4-Flash در وظایف ساده عملکردی مشابه نسخه Pro دارد، اما هنوز شکاف‌هایی در وظایف با دشواری بالا وجود دارد

۴. نوآوری فناوری هسته: بازنویسی مکانیسم توجه

تغییر فنی هسته V4 در لایه توجه است که به طور بنیادی مشکل کارایی استنتاج بافت طولانی را حل می‌کند.

در مکانیسم‌های توجه Transformer سنتی، هر توکن باید شباهت را با تمام توکن‌های قبلی محاسبه کند. وقتی بافت از ۱۰۰K به ۱M گسترش می‌یابد، هزینه محاسباتی ۱۰۰ برابر افزایش می‌یابد که گلوگاه اصلی جلوگیری از پذیرش گسترده بافت طولانی است.

V4 از یک مکانیسم توجه دوگانه نوآورانه با لایه‌های متناوب استفاده می‌کند: ۱. CSA (Compressed Sparse Attention): ابتدا حافظه پنهان KV را برای هر ۴ توکن در یک خلاصه ترکیب می‌کند، سپس اجازه می‌دهد هر پرس‌وجو فقط top-k خلاصه‌های مرتبط‌ترین را برای محاسبه توجه انتخاب کند، هم محتوای قابل پردازش را فشرده می‌کند و هم فقط بر اطلاعات مرتبط تمرکز دارد ۲. HCA (Heavy Compressed Attention): از فشرده‌سازی تهاجمی‌تر استفاده می‌کند، هر ۱۲۸ توکن را در یک خلاصه ترکیب می‌کند، سپس توجه متراکم را بر روی خلاصه‌های باقی‌مانده بدون انتخاب پراکنده اعمال می‌کند

دو مکانیسم توجه به صورت متناوب و لایه‌لایه عمل می‌کنند، همراه با شاخه پنجره لغزان که وابستگی‌های جزئی بین توکن‌های نزدیک را مدیریت می‌کند، یک رویکرد ترکیبی “دانه‌درشت + دانه‌ریز، پراکنده + متراکم” شکل می‌دهد.

از منظر تکامل فناوری، DeepSeek V2 و V3 عمدتاً مسیر تنکی پارامترها را دنبال کردند (پارامترهای کل زیاد اما فعال‌سازی تنها بخشی از متخصصان به ازای هر توکن). V4 بر این اساس مسیر جدیدی از تنکی بافت (فشرده‌سازی KV، انتخاب top-k، نرخ‌های فشرده‌سازی لایه‌ای) باز می‌کند. این اولین باری است که دیپ‌سیک مفهوم “تنکی” را به ساختار هسته Transformer اعمال می‌کند.

علاوه بر لایه توجه، V4 دو بهبود معماری مهم دیگر دارد: ۱. ارتقاء اتصالات باقی‌مانده سنتی به mHC (Manifold Constrained Hyperconnection)، که انتشار رو به جلو و رو به عقب شبکه‌های عمیق را از طریق محدودیت‌های ریاضی پایدارتر می‌کند ۲. جایگزینی AdamW با بهینه‌ساز Muon برای اکثر ماژول‌ها، دستیابی به همگرایی سریع‌تر و آموزش پایدارتر

این اولین باری است که دیپ‌سیک به طور همزمان سه جزء هسته Transformer را تغییر می‌دهد: توجه، اتصالات باقی‌مانده و بهینه‌ساز.

۵. نوآوری پارادایم پس از آموزش: تقطیر مدل متخصص

در مقایسه با تغییرات معماری، نوآوری V4 در روش‌های پس از آموزش حتی قابل توجه‌تر است.

V3.2 از رویکرد “mixed RL” استفاده می‌کرد که چندین هدف را به طور همزمان با یادگیری تقویتی بهینه می‌کرد. V4 از یک استراتژی دو مرحله‌ای “تفکیک سپس یکپارچه‌سازی” استفاده می‌کند: ۱. مرحله تفکیک: برای حوزه‌های مختلفی مانند ریاضیات، کد، عامل و پیروی از دستورالعمل‌ها، یک مدل متخصص جداگانه برای هر حوزه آموزش می‌دهد. این متخصصان ابتدا تحت تنظیم دقیق نظارت‌شده با داده‌های باکیفیت حوزه قرار می‌گیرند، سپس یادگیری تقویتی با الگوریتم GRPO، هر متخصص به عملکرد بهینه در حوزه تخصصی خود دست می‌یابد ۲. مرحله یکپارچه‌سازی: از روش On-Policy Distillation (OPD) برای “ترکیب” بیش از ده متخصص حوزه در یک مدل دانش‌آموز یکپارچه استفاده می‌کند. پس از اینکه دانش‌آموز پاسخی تولید می‌کند، آن را با توزیع خروجی متخصصی که “این مسئله را بهتر درک می‌کند” تطبیق می‌دهد و قابلیت‌های متخصص را از طریق هم‌ترازی در سطح logit جذب می‌کند

این رویکرد را می‌توان به عنوان تقطیر قابلیت‌های چندین “دانش‌آموز برتر” حوزه‌های مختلف در یک مدل واحد درک کرد. برای حل چالش مهندسی بارگذاری همزمان بیش از ده مدل معلم با پارامترهای تریلیونی، دیپ‌سیک تمام وزن‌های معلم را به ذخیره‌سازی توزیع‌شده منتقل می‌کند و تنها وضعیت پنهان آخرین لایه هر معلم را در حافظه پنهان نگه می‌دارد. در طول آموزش، نمونه‌ها بر اساس شاخص معلم مرتب می‌شوند تا اطمینان حاصل شود که در هر زمان فقط یک سر معلم در حافظه GPU قرار دارد.

این رویکرد از مشکل تداخل قابلیت رایج در “mixed RL” سنتی اجتناب می‌کند و به مدل اجازه می‌دهد تا عملکرد سطح بالا را در چندین حوزه به دست آورد.

۶. بهینه‌سازی تخصصی قابلیت عامل

DeepSeek V4 شامل تطبیق‌ها و بهینه‌سازی‌های تخصصی برای محصولات عامل اصلی است، با عملکرد بهبود یافته در وظایف کدنویسی، تولید سند و سایر سناریوها.

بهینه‌سازی‌های تخصصی V4 برای قابلیت‌های عامل شامل موارد زیر است: ۱. در طول پس از آموزش، عامل به عنوان یک جهت متخصص مستقل همراه با ریاضیات و کد در نظر گرفته می‌شود، با آموزش جداگانه ۲. فرمت فراخوانی ابزار از JSON به ساختار XML با توکن‌های ویژه تغییر یافته است که نرخ خطاهای escape را کاهش می‌دهد ۳. آثار استدلال بین نوبتی در سناریوهای فراخوانی ابزار به طور کامل حفظ می‌شوند، برخلاف V3.۲ که در هر نوبت پاک می‌شدند ۴. پلتفرم sandbox DSec خودساخته، با یک خوشه قادر به مدیریت همزمان صدها هزار نمونه sandbox، پشتیبانی از آموزش و ارزیابی یادگیری تقویتی عامل

مسئولان اعلام کردند که قابلیت‌های عامل V4-Pro “از Sonnet ۴.۵ بهتر هستند، با کیفیت تحویل نزدیک به حالت non-thinking Opus ۴.۵، اگرچه هنوز تا حدی از حالت thinking Opus ۴.۶ عقب‌تر است.”

معماری فنی DeepSeek V4

جمع‌بندی

DeepSeek V4 Preview یک مدل بزرگ با نوآوری‌های فناوری برجسته است. از طریق بازسازی مکانیسم توجه و نوآوری در پارادایم آموزش، در حالی که قابلیت‌های استدلال قوی را حفظ می‌کند، هزینه استنتاج بافت طولانی را به شدت کاهش می‌دهد و راه را برای کاربردهای عملی بافت سطح میلیونی هموار می‌کند.

چه برای سناریوهای حرفه‌ای که نیازمند قابلیت‌های استدلال قوی باشند و چه برای کاربردهای گسترده که به دنبال مقرون‌به‌صرفگی هستند، سری V4 گزینه‌های مناسبی ارائه می‌دهد. اگر می‌خواهید قابلیت‌های قدرتمند DeepSeek V4 را تجربه کنید، خوشحال می‌شویم که مستقیماً از طریق پلتفرم ما از آن استفاده کنید.

شروع استفاده از DeepSeek