پس از ۱۵ ماه انتظار، دیپسیک سرانجام V4 Preview را رونمایی کرد: تحلیل جامع
این مقاله ویژگیهای فنی، عملکرد و راهنماهای استفاده از دیپسیک V4 را بررسی میکند و تحلیلی جامع از مزایای اصلی این مدل زبانی بزرگ نسل جدید ارائه میدهد. محتوا به سبکی ساده و قابل فهم نوشته شده و برای علاقهمندان به فناوری و توسعهدهندگان مناسب است.
کلمات کلیدی: deepseek v4، وبسایت رسمی deepseek، آموزش deepseek، قیمت deepseek v4.
تاریخ انتشار: ۲۵ آوریل ۲۰۲۶ نویسنده: DeepSeek HK

۱. DeepSeek V4 Preview به طور رسمی عرضه شد
در ۲۴ آوریل، دیپسیک به طور رسمی از عرضه نسخه پیشنمایش V4 رونمایی کرد. این بهروزرسانی مهم ۱۵ ماه پس از انتشار V3.2 انجام شد و نشاندهنده گام مهم دیگری در نقشه راه فناوری مدلهای بزرگ دیپسیک است.
بر اساس معرفی رسمی، سری V4 شامل دو مدل MoE است:
- DeepSeek-V4-Pro: ۱.۶ تریلیون پارامتر کل، ۴۹ میلیارد پارامتر فعال
- DeepSeek-V4-Flash: ۲۸۴ میلیارد پارامتر کل، ۱۳ میلیارد پارامتر فعال
هر دو مدل به صورت بومی از بافت ۱ میلیون توکن پشتیبانی میکنند که نشاندهنده جهشی کیفی در قابلیت پردازش متون طولانی است. بهویژه در تنظیمات بافت ۱M:
- FLOPهای استنتاج به ازای هر توکن V4-Pro تنها ۲۷٪ از V3.2 است و KV Cache فقط ۱۰٪
- V4-Flash حتی چشمگیرتر است و این شاخصها را به ترتیب به ۱۰٪ و ۷٪ کاهش میدهد
این بدان معناست که در حالی که طول بافت تقریباً ۸ برابر از ۱۲۸K V3.2 به ۱M V4 گسترش یافته، نیازهای محاسباتی به ازای هر توکن در واقع به طور قابل توجهی کاهش یافته و هم قابلیت بافت طولانی و هم پیشرفت در کارایی استنتاج محقق شده است.
مسئولان دیپسیک به طور مشخص اعلام کردند که V4 Preview به عنوان یک بهروزرسانی زیرساختی موقعیتیابی شده است که عمدتاً برای بازسازی ساختار هزینه بافت طولانی طراحی شده تا راه را برای مرحله بعدی test-time scaling و وظایف دوربرد هموار کند. سطح قابلیت فعلی آن هنوز از GPT-5.4 و Gemini-3.1-Pro عقبتر است و مسیر توسعه آن تقریباً ۳ تا ۶ ماه از مدلهای پیشروی بسته عقبتر است.
۲. دو مدل، سه حالت استنتاج: ویژگیهای اصلی V4
۲.۱ پارامترهای مدل و مزایای هزینه
برجستهترین نکته سری V4 بهینهسازی چشمگیر منحنی هزینه است. در تنظیمات بافت ۱ میلیون توکن:
- V4-Pro: FLOPهای استنتاج به ازای هر توکن تنها ۲۷٪ از V3.2 است، KV Cache تنها ۱۰٪
- V4-Flash: FLOPهای استنتاج به ازای هر توکن تنها ۱۰٪ از V3.2 است، KV Cache تنها ۷٪
این بهبود کارایی هزینه استنتاج برای بافت سطح میلیونی را به شدت کاهش میدهد و راهحلی اقتصادی برای پردازش متون طولانی، تحلیل اسناد و سایر سناریوها فراهم میکند.
۲.۲ سیستم قیمتگذاری API
دیپسیک استراتژی قیمتگذاری با ارزش و سازگار خود را ادامه میدهد:
- V4-Pro: ۱ یوان به ازای هر میلیون توکن ورودی (cache hit) یا ۱۲ (cache miss)، ۲۴ یوان به ازای هر میلیون توکن خروجی
- V4-Flash: ۰.۲ یوان به ازای هر میلیون توکن ورودی (cache hit) یا ۱ (cache miss)، ۲ یوان به ازای هر میلیون توکن خروجی
۲.۳ سه سطح شدت استنتاج
هر مدل سه حالت استنتاج ارائه میدهد تا نیازهای سناریوهای مختلف را برآورده کند: ۱. Non-think: حالت خروجی مستقیم، سریعترین سرعت پاسخدهی ۲. Think High: حالت تفکر عمیق معمولی، تعادل بین سرعت و کیفیت ۳. Think Max: تزریق دستورالعملهای قوی، حداکثرسازی بافت و طول خروجی، آزادسازی تمام قابلیتهای مدل
حالت Max به طور قابل توجهی عملکرد مدل را بهبود میبخشد: امتیازات V4-Pro-Max از ۳۴.۵ به ۳۷.۷ در تستهای HLE و از ۸۵.۵ به ۹۰.۲ در تستهای Apex Shortlist افزایش مییابد، به قیمت دو برابر شدن تعداد توکنهای خروجی.
۳. عملکرد در تستهای بنچمارک
بر اساس دادههای تست رسمی منتشرشده توسط دیپسیک، سری V4 در چندین ارزیابی عملکرد عالی دارد:
۳.۱ تستهای دانش و استدلال
- DeepSeek-V4-Pro-Max در Apex Shortlist (۹۰.۲٪) و Codeforces (ریتینگ ۳۲۰۶) دو وظیفه سخت استدلال/برنامهنویسی رتبه اول را کسب میکند و توانایی منطق و الگوریتم بسیار قوی را نشان میدهد
- Gemini-3.1-Pro-High در SimpleQA Verified (۷۵.۶٪) پیشتاز است
- Claude و GPT نقاط قوت خاص خود را در پروژههای مختلف دارند و به طور کلی شکافهای کوچکی وجود دارد
۳.۲ تستهای قابلیت عامل
- هر چهار مدل در وظایف SWE Verified به طور مساوی عمل میکنند (همه به ۸۰.۶٪ میرسند)
- دیپسیک در Terminal Bench ۲.۰ (۶۷.۹٪) و Toolathlon (۵۱.۸٪) برتری دارد و مزایای مشخصی در سناریوهای اجرای دستورالعملهای پیچیده و فراخوانی ابزار نشان میدهد
مسئولان اعلام کردند که قابلیتهای عامل DeepSeek-V4-Pro نسبت به نسلهای قبلی به طور قابل توجهی بهبود یافته است، “ارائه تجربه کاربری بهتر از Sonnet ۴.۵، با کیفیت تحویل نزدیک به حالت non-thinking Opus ۴.۶، اگرچه هنوز تا حدی از حالت thinking Opus ۴.۶ عقبتر است.”
۳.۳ دانش جهانی و قابلیتهای عمومی
- V4-Pro به طور قابل توجهی از سایر مدلهای متنباز در ارزیابیهای دانش جهانی عملکرد بهتری دارد و تنها کمی از مدل برتر بسته Gemini-Pro-۳.۱ عقبتر است
- در ریاضیات، STEM و ارزیابیهای کد رقابتی، V4-Pro از تمام مدلهای متنباز فعلی که به صورت عمومی ارزیابی شدهاند پیشی میگیرد و به سطح مدلهای برتر بسته جهانی میرسد
- به عنوان یک مدل اقتصادی، V4-Flash ذخایر دانش کمی کمتر از نسخه Pro دارد، اما قابلیتهای استدلال مشابهی دارد. با پارامترها و مقادیر فعالسازی کوچکتر، خدمات API سریعتر و مقرونبهصرفهتری ارائه میدهد
- در ارزیابیهای عامل، V4-Flash در وظایف ساده عملکردی مشابه نسخه Pro دارد، اما هنوز شکافهایی در وظایف با دشواری بالا وجود دارد
۴. نوآوری فناوری هسته: بازنویسی مکانیسم توجه
تغییر فنی هسته V4 در لایه توجه است که به طور بنیادی مشکل کارایی استنتاج بافت طولانی را حل میکند.
در مکانیسمهای توجه Transformer سنتی، هر توکن باید شباهت را با تمام توکنهای قبلی محاسبه کند. وقتی بافت از ۱۰۰K به ۱M گسترش مییابد، هزینه محاسباتی ۱۰۰ برابر افزایش مییابد که گلوگاه اصلی جلوگیری از پذیرش گسترده بافت طولانی است.
V4 از یک مکانیسم توجه دوگانه نوآورانه با لایههای متناوب استفاده میکند: ۱. CSA (Compressed Sparse Attention): ابتدا حافظه پنهان KV را برای هر ۴ توکن در یک خلاصه ترکیب میکند، سپس اجازه میدهد هر پرسوجو فقط top-k خلاصههای مرتبطترین را برای محاسبه توجه انتخاب کند، هم محتوای قابل پردازش را فشرده میکند و هم فقط بر اطلاعات مرتبط تمرکز دارد ۲. HCA (Heavy Compressed Attention): از فشردهسازی تهاجمیتر استفاده میکند، هر ۱۲۸ توکن را در یک خلاصه ترکیب میکند، سپس توجه متراکم را بر روی خلاصههای باقیمانده بدون انتخاب پراکنده اعمال میکند
دو مکانیسم توجه به صورت متناوب و لایهلایه عمل میکنند، همراه با شاخه پنجره لغزان که وابستگیهای جزئی بین توکنهای نزدیک را مدیریت میکند، یک رویکرد ترکیبی “دانهدرشت + دانهریز، پراکنده + متراکم” شکل میدهد.
از منظر تکامل فناوری، DeepSeek V2 و V3 عمدتاً مسیر تنکی پارامترها را دنبال کردند (پارامترهای کل زیاد اما فعالسازی تنها بخشی از متخصصان به ازای هر توکن). V4 بر این اساس مسیر جدیدی از تنکی بافت (فشردهسازی KV، انتخاب top-k، نرخهای فشردهسازی لایهای) باز میکند. این اولین باری است که دیپسیک مفهوم “تنکی” را به ساختار هسته Transformer اعمال میکند.
علاوه بر لایه توجه، V4 دو بهبود معماری مهم دیگر دارد: ۱. ارتقاء اتصالات باقیمانده سنتی به mHC (Manifold Constrained Hyperconnection)، که انتشار رو به جلو و رو به عقب شبکههای عمیق را از طریق محدودیتهای ریاضی پایدارتر میکند ۲. جایگزینی AdamW با بهینهساز Muon برای اکثر ماژولها، دستیابی به همگرایی سریعتر و آموزش پایدارتر
این اولین باری است که دیپسیک به طور همزمان سه جزء هسته Transformer را تغییر میدهد: توجه، اتصالات باقیمانده و بهینهساز.
۵. نوآوری پارادایم پس از آموزش: تقطیر مدل متخصص
در مقایسه با تغییرات معماری، نوآوری V4 در روشهای پس از آموزش حتی قابل توجهتر است.
V3.2 از رویکرد “mixed RL” استفاده میکرد که چندین هدف را به طور همزمان با یادگیری تقویتی بهینه میکرد. V4 از یک استراتژی دو مرحلهای “تفکیک سپس یکپارچهسازی” استفاده میکند: ۱. مرحله تفکیک: برای حوزههای مختلفی مانند ریاضیات، کد، عامل و پیروی از دستورالعملها، یک مدل متخصص جداگانه برای هر حوزه آموزش میدهد. این متخصصان ابتدا تحت تنظیم دقیق نظارتشده با دادههای باکیفیت حوزه قرار میگیرند، سپس یادگیری تقویتی با الگوریتم GRPO، هر متخصص به عملکرد بهینه در حوزه تخصصی خود دست مییابد ۲. مرحله یکپارچهسازی: از روش On-Policy Distillation (OPD) برای “ترکیب” بیش از ده متخصص حوزه در یک مدل دانشآموز یکپارچه استفاده میکند. پس از اینکه دانشآموز پاسخی تولید میکند، آن را با توزیع خروجی متخصصی که “این مسئله را بهتر درک میکند” تطبیق میدهد و قابلیتهای متخصص را از طریق همترازی در سطح logit جذب میکند
این رویکرد را میتوان به عنوان تقطیر قابلیتهای چندین “دانشآموز برتر” حوزههای مختلف در یک مدل واحد درک کرد. برای حل چالش مهندسی بارگذاری همزمان بیش از ده مدل معلم با پارامترهای تریلیونی، دیپسیک تمام وزنهای معلم را به ذخیرهسازی توزیعشده منتقل میکند و تنها وضعیت پنهان آخرین لایه هر معلم را در حافظه پنهان نگه میدارد. در طول آموزش، نمونهها بر اساس شاخص معلم مرتب میشوند تا اطمینان حاصل شود که در هر زمان فقط یک سر معلم در حافظه GPU قرار دارد.
این رویکرد از مشکل تداخل قابلیت رایج در “mixed RL” سنتی اجتناب میکند و به مدل اجازه میدهد تا عملکرد سطح بالا را در چندین حوزه به دست آورد.
۶. بهینهسازی تخصصی قابلیت عامل
DeepSeek V4 شامل تطبیقها و بهینهسازیهای تخصصی برای محصولات عامل اصلی است، با عملکرد بهبود یافته در وظایف کدنویسی، تولید سند و سایر سناریوها.
بهینهسازیهای تخصصی V4 برای قابلیتهای عامل شامل موارد زیر است: ۱. در طول پس از آموزش، عامل به عنوان یک جهت متخصص مستقل همراه با ریاضیات و کد در نظر گرفته میشود، با آموزش جداگانه ۲. فرمت فراخوانی ابزار از JSON به ساختار XML با توکنهای ویژه تغییر یافته است که نرخ خطاهای escape را کاهش میدهد ۳. آثار استدلال بین نوبتی در سناریوهای فراخوانی ابزار به طور کامل حفظ میشوند، برخلاف V3.۲ که در هر نوبت پاک میشدند ۴. پلتفرم sandbox DSec خودساخته، با یک خوشه قادر به مدیریت همزمان صدها هزار نمونه sandbox، پشتیبانی از آموزش و ارزیابی یادگیری تقویتی عامل
مسئولان اعلام کردند که قابلیتهای عامل V4-Pro “از Sonnet ۴.۵ بهتر هستند، با کیفیت تحویل نزدیک به حالت non-thinking Opus ۴.۵، اگرچه هنوز تا حدی از حالت thinking Opus ۴.۶ عقبتر است.”

جمعبندی
DeepSeek V4 Preview یک مدل بزرگ با نوآوریهای فناوری برجسته است. از طریق بازسازی مکانیسم توجه و نوآوری در پارادایم آموزش، در حالی که قابلیتهای استدلال قوی را حفظ میکند، هزینه استنتاج بافت طولانی را به شدت کاهش میدهد و راه را برای کاربردهای عملی بافت سطح میلیونی هموار میکند.
چه برای سناریوهای حرفهای که نیازمند قابلیتهای استدلال قوی باشند و چه برای کاربردهای گسترده که به دنبال مقرونبهصرفگی هستند، سری V4 گزینههای مناسبی ارائه میدهد. اگر میخواهید قابلیتهای قدرتمند DeepSeek V4 را تجربه کنید، خوشحال میشویم که مستقیماً از طریق پلتفرم ما از آن استفاده کنید.