تسعير Claude Opus 4.8: النموذج الذي يتصدّر SWE-bench

يتصدّر Claude Opus 4.8 كل بنشمارك يهمّ في البرمجة الإنتاجية: ‏88.6% على SWE-bench Verified، و93.6% على GPQA Diamond، و96% على HumanEval. سعره عند 5$ للمليون إدخال يضعه في الطبقة المتقدّمة، لكنّ إخراجه أرخص من GPT-5.5 ‏(25$ مقابل 30$ للمليون). أمّا هل تستحقّ علاوة الجودة؟ فذلك يتوقّف كلّيًا على مدى صعوبة مهامك البرمجية.

من فريق benchr · · الأرقام محقّقة مقابل المصادر الرسمية، يونيو 2026

الإدخال / مليونأنثروبيك · مايو 2026
الإخراج / مليونأنثروبيك
SWE-benchمُحقّقة
السياقأقصى سعة

تفصيل التسعير

claude-opus-4-8 — التسعير الرسمي من أنثروبيك
الطبقةالسعر / مليون توكن
إدخال قياسي$5.00
إخراج قياسي$25.00
إدخال مخزّن$0.50
إدخال Fast Mode$10.00
إخراج Fast Mode$50.00
الدُّفعات (خصم 50%)$2.50 / $12.50
سعة السياق1,000,000 توكن
أقصى إخراج128,000 توكن

فجوة البنشمارك البرمجي

يسجّل Claude Opus 4.8 ‏88.6% على SWE-bench Verified — بفارق 4.6 نقطة فوق GPT-5.5 ‏(84.0%)، وثماني نقاط فوق Gemini 3.5 Flash وDeepSeek V4-Pro (كلاهما 80.6%). في وكلاء هندسة البرمجيات المؤتمتة — خطوط إصلاح الأخطاء، توليد طلبات الدمج، كتابة الاختبارات، مراجعة الكود — تترجم هذه الفجوة إلى نتائج إنتاجية ملموسة: محاولات فاشلة أقل، وكلفة إعادة محاولة أدنى، ومعدّل نجاح أعلى لكل دولار.

وتعزّز البنشماركات المساندة هذه الصورة: GPQA Diamond عند 93.6%، وHumanEval عند 96%، وMMLU عند 93.5%. هذه ليست انتصارات ضيّقة؛ Opus 4.8 هو أقوى نموذج عامّ للبرمجة والاستدلال متاح عبر API تجاري.

فرق الإخراج 25$ مقابل 30$ أهمّ ممّا تظنّ

يتقاضى كلٌّ من Claude Opus 4.8 وGPT-5.5 خمسة دولارات للمليون على الإدخال. لكنّ إخراج Opus 4.8 عند 25$ للمليون مقابل 30$ لدى GPT-5.5 — أرخص بـ 17% لكل توكن إخراج. في الأحمال ثقيلة الإخراج التي يولّد فيها النموذج كودًا طويلًا أو تحليلات مفصّلة أو مستندات ممتدّة، تكون كلفة المهمة الواحدة على Opus 4.8 أدنى من GPT-5.5 رغم تطابق سعر الإدخال.

مثال: مهمة بـ 5 آلاف توكن إدخال و20 ألف توكن إخراج. على Opus 4.8: ‏0.025$ + 0.50$ = 0.525$. على GPT-5.5: ‏0.025$ + 0.60$ = 0.625$. عند 100 ألف مهمة شهريًا يوفّر Opus 4.8 مبلغ 10,000$ — مع نتيجة بنشمارك أعلى.

تخزين السياق: خصم الـ 90%

توكنز الإدخال المخزّنة تكلّف 0.50$ للمليون — خصم 90% عن السعر القياسي 5$ للمليون. يبقى التخزين فعّالًا حتى خمس دقائق. للوكلاء ذوي برومبتات النظام الكبيرة والثابتة، يغيّر التخزين معادلة الكلفة جذريًا. خذ برومبت نظام بحجم 100 ألف توكن يُرسَل 100 مرّة في الساعة: بلا تخزين كلفة الإدخال 50$ في الساعة؛ ومع إصابة تخزين 90% تصبح 5$ قياسي + 45$ مخزّن = 0.05$ + 4.50$ = 4.55$ في الساعة. للوكلاء طويلي السياق المستمرّين، التخزين ليس خيارًا تكميليًا بل هو الفارق بين أن يكون Opus 4.8 باهظًا أو في المتناول.

Fast Mode: حين يكون الكمون هو القيد

يضاعف Fast Mode السعر إلى 10$ للمليون إدخال و50$ للمليون إخراج، لكنّه يخفض زمن التوكن الأول. النسخة القياسية من Opus 4.8 لها زمن توكن أول يبلغ 700 مللي ثانية وإنتاجية 68 توكن في الثانية — أبطأ من GPT-5.5 ‏(520 مللي ثانية، 82 توكن/ث) وأبطأ بكثير من Gemini 3.5 Flash ‏(195 مللي ثانية، 289 توكن/ث). استخدم Fast Mode حين تشغّل مهامّ متزامنة مواجهة للمستخدم يؤثّر فيها الكمون على التجربة مباشرة. أمّا للوكلاء غير المتزامنين والعمل الدُّفعي فالوضع القياسي هو الخيار الصحيح في الغالب.

متى يكفي Sonnet

يكلّف Claude Opus 4.8 نحو 5 إلى 12 ضعفًا أكثر من Claude Sonnet 4.6 بحسب التخزين. إن نجحت مهمتك على Sonnet فلا مبرّر للترقية إلى Opus. والمسار الصحيح: قيّم على Sonnet أولًا، حدّد حالات الفشل، ثم وجّه تلك الحالات وحدها إلى Opus. تجد معظم الفِرق الإنتاجية أنّ 80 إلى 90% من حجمها يبقى على Sonnet، بينما يتولّى Opus الذيل الذي يتطلّب أعلى سقف استدلالي.

ملاءمة الاستخدام

الأفضل لـ: مهام البرمجة المؤتمتة عالية المخاطر؛ خطوط الوكلاء المركّبة متعدّدة الخطوات حيث يكلّف الفشل كثيرًا؛ الاستدلال على مستوى البنية المعمارية؛ العمل الإنتاجي بمستوى SWE-bench حيث تترجم فجوة 4 إلى 8 نقاط فوق المنافسين إلى إعادة محاولات أقل.

تجاوزه إن: احتجت حجمًا رخيصًا — فـ Claude Sonnet 4.6 هو الافتراضي الصحيح؛ احتجت أدنى كمون — فاستخدم Fast Mode أو Gemini 3.5 Flash؛ كان نوع مهمتك بعينه لا يستفيد من فرق البنشمارك، وهذا يستحقّ القياس قبل الالتزام بتسعير Opus.

قائمة القرار

قبل توجيه حركة الإنتاج إلى Opus 4.8: شغّل المهمة نفسها على Claude Sonnet 4.6 وقِس فجوة الجودة. إن اجتاز Sonnet عتبة تقييمك فلا حُجّة اقتصادية لـ Opus. وإن كنت تقارن بـ GPT-5.5 فلاحظ أنّ إخراج Opus 4.8 أرخص ‏(25$ مقابل 30$ للمليون) — أجرِ مقارنة كلفة موزونة بالإخراج، لا مقارنة سعر إدخال وحده.

افحص هل يستفيد حملك من التخزين. برومبتات النظام الكبيرة المتكرّرة تجعل Opus 4.8 أرخص بكثير ممّا يوحي به السعر المعلن. برومبت نظام بحجم 50 ألف توكن بمعدّل إصابة تخزين 90% يخفض كلفة الإدخال الفعلية إلى نحو 0.95$ للمليون.

أسئلة شائعة

هل 88.6% على SWE-bench هي أعلى نتيجة متاحة؟

نعم حتى يونيو 2026. يتصدّر Claude Opus 4.8 كل النماذج التجارية على SWE-bench Verified بنتيجة 88.6% — بفارق 4.6 نقطة فوق GPT-5.5 ‏(84.0%) وثماني نقاط فوق Gemini 3.5 Flash وDeepSeek V4-Pro (كلاهما 80.6%). في مهام هندسة البرمجيات المؤتمتة يظهر هذا الفارق في معدّلات النجاح داخل الإنتاج.

ما هو Fast Mode ومتى يهمّ؟

يضاعف Fast Mode السعر إلى 10$/50$ للمليون مقابل كمون أقل. النسخة القياسية من Opus 4.8 لها زمن توكن أول 700 مللي ثانية، وFast Mode يستهدف أقلّ. استخدمه للمهام المتزامنة المواجهة للمستخدم حيث يؤثّر الكمون على التجربة. أمّا للعمل الدُّفعي والوكلاء غير المتزامنين فالوضع القياسي عند 5$/25$ هو الصحيح غالبًا.

كيف يعمل تخزين السياق مع Claude Opus 4.8؟

توكنز الإدخال المخزّنة تكلّف 0.50$ للمليون — خصم 90% عن السعر القياسي 5$. يبقى التخزين فعّالًا حتى خمس دقائق. عند معدّل إصابة 90% تنخفض كلفة الإدخال الفعلية إلى نحو 0.95$ للمليون. وهو أنفع ما يكون للوكلاء ذوي برومبتات النظام الكبيرة والثابتة، ولا يفيد في النداءات القصيرة عديمة الحالة.

سجل التغييرات

  • — نشر النسخة العربية المستقلّة. الأرقام محقّقة مقابل صفحة أسعار أنثروبيك الرسمية.

المصادر

  • أسعار واجهة أنثروبيك — anthropic.com/api#pricing (محقّقة 6 يونيو 2026)
  • لوحة صدارة SWE-bench Verified — swebench.com (محقّقة 6 يونيو 2026)
  • ملف model-figures.json من benchr — محقّق 6 يونيو 2026