مقارنة·تغطي يونيو 2026·نُشر في 13 يونيو 2026

Claude Opus 4.8 مقابل Gemini 3.1 Pro

مقارنة مباشرة بين نموذجين متقدمين بنتائج منشورة: Opus لدقة البرمجة، وGemini للاستدلال القوي بسعر أقل.

من فريق benchr · آخر تحديث 13 يونيو 2026 · سجل التغييرات · تم التحقق من الأرقام من مصادر رسمية في 13 يونيو 2026

Claude Opus 4.8 مقابل Gemini 3.1 Pro: طبقات أدلة ومسارات للمقارنة. — **بحث النماذج**تظهر هوية Claude Opus 4.8 مقابل Gemini 3.1 Pro عبر طبقات أدلة ومسارات للمقارنة.

Opus على SWE-bench Verified 88.6 مقابل 80.6 لـ Gemini

Gemini على ARC-AGI-2 77.1 Opus لم ينشر رقماً

سعر الإدخال $5 مقابل $2 Opus / Gemini لكل مليون

GPQA Diamond 93.6 / 94.3 متعادل عملياً

هذان النموذجان هما الأكتمل سجلاً من حيث المعايير العلنية اليوم، وهما يشدّان في اتجاهين مختلفين. Claude Opus 4.8 هو النموذج المتقدم من Anthropic، مبني حول البرمجة والعمل الوكيلي. وGemini 3.1 Pro هو معاينة Google الرائدة، أرخص ومضبوط ليكسب أصعب اختبارات الاستدلال المجرد. القرار ليس "أيهما أذكى" — بل أين تذهب ميزانيتك: نحو دقة البرمجة أم نحو استدلال قوي بسعر أقل. لكل نموذج على حدة، راجع مراجعة Claude Opus 4.8 ومراجعة Gemini 3.1 Pro.

لنبدأ بالأسعار، لأنها تحكم كل قرار لاحق. يُسعَّر Opus 4.8 بـ 5 دولارات لكل مليون رمز إدخال و25 للإخراج، وفق صفحة تسعير Anthropic. ويُسعَّر Gemini 3.1 Pro بـ 2 دولار إدخال و12 إخراج للطلبات حتى 200 ألف رمز، وفق تسعير Gemini API من Google.

هذا أرخص بنحو 2.5 مرة على الإدخال وقرابة نصف تكلفة الإخراج — فجوة حقيقية إن كنت تشغّل أحجاماً كبيرة. تنبيهان يبقيان الصورة صادقة: يرتفع سعر Gemini إلى 4 دولار إدخال و18 إخراج فوق 200 ألف رمز، وإخراجه محدود بـ 64 ألف مقابل 128 ألف لـ Opus.

ملاحظة تنظيمية قبل المقارنة. صدر Gemini 3.1 Pro كمعاينة في 19 فبراير 2026، وتنبّه Google إلى أن أسعاره وحدوده قد تتغير. أما Opus 4.8 فنموذج إنتاجي متاح للعموم. إن كنت تبني شيئاً يحتاج ثبات التسعير وحدود الاستخدام، فأعطِ هذا الفرق وزناً؛ وإن كنت تجرّب فهو أقل أهمية.

Claude Opus 4.8 مقابل Gemini 3.1 Pro في نظرة سريعة، من الوثائق الرسمية لكل مزوّد، يونيو 2026.
المواصفة	Claude Opus 4.8	Gemini 3.1 Pro
السعر (لكل مليون، إدخال / إخراج)	$5 / $25	$2 / $12 (حتى 200K)؛ $4 / $18 فوقها
سعة السياق	مليون رمز	مليون رمز
أقصى إخراج	128K (300K تجريبي)	64K (يشمل التفكير)
SWE-bench Verified	88.6	80.6
GPQA Diamond	93.6	94.3
التوفر	متاح للعموم	معاينة (بلا طبقة API مجانية)

البرمجة والعمل الوكيلي: Opus بوضوح

هذا أوضح فوز على اللوحة. على SWE-bench Verified، أكثر معيار برمجي واقعي استشهاداً، يسجل Opus 4.8 نتيجة 88.6 مقابل 80.6 لـ Gemini 3.1 Pro. ثماني نقاط على هذا المعيار تعني الفرق بين نموذج يصيب معظم الإصلاحات من أول محاولة وآخر تراجعه بعناية أكبر. ويتقدم Opus أيضاً في القطاعات الأصعب التي تنشرها Anthropic: 69.2 على SWE-bench Pro و84.4 على SWE-bench Multilingual.

تتسع الفجوة حين تنتقل من كتابة الكود إلى تشغيله. العمل الوكيلي — نموذج يشغّل حاسوباً أو طرفية أو مهمة متعددة الخطوات بنفسه — هو ما ضُبط له Opus 4.8، والأرقام تؤكد ذلك: 83.4 على OSWorld-Verified، و74.6 على Terminal-Bench 2.1، وElo قدره 1890 على GDPval-AA للمهام المهنية المنظمة. لا ينشر Gemini مجموعة وكيلية مقابلة، فلا يوجد رقم للمقارنة المباشرة، لكن توجّه Opus وهذه النتائج تجعله النموذج الذي تمدّ يدك إليه حين يكون العمل مستقلاً لا حوارياً.

الفائز: Opus، في دقة الكود وتنفيذ العمل الوكيلي معاً. إن كنت تدفع مقابل مساعد برمجة أو تبني وكيلاً يلمس ملفات وأدوات حقيقية، فهذا نموذجك، وفرق السعر هو ما تدفعه مقابله.

الاستدلال المجرد والعلوم: أفضلية Gemini

اقلب نوع العمل إلى الاستدلال بأصعب أنماطه فتنتقل الأفضلية. يسجل Gemini 3.1 Pro نتيجة 77.1 على ARC-AGI-2، المعيار المصمم ليقاوم الحفظ ويكافئ التجريد الحقيقي. الصياغة الصادقة هنا مهمة: لم ينشر Opus 4.8 رقماً على ARC-AGI-2، فهذا ليس تفوق Gemini على نتيجة معروفة لـ Opus — بل إظهار Gemini لقوة اختارت Anthropic ألا تنشرها. اقرأها كأوضح إشارة استدلالية لـ Gemini، لا كفجوة مقيسة.

وفي العلوم على مستوى الدراسات العليا فالنموذجان متعادلان داخل هامش الضجيج. GPQA Diamond يبلغ 94.3 لـ Gemini و93.6 لـ Opus — سبعة أعشار النقطة، ضمن تباين التشغيل المعتاد. كما يتقدم Gemini في الفهم متعدد الوسائط، مسجلاً 80.5 على MMMU-Pro، و92.6 على MMMLU للمعرفة متعددة اللغات. إن كان عملك بحثياً أو علمياً كثيفاً أو يعتمد على الصور والرسوم، فـ Gemini هو الأنسب والأرخص في آن.

الفائز: Gemini في الاستدلال المجرد ومتعدد الوسائط، وتعادل في علوم الدراسات العليا. نتيجة ARC-AGI-2 هي الأبرز، مع التحفظ بأنه لا يوجد رقم لـ Opus بجانبها.

السعر: Gemini أرخص بكثير، بنجمتين

لمعظم أنواع العمل يكون Gemini 3.1 Pro الخيار الأوفر بفارق واضح. بـ 2 دولار إدخال و12 إخراج للطلبات حتى 200 ألف رمز، يعمل بنحو 40% من تكلفة إدخال Opus 4.8 وأقل من نصف تكلفة الإخراج. ويبقي تسعير الدفعات الفجوة قائمة: يحاسب Gemini على 1 دولار إدخال و6 إخراج في وضع الدفعات (ثم 2 / 9 فوق 200 ألف)، بينما دفعات Opus بـ 2.5 / 12.5. على نطاق واسع، يتراكم هذا الفارق إلى بند تكلفة حقيقي.

هناك عاملان يعيدان بعض القيمة إلى Opus. أولاً، يرتفع سعر Gemini فوق 200 ألف رمز إدخال إلى 4 دولارات للإدخال و18 دولاراً للإخراج، فتضيق فجوة السعر في مهام السياق الطويل جداً. ثانياً، يحد Gemini الإخراج بـ64 ألف رمز ويحتسب رموز التفكير ضمن هذا السقف، بينما يتيح Opus إخراجاً يبلغ 128 ألف رمز، أو 300 ألف في الوضع التجريبي.

إذا كانت المهمة تنتج إخراجاً منظماً طويلاً أو تستهلك كثيراً من رموز التفكير، فقد تصبح سعة إخراج Opus أهم من سعر الرمز. ويوفر Opus خيارات أخرى لخفض التكلفة: قراءة التخزين المؤقت بسعر $0.50 لكل مليون، ودفعات بنصف السعر. كما يقدم وضعاً سريعاً اختيارياً بسعر $10/$50 مقابل سرعة إخراج أعلى بنحو 2.5 مرة.

الفائز: Gemini في السعر الخام، بحسم، حتى تصل إلى منحدر 200 ألف أو تحتاج أكثر من 64 ألف إخراج.

السياق والإخراج: السعة نفسها، سقفان مختلفان

يحمل النموذجان سعة سياق مليون رمز، فلابتلاع قواعد كود كبيرة أو مستندات طويلة أو سجلات محادثة ممتدة هما متعادلان في ما يستطيعان قراءته. الفرق في طريق الخروج. يستطيع Opus 4.8 إنتاج حتى 128 ألف رمز في رد واحد، مع 300 ألف تجريبي، بينما يتوقف Gemini 3.1 Pro عند 64 ألف — ولأن سقف إخراج Gemini يشمل رموز التفكير، فإن تمريرة استدلال ثقيلة تأكل من المساحة المتبقية للإجابة الفعلية.

عملياً نادراً ما يظهر هذا في الدردشة أو التوليدات القصيرة، حيث لا يقترب أي من النموذجين من السقف. لكنه يظهر في المهام التي تنتج نصاً كثيراً دفعة واحدة: مسودة مستند كاملة، إعادة هيكلة كبيرة تُعاد كـ diff واحد، استخراج منظم شامل. إن كان هذا نمطك، فسعة إخراج Opus أفضلية ملموسة لن تكشفها مقارنة السعر وحدها.

للإطار الأوسع حول كيفية وقوف هذين النموذجين الرائدين أمام بقية الميدان، تغطي مقارنة Gemini 3.1 Pro مقابل GPT-5.5 محور الاستدلال مقابل أعمال المعرفة، وتتعمق مراجعة Opus 4.8 في أين يستحق نموذج Anthropic المتقدم ثمنه.

أيهما لأي عمل

إن كنت تطلق كوداً أو تبني وكلاء، فاجعل Opus 4.8 الافتراضي. تقدّم SWE-bench واسع، ونتائج العمل الوكيلي والتحكم بالحاسوب أعلى، ولا يوجد رقم لـ Gemini يناقض الصورة. دقة البرمجة هي تحديداً ما تشتريه فجوة سعر 5/25.

إن كنت تشغّل استدلالاً أو بحثاً أو عملاً متعدد الوسائط بأحجام كبيرة وسعر الرمز يقود القرار، فالاختيار Gemini 3.1 Pro. هو أرخص بكثير، ويتعادل أو يكسب في معايير العلوم والاستدلال، ويتقدم في متعدد الوسائط — فقط أبقِ منحدر سعر 200 ألف وسقف إخراج 64 ألف في حسبانك.

إن استطعت تشغيل الاثنين، فالتقسيم النظيف هو Opus لطبقة البرمجة والوكلاء، وGemini لطبقة الاستدلال والتحليل عالية الحجم. وتذكّر أن Gemini لا يزال معاينة: العمل الإنتاجي المعتمد على ثبات التسعير يميل إلى Opus حتى يتخرّج Gemini إلى التوفر العام.

أسئلة شائعة

أيهما أفضل، Claude Opus 4.8 أم Gemini 3.1 Pro؟

يعتمد على ما تدفع مقابله. Opus 4.8 يتقدم في البرمجة والعمل الوكيلي: 88.6 على SWE-bench Verified مقابل 80.6 لـ Gemini، إضافة إلى نتائج أعلى في OSWorld وTerminal-Bench وGDPval. أما Gemini 3.1 Pro فأرخص بكثير (2 مقابل 5 دولار للإدخال، و12 مقابل 25 للإخراج) ويتفوق قليلاً في الاستدلال المجرد، مسجلاً 77.1 على ARC-AGI-2 حيث لم ينشر Opus رقماً. وGPQA Diamond متعادل عملياً (94.3 مقابل 93.6). اختر Opus لدقة البرمجة، وGemini للاستدلال القوي الرخيص على نطاق واسع.

أي نموذج أرخص في التشغيل؟

Gemini 3.1 Pro، بفارق واسع. سعره 2 دولار لكل مليون رمز إدخال و12 للإخراج للطلبات حتى 200 ألف رمز، مقابل 5 و25 لـ Opus 4.8. لكن انتبه لأمرين: فوق 200 ألف رمز إدخال يقفز Gemini إلى 4 دولار إدخال و18 إخراج، وإخراجه (الذي يشمل رموز التفكير) محدود بـ 64 ألف مقابل 128 ألف لـ Opus. كما أن Gemini لا يوفر طبقة API مجانية، بل تجربة عبر واجهة AI Studio فقط.

أيهما أفضل في البرمجة؟

Claude Opus 4.8. يسجل 88.6 على SWE-bench Verified مقابل 80.6 لـ Gemini 3.1 Pro، فارق ثماني نقاط على أكثر معيار برمجي واقعي استشهاداً. ويتقدم Opus أيضاً في مقاييس العمل الوكيلي والتحكم بالحاسوب المهمة للبرمجة المستقلة: 83.4 على OSWorld-Verified، و74.6 على Terminal-Bench 2.1، وElo قدره 1890 على GDPval-AA. إن كنت تشتري دقة على كود الإنتاج، فالاختيار Opus.

أيهما أفضل في الاستدلال وأسئلة العلوم؟

Gemini 3.1 Pro له الأفضلية في الاستدلال المجرد، مسجلاً 77.1 على ARC-AGI-2، وهو معيار لم ينشره Opus 4.8. وفي العلوم على مستوى الدراسات العليا فالنموذجان متعادلان عملياً: GPQA Diamond يبلغ 94.3 لـ Gemini و93.6 لـ Opus. كما يتقدم Gemini في MMMU-Pro متعدد الوسائط بـ 80.5. تعامل مع نتيجة ARC-AGI-2 كأوضح أفضلية استدلالية لـ Gemini، لأنه لا يوجد رقم لـ Opus لمقارنتها به.

هل يمكنني مقارنة نتائج Humanity's Last Exam مباشرة؟

لا. يسجل Opus 4.8 نتيجة 49.8 على Humanity's Last Exam بلا أدوات، بينما يسجل Gemini 3.1 Pro نتيجة 51.4 مع أدوات. هذان شرطا اختبار مختلفان، فالرقمان غير قابلين للمقارنة المباشرة. النموذج الذي يملك وصولاً للأدوات يستطيع البحث والحساب، وهذا يرفع النتيجة عادة، فلا تقرأ رقم Gemini الأعلى كفوز نظيف على هذا المعيار.

هل Gemini 3.1 Pro مستقر بما يكفي للبناء عليه؟

تعامل معه كمعاينة. أُطلق Gemini 3.1 Pro كمعاينة في 19 فبراير 2026، وتنبّه Google إلى أن الأسعار وحدود الاستخدام قد تتغير. أما Opus 4.8 فنموذج إنتاجي متاح للعموم. إن كنت تطلق شيئاً يعتمد على ثبات التسعير وحدود الاستخدام، فهذا الفرق مهم؛ وإن كنت تجرّب أو تحتمل التغيير، فوضع المعاينة أقل أهمية.

سجل التغييرات

13 يونيو 2026 — نُشرت النسخة الأولى. تم التحقق من الأسعار وحدود السياق والإخراج وجميع أرقام المعايير وفق الوثائق الرسمية لـ Anthropic وGoogle.

المراجع

Anthropic, "Claude Pricing," anthropic.com/pricing، اطُّلع عليه في يونيو 2026.
Anthropic, "Claude API Documentation," docs.claude.com، اطُّلع عليه في يونيو 2026.
Google, "Gemini API Pricing," ai.google.dev/gemini-api/docs/pricing، اطُّلع عليه في يونيو 2026.
Google, "Gemini models," ai.google.dev/gemini-api/docs/models، اطُّلع عليه في يونيو 2026.
"SWE-bench Verified leaderboard," swebench.com، يونيو 2026.
"ARC Prize," arcprize.org، يونيو 2026.