Claude Opus 4.8 مقابل Gemini 3.1 Pro

أقوى نموذجين رائدين ببنشماركات منشورة بالكامل، وجهاً لوجه. دقة البرمجة أم استدلال قوي رخيص — هذا هو الاختيار.

من فريق benchr · · عرض سجل التغييرات · تم التحقق من الأرقام من مصادر رسمية في 13 يونيو 2026

Opus على SWE-bench Verified 88.6 مقابل 80.6 لـ Gemini
Gemini على ARC-AGI-2 77.1 Opus لم ينشر رقماً
سعر الإدخال $5 مقابل $2 Opus / Gemini لكل مليون
GPQA Diamond 93.6 / 94.3 متعادل عملياً

هذان النموذجان هما الأكتمل سجلاً من حيث البنشماركات العلنية اليوم، وهما يشدّان في اتجاهين مختلفين. Claude Opus 4.8 هو النموذج المتقدم من Anthropic، مبني حول البرمجة والعمل الوكيلي. وGemini 3.1 Pro هو معاينة Google الرائدة، أرخص ومضبوط ليكسب أصعب اختبارات الاستدلال المجرد. القرار ليس "أيهما أذكى" — بل أين تذهب ميزانيتك: نحو دقة البرمجة أم نحو استدلال قوي بسعر أقل. لكل نموذج على حدة، راجع مراجعة Claude Opus 4.8 ومراجعة Gemini 3.1 Pro.

لنبدأ بالأسعار، لأنها تحكم كل قرار لاحق. يُسعَّر Opus 4.8 بـ 5 دولارات لكل مليون توكن إدخال و25 للإخراج، وفق صفحة تسعير Anthropic. ويُسعَّر Gemini 3.1 Pro بـ 2 دولار إدخال و12 إخراج للطلبات حتى 200 ألف توكن، وفق تسعير Gemini API من Google. هذا أرخص بنحو 2.5 مرة على الإدخال وقرابة نصف تكلفة الإخراج — فجوة حقيقية إن كنت تشغّل أحجاماً كبيرة. تنبيهان يبقيان الصورة صادقة: يرتفع سعر Gemini إلى 4 دولار إدخال و18 إخراج فوق 200 ألف توكن، وإخراجه محدود بـ 64 ألف مقابل 128 ألف لـ Opus.

ملاحظة تنظيمية قبل المقارنة. صدر Gemini 3.1 Pro كمعاينة في 19 فبراير 2026، وتنبّه Google إلى أن أسعاره وحدوده قد تتغير. أما Opus 4.8 فنموذج إنتاجي متاح للعموم. إن كنت تبني شيئاً يحتاج ثبات التسعير وحدود الاستخدام، فأعطِ هذا الفرق وزناً؛ وإن كنت تجرّب فهو أقل أهمية.

Claude Opus 4.8 مقابل Gemini 3.1 Pro في نظرة سريعة، من الوثائق الرسمية لكل مزوّد، يونيو 2026.
المواصفة Claude Opus 4.8 Gemini 3.1 Pro
السعر (لكل مليون، إدخال / إخراج) $5 / $25 $2 / $12 (حتى 200K)؛ $4 / $18 فوقها
سعة السياق مليون توكن مليون توكن
أقصى إخراج 128K (300K تجريبي) 64K (يشمل التفكير)
SWE-bench Verified 88.6 80.6
GPQA Diamond 93.6 94.3
التوفر متاح للعموم معاينة (بلا طبقة API مجانية)

البرمجة والعمل الوكيلي: Opus بوضوح

هذا أوضح فوز على اللوحة. على SWE-bench Verified، أكثر بنشمارك برمجي واقعي استشهاداً، يسجل Opus 4.8 نتيجة 88.6 مقابل 80.6 لـ Gemini 3.1 Pro. ثماني نقاط على هذا البنشمارك تعني الفرق بين نموذج يصيب معظم الإصلاحات من أول محاولة وآخر تراجعه بعناية أكبر. ويتقدم Opus أيضاً في القطاعات الأصعب التي تنشرها Anthropic: 69.2 على SWE-bench Pro و84.4 على SWE-bench Multilingual.

تتسع الفجوة حين تنتقل من كتابة الكود إلى تشغيله. العمل الوكيلي — نموذج يشغّل حاسوباً أو طرفية أو مهمة متعددة الخطوات بنفسه — هو ما ضُبط له Opus 4.8، والأرقام تؤكد ذلك: 83.4 على OSWorld-Verified، و74.6 على Terminal-Bench 2.1، وElo قدره 1890 على GDPval-AA للمهام المهنية المنظمة. لا ينشر Gemini مجموعة وكيلية مقابلة، فلا يوجد رقم للمقارنة المباشرة، لكن توجّه Opus وهذه النتائج تجعله النموذج الذي تمدّ يدك إليه حين يكون العمل مستقلاً لا حوارياً.

الفائز: Opus، في دقة الكود وتنفيذ العمل الوكيلي معاً. إن كنت تدفع مقابل مساعد برمجة أو تبني وكيلاً يلمس ملفات وأدوات حقيقية، فهذا نموذجك، وفرق السعر هو ما تدفعه مقابله.

الاستدلال المجرد والعلوم: أفضلية Gemini

اقلب نوع العمل إلى الاستدلال بأصعب أنماطه فتنتقل الأفضلية. يسجل Gemini 3.1 Pro نتيجة 77.1 على ARC-AGI-2، البنشمارك المصمم ليقاوم الحفظ ويكافئ التجريد الحقيقي. الصياغة الصادقة هنا مهمة: لم ينشر Opus 4.8 رقماً على ARC-AGI-2، فهذا ليس تفوق Gemini على نتيجة معروفة لـ Opus — بل إظهار Gemini لقوة اختارت Anthropic ألا تنشرها. اقرأها كأوضح إشارة استدلالية لـ Gemini، لا كفجوة مقيسة.

وفي العلوم على مستوى الدراسات العليا فالنموذجان متعادلان داخل هامش الضجيج. GPQA Diamond يبلغ 94.3 لـ Gemini و93.6 لـ Opus — سبعة أعشار النقطة، ضمن تباين التشغيل المعتاد. كما يتقدم Gemini في الفهم متعدد الوسائط، مسجلاً 80.5 على MMMU-Pro، و92.6 على MMMLU للمعرفة متعددة اللغات. إن كان عملك بحثياً أو علمياً كثيفاً أو يعتمد على الصور والرسوم، فـ Gemini هو الأنسب والأرخص في آن.

الفائز: Gemini في الاستدلال المجرد ومتعدد الوسائط، وتعادل في علوم الدراسات العليا. نتيجة ARC-AGI-2 هي الأبرز، مع التحفظ بأنه لا يوجد رقم لـ Opus بجانبها.

السعر: Gemini أرخص بكثير، بنجمتين

لمعظم أنواع العمل يكون Gemini 3.1 Pro الخيار الأوفر بفارق واضح. بـ 2 دولار إدخال و12 إخراج للطلبات حتى 200 ألف توكن، يعمل بنحو 40% من تكلفة إدخال Opus 4.8 وأقل من نصف تكلفة الإخراج. ويبقي تسعير الدفعات الفجوة قائمة: يحاسب Gemini على 1 دولار إدخال و6 إخراج في وضع الدفعات (ثم 2 / 9 فوق 200 ألف)، بينما دفعات Opus بـ 2.5 / 12.5. على نطاق واسع، يتراكم هذا الفارق إلى بند تكلفة حقيقي.

النجمتان هما حيث يستعيد Opus بعض القيمة. أولاً، يرتفع سعر Gemini فوق 200 ألف توكن إدخال — 4 دولار إدخال و18 إخراج — فمهام السياق الطويل جداً تضيّق الفجوة كثيراً. ثانياً، يحدّ Gemini الإخراج بـ 64 ألف توكن ويحتسب توكنز التفكير ضمن هذا السقف، بينما يمنحك Opus 128 ألف (300 ألف تجريبي). إن كانت مهمتك تنتج إخراجاً منظماً طويلاً أو تعتمد على آثار تفكير ثقيلة، فقد تهم سعة إخراج Opus أكثر من سعر التوكن. ولـ Opus أيضاً أذرع تكلفة خاصة: سعر إصابة الكاش 0.50 دولار لكل مليون، ودفعات بنصف السعر، ووضع سريع اختياري بـ 10 / 50 مقابل سرعة إخراج أعلى بنحو 2.5 مرة.

الفائز: Gemini في السعر الخام، بحسم، حتى تصل إلى منحدر 200 ألف أو تحتاج أكثر من 64 ألف إخراج.

السياق والإخراج: السعة نفسها، سقفان مختلفان

يحمل النموذجان سعة سياق مليون توكن، فلابتلاع قواعد كود كبيرة أو مستندات طويلة أو سجلات محادثة ممتدة هما متعادلان في ما يستطيعان قراءته. الفرق في طريق الخروج. يستطيع Opus 4.8 إنتاج حتى 128 ألف توكن في رد واحد، مع 300 ألف تجريبي، بينما يتوقف Gemini 3.1 Pro عند 64 ألف — ولأن سقف إخراج Gemini يشمل توكنز التفكير، فإن تمريرة استدلال ثقيلة تأكل من المساحة المتبقية للإجابة الفعلية.

عملياً نادراً ما يظهر هذا في الدردشة أو التوليدات القصيرة، حيث لا يقترب أي من النموذجين من السقف. لكنه يظهر في المهام التي تنتج نصاً كثيراً دفعة واحدة: مسودة مستند كاملة، إعادة هيكلة كبيرة تُعاد كـ diff واحد، استخراج منظم شامل. إن كان هذا نمطك، فسعة إخراج Opus أفضلية ملموسة لن تكشفها مقارنة السعر وحدها.

للإطار الأوسع حول كيفية وقوف هذين النموذجين الرائدين أمام بقية الميدان، تغطي مقارنة Gemini 3.1 Pro مقابل GPT-5.5 محور الاستدلال مقابل أعمال المعرفة، وتتعمق مراجعة Opus 4.8 في أين يستحق نموذج Anthropic المتقدم ثمنه.

أيهما لأي عمل

إن كنت تطلق كوداً أو تبني وكلاء، فاجعل Opus 4.8 الافتراضي. تقدّم SWE-bench واسع، ونتائج العمل الوكيلي والتحكم بالحاسوب أعلى، ولا يوجد رقم لـ Gemini يناقض الصورة. دقة البرمجة هي تحديداً ما تشتريه فجوة سعر 5/25.

إن كنت تشغّل استدلالاً أو بحثاً أو عملاً متعدد الوسائط بأحجام كبيرة وسعر التوكن يقود القرار، فالاختيار Gemini 3.1 Pro. هو أرخص بكثير، ويتعادل أو يكسب في بنشماركات العلوم والاستدلال، ويتقدم في متعدد الوسائط — فقط أبقِ منحدر سعر 200 ألف وسقف إخراج 64 ألف في حسبانك.

إن استطعت تشغيل الاثنين، فالتقسيم النظيف هو Opus لطبقة البرمجة والوكلاء، وGemini لطبقة الاستدلال والتحليل عالية الحجم. وتذكّر أن Gemini لا يزال معاينة: العمل الإنتاجي المعتمد على ثبات التسعير يميل إلى Opus حتى يتخرّج Gemini إلى التوفر العام.

أسئلة شائعة

أيهما أفضل، Claude Opus 4.8 أم Gemini 3.1 Pro؟

يعتمد على ما تدفع مقابله. Opus 4.8 يتقدم في البرمجة والعمل الوكيلي: 88.6 على SWE-bench Verified مقابل 80.6 لـ Gemini، إضافة إلى نتائج أعلى في OSWorld وTerminal-Bench وGDPval. أما Gemini 3.1 Pro فأرخص بكثير (2 مقابل 5 دولار للإدخال، و12 مقابل 25 للإخراج) ويتفوق قليلاً في الاستدلال المجرد، مسجلاً 77.1 على ARC-AGI-2 حيث لم ينشر Opus رقماً. وGPQA Diamond متعادل عملياً (94.3 مقابل 93.6). اختر Opus لدقة البرمجة، وGemini للاستدلال القوي الرخيص على نطاق واسع.

أي نموذج أرخص في التشغيل؟

Gemini 3.1 Pro، بفارق واسع. سعره 2 دولار لكل مليون توكن إدخال و12 للإخراج للطلبات حتى 200 ألف توكن، مقابل 5 و25 لـ Opus 4.8. لكن انتبه لأمرين: فوق 200 ألف توكن إدخال يقفز Gemini إلى 4 دولار إدخال و18 إخراج، وإخراجه (الذي يشمل توكنز التفكير) محدود بـ 64 ألف مقابل 128 ألف لـ Opus. كما أن Gemini لا يوفر طبقة API مجانية، بل تجربة عبر واجهة AI Studio فقط.

أيهما أفضل في البرمجة؟

Claude Opus 4.8. يسجل 88.6 على SWE-bench Verified مقابل 80.6 لـ Gemini 3.1 Pro، فارق ثماني نقاط على أكثر بنشمارك برمجي واقعي استشهاداً. ويتقدم Opus أيضاً في مقاييس العمل الوكيلي والتحكم بالحاسوب المهمة للبرمجة المستقلة: 83.4 على OSWorld-Verified، و74.6 على Terminal-Bench 2.1، وElo قدره 1890 على GDPval-AA. إن كنت تشتري دقة على كود الإنتاج، فالاختيار Opus.

أيهما أفضل في الاستدلال وأسئلة العلوم؟

Gemini 3.1 Pro له الأفضلية في الاستدلال المجرد، مسجلاً 77.1 على ARC-AGI-2، وهو بنشمارك لم ينشره Opus 4.8. وفي العلوم على مستوى الدراسات العليا فالنموذجان متعادلان عملياً: GPQA Diamond يبلغ 94.3 لـ Gemini و93.6 لـ Opus. كما يتقدم Gemini في MMMU-Pro متعدد الوسائط بـ 80.5. تعامل مع نتيجة ARC-AGI-2 كأوضح أفضلية استدلالية لـ Gemini، لأنه لا يوجد رقم لـ Opus لمقارنتها به.

هل يمكنني مقارنة نتائج Humanity's Last Exam مباشرة؟

لا. يسجل Opus 4.8 نتيجة 49.8 على Humanity's Last Exam بلا أدوات، بينما يسجل Gemini 3.1 Pro نتيجة 51.4 مع أدوات. هذان شرطا اختبار مختلفان، فالرقمان غير قابلين للمقارنة المباشرة. النموذج الذي يملك وصولاً للأدوات يستطيع البحث والحساب، وهذا يرفع النتيجة عادة، فلا تقرأ رقم Gemini الأعلى كفوز نظيف على هذا البنشمارك.

هل Gemini 3.1 Pro مستقر بما يكفي للبناء عليه؟

تعامل معه كمعاينة. أُطلق Gemini 3.1 Pro كمعاينة في 19 فبراير 2026، وتنبّه Google إلى أن الأسعار وحدود الاستخدام قد تتغير. أما Opus 4.8 فنموذج إنتاجي متاح للعموم. إن كنت تطلق شيئاً يعتمد على ثبات التسعير وحدود الاستخدام، فهذا الفرق مهم؛ وإن كنت تجرّب أو تحتمل التغيير، فوضع المعاينة أقل أهمية.

سجل التغييرات

  • 13 يونيو 2026 — نُشرت النسخة الأولى. تم التحقق من الأسعار وحدود السياق والإخراج وجميع أرقام البنشماركات وفق الوثائق الرسمية لـ Anthropic وGoogle.

المراجع

  1. Anthropic, "Claude Pricing," anthropic.com/pricing، اطُّلع عليه في يونيو 2026.
  2. Anthropic, "Claude API Documentation," docs.claude.com، اطُّلع عليه في يونيو 2026.
  3. Google, "Gemini API Pricing," ai.google.dev/gemini-api/docs/pricing، اطُّلع عليه في يونيو 2026.
  4. Google, "Gemini models," ai.google.dev/gemini-api/docs/models، اطُّلع عليه في يونيو 2026.
  5. "SWE-bench Verified leaderboard," swebench.com، يونيو 2026.
  6. "ARC Prize," arcprize.org، يونيو 2026.