هذان النموذجان هما الأكتمل سجلاً من حيث البنشماركات العلنية اليوم، وهما يشدّان في اتجاهين مختلفين. Claude Opus 4.8 هو النموذج المتقدم من Anthropic، مبني حول البرمجة والعمل الوكيلي. وGemini 3.1 Pro هو معاينة Google الرائدة، أرخص ومضبوط ليكسب أصعب اختبارات الاستدلال المجرد. القرار ليس "أيهما أذكى" — بل أين تذهب ميزانيتك: نحو دقة البرمجة أم نحو استدلال قوي بسعر أقل. لكل نموذج على حدة، راجع مراجعة Claude Opus 4.8 ومراجعة Gemini 3.1 Pro.
لنبدأ بالأسعار، لأنها تحكم كل قرار لاحق. يُسعَّر Opus 4.8 بـ 5 دولارات لكل مليون توكن إدخال و25 للإخراج، وفق صفحة تسعير Anthropic. ويُسعَّر Gemini 3.1 Pro بـ 2 دولار إدخال و12 إخراج للطلبات حتى 200 ألف توكن، وفق تسعير Gemini API من Google. هذا أرخص بنحو 2.5 مرة على الإدخال وقرابة نصف تكلفة الإخراج — فجوة حقيقية إن كنت تشغّل أحجاماً كبيرة. تنبيهان يبقيان الصورة صادقة: يرتفع سعر Gemini إلى 4 دولار إدخال و18 إخراج فوق 200 ألف توكن، وإخراجه محدود بـ 64 ألف مقابل 128 ألف لـ Opus.
ملاحظة تنظيمية قبل المقارنة. صدر Gemini 3.1 Pro كمعاينة في 19 فبراير 2026، وتنبّه Google إلى أن أسعاره وحدوده قد تتغير. أما Opus 4.8 فنموذج إنتاجي متاح للعموم. إن كنت تبني شيئاً يحتاج ثبات التسعير وحدود الاستخدام، فأعطِ هذا الفرق وزناً؛ وإن كنت تجرّب فهو أقل أهمية.
| المواصفة | Claude Opus 4.8 | Gemini 3.1 Pro |
|---|---|---|
| السعر (لكل مليون، إدخال / إخراج) | $5 / $25 | $2 / $12 (حتى 200K)؛ $4 / $18 فوقها |
| سعة السياق | مليون توكن | مليون توكن |
| أقصى إخراج | 128K (300K تجريبي) | 64K (يشمل التفكير) |
| SWE-bench Verified | 88.6 | 80.6 |
| GPQA Diamond | 93.6 | 94.3 |
| التوفر | متاح للعموم | معاينة (بلا طبقة API مجانية) |
البرمجة والعمل الوكيلي: Opus بوضوح
هذا أوضح فوز على اللوحة. على SWE-bench Verified، أكثر بنشمارك برمجي واقعي استشهاداً، يسجل Opus 4.8 نتيجة 88.6 مقابل 80.6 لـ Gemini 3.1 Pro. ثماني نقاط على هذا البنشمارك تعني الفرق بين نموذج يصيب معظم الإصلاحات من أول محاولة وآخر تراجعه بعناية أكبر. ويتقدم Opus أيضاً في القطاعات الأصعب التي تنشرها Anthropic: 69.2 على SWE-bench Pro و84.4 على SWE-bench Multilingual.
تتسع الفجوة حين تنتقل من كتابة الكود إلى تشغيله. العمل الوكيلي — نموذج يشغّل حاسوباً أو طرفية أو مهمة متعددة الخطوات بنفسه — هو ما ضُبط له Opus 4.8، والأرقام تؤكد ذلك: 83.4 على OSWorld-Verified، و74.6 على Terminal-Bench 2.1، وElo قدره 1890 على GDPval-AA للمهام المهنية المنظمة. لا ينشر Gemini مجموعة وكيلية مقابلة، فلا يوجد رقم للمقارنة المباشرة، لكن توجّه Opus وهذه النتائج تجعله النموذج الذي تمدّ يدك إليه حين يكون العمل مستقلاً لا حوارياً.
الفائز: Opus، في دقة الكود وتنفيذ العمل الوكيلي معاً. إن كنت تدفع مقابل مساعد برمجة أو تبني وكيلاً يلمس ملفات وأدوات حقيقية، فهذا نموذجك، وفرق السعر هو ما تدفعه مقابله.
الاستدلال المجرد والعلوم: أفضلية Gemini
اقلب نوع العمل إلى الاستدلال بأصعب أنماطه فتنتقل الأفضلية. يسجل Gemini 3.1 Pro نتيجة 77.1 على ARC-AGI-2، البنشمارك المصمم ليقاوم الحفظ ويكافئ التجريد الحقيقي. الصياغة الصادقة هنا مهمة: لم ينشر Opus 4.8 رقماً على ARC-AGI-2، فهذا ليس تفوق Gemini على نتيجة معروفة لـ Opus — بل إظهار Gemini لقوة اختارت Anthropic ألا تنشرها. اقرأها كأوضح إشارة استدلالية لـ Gemini، لا كفجوة مقيسة.
وفي العلوم على مستوى الدراسات العليا فالنموذجان متعادلان داخل هامش الضجيج. GPQA Diamond يبلغ 94.3 لـ Gemini و93.6 لـ Opus — سبعة أعشار النقطة، ضمن تباين التشغيل المعتاد. كما يتقدم Gemini في الفهم متعدد الوسائط، مسجلاً 80.5 على MMMU-Pro، و92.6 على MMMLU للمعرفة متعددة اللغات. إن كان عملك بحثياً أو علمياً كثيفاً أو يعتمد على الصور والرسوم، فـ Gemini هو الأنسب والأرخص في آن.
الفائز: Gemini في الاستدلال المجرد ومتعدد الوسائط، وتعادل في علوم الدراسات العليا. نتيجة ARC-AGI-2 هي الأبرز، مع التحفظ بأنه لا يوجد رقم لـ Opus بجانبها.
السعر: Gemini أرخص بكثير، بنجمتين
لمعظم أنواع العمل يكون Gemini 3.1 Pro الخيار الأوفر بفارق واضح. بـ 2 دولار إدخال و12 إخراج للطلبات حتى 200 ألف توكن، يعمل بنحو 40% من تكلفة إدخال Opus 4.8 وأقل من نصف تكلفة الإخراج. ويبقي تسعير الدفعات الفجوة قائمة: يحاسب Gemini على 1 دولار إدخال و6 إخراج في وضع الدفعات (ثم 2 / 9 فوق 200 ألف)، بينما دفعات Opus بـ 2.5 / 12.5. على نطاق واسع، يتراكم هذا الفارق إلى بند تكلفة حقيقي.
النجمتان هما حيث يستعيد Opus بعض القيمة. أولاً، يرتفع سعر Gemini فوق 200 ألف توكن إدخال — 4 دولار إدخال و18 إخراج — فمهام السياق الطويل جداً تضيّق الفجوة كثيراً. ثانياً، يحدّ Gemini الإخراج بـ 64 ألف توكن ويحتسب توكنز التفكير ضمن هذا السقف، بينما يمنحك Opus 128 ألف (300 ألف تجريبي). إن كانت مهمتك تنتج إخراجاً منظماً طويلاً أو تعتمد على آثار تفكير ثقيلة، فقد تهم سعة إخراج Opus أكثر من سعر التوكن. ولـ Opus أيضاً أذرع تكلفة خاصة: سعر إصابة الكاش 0.50 دولار لكل مليون، ودفعات بنصف السعر، ووضع سريع اختياري بـ 10 / 50 مقابل سرعة إخراج أعلى بنحو 2.5 مرة.
الفائز: Gemini في السعر الخام، بحسم، حتى تصل إلى منحدر 200 ألف أو تحتاج أكثر من 64 ألف إخراج.
السياق والإخراج: السعة نفسها، سقفان مختلفان
يحمل النموذجان سعة سياق مليون توكن، فلابتلاع قواعد كود كبيرة أو مستندات طويلة أو سجلات محادثة ممتدة هما متعادلان في ما يستطيعان قراءته. الفرق في طريق الخروج. يستطيع Opus 4.8 إنتاج حتى 128 ألف توكن في رد واحد، مع 300 ألف تجريبي، بينما يتوقف Gemini 3.1 Pro عند 64 ألف — ولأن سقف إخراج Gemini يشمل توكنز التفكير، فإن تمريرة استدلال ثقيلة تأكل من المساحة المتبقية للإجابة الفعلية.
عملياً نادراً ما يظهر هذا في الدردشة أو التوليدات القصيرة، حيث لا يقترب أي من النموذجين من السقف. لكنه يظهر في المهام التي تنتج نصاً كثيراً دفعة واحدة: مسودة مستند كاملة، إعادة هيكلة كبيرة تُعاد كـ diff واحد، استخراج منظم شامل. إن كان هذا نمطك، فسعة إخراج Opus أفضلية ملموسة لن تكشفها مقارنة السعر وحدها.
للإطار الأوسع حول كيفية وقوف هذين النموذجين الرائدين أمام بقية الميدان، تغطي مقارنة Gemini 3.1 Pro مقابل GPT-5.5 محور الاستدلال مقابل أعمال المعرفة، وتتعمق مراجعة Opus 4.8 في أين يستحق نموذج Anthropic المتقدم ثمنه.
أيهما لأي عمل
إن كنت تطلق كوداً أو تبني وكلاء، فاجعل Opus 4.8 الافتراضي. تقدّم SWE-bench واسع، ونتائج العمل الوكيلي والتحكم بالحاسوب أعلى، ولا يوجد رقم لـ Gemini يناقض الصورة. دقة البرمجة هي تحديداً ما تشتريه فجوة سعر 5/25.
إن كنت تشغّل استدلالاً أو بحثاً أو عملاً متعدد الوسائط بأحجام كبيرة وسعر التوكن يقود القرار، فالاختيار Gemini 3.1 Pro. هو أرخص بكثير، ويتعادل أو يكسب في بنشماركات العلوم والاستدلال، ويتقدم في متعدد الوسائط — فقط أبقِ منحدر سعر 200 ألف وسقف إخراج 64 ألف في حسبانك.
إن استطعت تشغيل الاثنين، فالتقسيم النظيف هو Opus لطبقة البرمجة والوكلاء، وGemini لطبقة الاستدلال والتحليل عالية الحجم. وتذكّر أن Gemini لا يزال معاينة: العمل الإنتاجي المعتمد على ثبات التسعير يميل إلى Opus حتى يتخرّج Gemini إلى التوفر العام.