تصنيف · الاستدلال · يونيو 2026

تصنيف نماذج الذكاء الاصطناعي للاستدلال

النماذج مرتّبة حسب GPQA Diamond — 198 سؤالاً علمياً بمستوى الدراسات العليا يجيب عنها معظم خبراء المجال خطأً. الأعلى أفضل. تقارب عنقود الطليعة فوق 90%.

البيانات من models.json مبني على البيانات ومحايد
المرتبة النموذج المزوّد GPQA Diamond SWE-bench الإدخال $/1M
#1Gemini 3.1 ProGoogle94.3%80.6%$2.00
#2Claude Opus 4.7Anthropic94.2%87.6%$5.00
#3Claude Opus 4.8Anthropic93.6%88.6%$5.00
#4Kimi K2.6Moonshot AI90.5%80.2%$0.950
#5DeepSeek V4-ProDeepSeek90.1%80.6%$0.435
#6Claude Sonnet 4.6Anthropic89.9%79.6%$3.00
#7DeepSeek V4-FlashDeepSeek88.1%79.0%$0.140
#8Qwen3.6-27BAlibaba87.8%77.2%مجاني
#9Llama 4 MaverickMeta69.8%66.0%مجاني
#10Llama 4 ScoutMeta57.2%56.0%مجاني
#11Phi-4Microsoft56.1%30.0%مجاني
#12Claude Haiku 4.5Anthropic73.3%$1.00
#13GPT-5.5OpenAI84.0%$5.00
#14GPT-5OpenAI74.9%$1.25
#15GPT-5 MiniOpenAI48.0%$0.250
#16Gemini 3.5 FlashGoogle80.6%$1.50
#17Grok 4.3xAI68.0%$1.25
#18Mistral Large 3Mistral62.0%$0.500
#19Mistral Medium 3.5Mistral77.6%$1.50

عتبة الـ 90%

في أوائل 2025، كان بلوغ 85% على GPQA Diamond يضع النموذج في الطليعة. وبحلول منتصف 2026، تتجاوز أربعة نماذج حاجز 90%: Claude Opus 4.7، وClaude Opus 4.8، وGemini 3.1 Pro، وKimi K2.6. ويقع DeepSeek V4-Pro وClaude Sonnet 4.6 على بُعد نقطة أو نقطتين تحتها. تحركت الطليعة، وما كان استثنائياً قبل عام صار اليوم أداءً متوسطاً.

التقارب فوق 90% يعني أن GPQA Diamond يفقد قدرته على التمييز بين النماذج العليا. السؤال العملي لمعظم الفرق ليس أي نموذج يحقق 93.6% مقابل 94.2% — بل هل نموذج فوق 89% كافٍ لحالة استخدامك، وأيها أرخص فوق تلك العتبة.

ماذا يتنبأ به GPQA فعلاً

تختبر أسئلة GPQA Diamond هل استوعب النموذج المبادئ وراء الاستدلال العلمي، لا هل حفظ الإجابات. الدرجة العالية تتنبأ بـ: سلاسل منطقية موثوقة متعددة الخطوات، ومعالجة دقيقة للحالات الحدّية الخاصة بالمجال، ومقاومة لمسارات الاستدلال المعقولة لكن الخاطئة. للمنتجات التي تتضمن تحليلاً علمياً أو تقنياً — مراجعة الأدبيات الطبية، والنمذجة المالية، وتلخيص الأبحاث — يبقى GPQA أكثر البنشماركات العامة قدرة على التنبؤ.

للمهام الإبداعية أو الحوارية البحتة، يكون البنشمارك أقل صلة. روبوت دعم العملاء لا يحتاج درجة GPQA بنسبة 90%. أما أداة دعم القرار السريري فتحتاجها على الأرجح.

المنهجية

درجات GPQA Diamond من إعلانات المزوّدين الرسمية حيث نُشرت. وحين لا يوجد رقم رسمي، يعرض الجدول . يمكن انتقاء البنشماركات بعناية؛ قيّم دائماً على توزيع مهمتك الفعلية قبل اتخاذ قرارات البنية التحتية بناءً على موضع التصنيف وحده.

استخدام العتبة في المنتجات الفعلية

لمعظم فرق الإنتاج، الحد المفيد ليس درجة المركز الأول المطلقة. بل أرخص نموذج يتجاوز عتبة الاستدلال التي تتطلبها مهمتك. مساعد بحثي يراجع أوراقاً تقنية قد يحتاج نموذجاً قرب عنقود الطليعة؛ أما مصنّف توجيه أو مساعد دعم فلا يستفيد عادةً من دفع ثمن درجة GPQA بنسبة 90%+.

شغّل اختبار العتبة الخاص بك بتجميع حالات الفشل: إجابة نهائية خاطئة، أو قيد مفقود، أو استشهاد ملفّق، أو سلسلة استدلال ناقصة. إذا فشل نموذجان بالطريقة نفسها على حملك، فاختر الأرخص أو الأسرع. وإذا تجنّب النموذج الأعلى درجة نمط فشل يخلق خطراً قانونياً أو طبياً أو مالياً أو هندسياً، فقد تكون العلاوة مبرَّرة.

تكلفة الفشل تهمّ أكثر من المرتبة

بنشماركات الاستدلال أكثر فائدة حين تكون تكلفة الإجابة الخاطئة عالية. إذا كانت المهمة منخفضة الخطورة وسهلة التحقق، فقد يكون نموذج أدنى مرتبةً هو الخيار الصحيح. وإذا كانت المهمة تتضمن مراجعة خبير، أو تعرضاً تنظيمياً، أو إجراءات لاحقة باهظة، فقد تكون علاوة الاستدلال الأقوى عقلانية حتى حين تبدو فجوة البنشمارك صغيرة.

للتقييم، اطلب من النموذج أن يُظهر افتراضاته الوسيطة وقارنها بالمصدر. نمط الفشل الذي تريد التقاطه ليس فقط إجابة نهائية خاطئة؛ بل سلسلة استدلال معقولة مبنية على مقدمة خاطئة.

احتفظ بمجموعة اختبار محجوزة منفصلة لتقييمات الاستدلال. إذا أُعيد استخدام الأمثلة نفسها في ضبط المطالبات، توقّف الدرجة عن قياس الاستدلال العام وبدأت تقيس التكيّف مع اختبارك. مجموعة صغيرة غير مرئية من الحالات الداخلية الصعبة أنفع غالباً من بنشمارك عام آخر.

للفرق التي تستخدم نماذج الاستدلال في سياقات حساسة، احتفظ بسياسة مراجعة بشرية مرتبطة بالثقة والدليل. التصنيف يحدد المرشحين، لكنه لا يقرر متى يجب تصعيد إجابة. قاعدة التصعيد جزء من المنتج، لا خاصية في النموذج.

أسئلة شائعة

ما هو GPQA Diamond؟

GPQA Diamond مجموعة من 198 سؤالاً متعدد الخيارات في الأحياء والكيمياء والفيزياء بمستوى الدراسات العليا، كتبها خبراء في المجال وصُمّمت لتكون صعبة حتى على الخبراء من خارج التخصص الدقيق. يحقق حاملو الدكتوراه غير المتخصصين نحو 34%. والدرجة فوق 85% تشير إلى استدلال بمستوى الطليعة. وهو يختبر عمق الاستدلال والمعرفة بالمجال، لا مجرد مطابقة الأنماط السطحية.

أي نموذج ذكاء اصطناعي يملك أفضل استدلال في 2026؟

Claude Opus 4.7 يتصدّر بنسبة 94.2% على GPQA Diamond، يليه عن قرب Claude Opus 4.8 بنسبة 93.6% وGemini 3.1 Pro بنسبة 94.3%. صار عنقود الطليعة الآن فوق 90%، ما يعني أن الفرق بين النماذج العليا صغير — والقرار بينها عادةً يعود إلى السعر وقدرة البرمجة، لا الاستدلال الصرف.

هل درجة GPQA العالية تعني أن النموذج جيد في الرياضيات؟

يرتبط GPQA Diamond بقدرة الاستدلال الصعب، بما يشمل الاستدلال الرياضي. لكنه بنشمارك في مجال العلوم، لا اختبار رياضيات صرف. لحل المسائل الرياضية تحديداً، تكون بنشماركات مثل MATH-500 وAIME أكثر استهدافاً. والأداء العالي في GPQA يشير عموماً إلى استدلال قوي متعدد الخطوات، وهو ما يميل إلى الانتقال إلى الرياضيات.