تصنيف · الاستدلال · محدّث 23 يوليو 2026

تصنيف نماذج الذكاء الاصطناعي للاستدلال

النماذج مرتّبة حسب GPQA Diamond، وهو بنشمارك من 198 سؤالاً علمياً بمستوى الدراسات العليا. الدرجة الأعلى أفضل، لكن النتائج العليا متقاربة فوق 90%.

البيانات من models.json بيانات المزوّد والتقديرات التحريرية موسومة على نحو منفصل

الترتيب بحسب GPQA Diamond المنشور من المزوّدين. تُوسم تقديرات SWE-bench التحريرية داخل خلاياها.
المرتبة	النموذج	المزوّد	GPQA Diamond منشور من المزوّد	SWE-bench منشور من المزوّد ما لم يُوسم كتقدير	الإدخال $/1M بطاقة سعر المزوّد
#1	Gemini 3.1 Pro	Google	94.3%	80.6%	$2.00
#2	Claude Opus 4.7	Anthropic	94.2%	87.6%	$5.00
#3	Claude Opus 4.8	Anthropic	93.6%	88.6%	$5.00
#4	Kimi K2.6	Moonshot AI	90.5%	80.2%	$0.950
#5	DeepSeek V4-Pro	DeepSeek	90.1%	80.6%	$0.435
#6	Claude Sonnet 4.6	Anthropic	89.9%	79.6%	$3.00
#7	DeepSeek V4-Flash	DeepSeek	88.1%	79.0%	$0.140
#8	Qwen3.6-27B	Alibaba	87.8%	77.2%	مجاني
#9	Llama 4 Maverick	Meta	69.8%	66.0% تقدير تحريري من benchr	مجاني
#10	Llama 4 Scout	Meta	57.2%	56.0% تقدير تحريري من benchr	مجاني
#11	Phi-4	Microsoft	56.1%	30.0% تقدير تحريري من benchr	مجاني
#12	Claude Haiku 4.5	Anthropic	—	73.3%	$1.00
#13	GPT-5.5	OpenAI	—	84.0% تقدير تحريري من benchr	$5.00
#14	GPT-5	OpenAI	—	74.9%	$1.25
#15	GPT-5 Mini	OpenAI	—	48.0% تقدير تحريري من benchr	$0.250
#16	Gemini 3.5 Flash	Google	—	80.6% تقدير تحريري من benchr	$1.50
#17	Grok 4.3	xAI	—	68.0% تقدير تحريري من benchr	$1.25
#18	Mistral Large 3	Mistral	—	62.0% تقدير تحريري من benchr	$0.500
#19	Mistral Medium 3.5	Mistral	—	77.6% تقدير تحريري من benchr	$1.50

عتبة الـ 90%

تتجاوز خمسة نماذج في لقطة منتصف 2026 حاجز 90%: Gemini 3.1 Pro، وClaude Opus 4.7، وClaude Opus 4.8، وKimi K2.6، وDeepSeek V4-Pro. ويأتي Claude Sonnet 4.6 عند 89.9%.

عندما تتقارب النتائج بهذا الشكل، تقل فائدة الفارق الصغير في ترتيب النماذج. السؤال العملي هو: أي نموذج يجتاز معيارك المحلي، وما تكلفته وكمونه ومعدل فشله على المهمة نفسها؟

ماذا يقيس GPQA؟

يختبر GPQA Diamond أسئلة علمية صعبة ومتعددة الخطوات في الأحياء والكيمياء والفيزياء. قد تكون الدرجة إشارة مفيدة عند بناء قائمة قصيرة لمهام علمية أو تقنية، لكنها لا تقيس جودة الاستشهادات أو حداثة المعرفة أو أداء النموذج على بياناتك.

يقل ارتباط البنشمارك بالمهام الإبداعية أو الحوارية البسيطة. وفي المجالات الطبية أو المالية أو القانونية، لا تكفي درجة GPQA لاتخاذ قرار نشر؛ يلزم تقييم متخصص، ومصادر قابلة للمراجعة، وسياسة واضحة للمراجعة البشرية.

المنهجية

يستخدم الترتيب درجات GPQA Diamond المنشورة من المزوّدين فقط؛ وحين لا يوجد رقم منشور يعرض الجدول —. وتحافظ الصفحة على مجموعة المقارنة المنسّقة المدرجة في الجدول بدل اعتبار كل سجل في models.json جزءًا من هذه اللقطة. وتأتي أسعار الإدخال من بطاقات أسعار المزوّدين. أمّا خلايا SWE-bench فهي منشورة من المزوّد ما لم تُوسم صراحةً بعبارة تقدير تحريري من benchr؛ وهذه التقديرات أدوات قرار وليست قياسات مختبرية. راجع حقل benchmarks_estimated لكل سجل في models.json. يمكن انتقاء البنشماركات بعناية، لذلك قيّم على توزيع مهمتك الفعلية قبل اتخاذ قرار بنية تحتية من المرتبة وحدها.

استخدام العتبة في المنتجات الفعلية

لا تحتاج معظم فرق الإنتاج إلى أعلى درجة مطلقة، بل إلى أقل نموذج تكلفة يجتاز معيار المهمة. قد يحتاج مساعد بحثي يراجع أوراقاً تقنية إلى أحد النماذج ذات النتائج العليا، بينما قد ينجح نموذج أصغر في التصنيف أو توجيه الطلبات.

شغّل اختبار العتبة الخاص بك بتجميع حالات الفشل: إجابة نهائية خاطئة، أو قيد مفقود، أو استشهاد ملفّق، أو سلسلة استدلال ناقصة. إذا فشل نموذجان بالطريقة نفسها على حملك، فاختر الأرخص أو الأسرع. وإذا تجنّب النموذج الأعلى درجة نمط فشل يخلق خطراً قانونياً أو طبياً أو مالياً أو هندسياً، فقد تكون العلاوة مبرَّرة.

تكلفة الفشل تهمّ أكثر من المرتبة

بنشماركات الاستدلال أكثر فائدة حين تكون تكلفة الإجابة الخاطئة عالية. إذا كانت المهمة منخفضة الخطورة وسهلة التحقق، فقد يكون نموذج أدنى مرتبةً هو الخيار الصحيح. وإذا كانت المهمة تتضمن مراجعة خبير، أو تعرضاً تنظيمياً، أو إجراءات لاحقة باهظة، فقد تكون علاوة الاستدلال الأقوى عقلانية حتى حين تبدو فجوة البنشمارك صغيرة.

في التقييم، اطلب افتراضات موجزة ومراجع يمكن فحصها، ثم قارنها بالمصدر. لا تكتفِ بصحة الجواب النهائي؛ راقب أيضاً القيود المفقودة والاستشهادات غير الصحيحة والافتراضات التي تغيّر النتيجة.

احتفظ بمجموعة اختبار محجوزة منفصلة لتقييمات الاستدلال. إذا أُعيد استخدام الأمثلة نفسها في ضبط المطالبات، توقّف الدرجة عن قياس الاستدلال العام وبدأت تقيس التكيّف مع اختبارك. مجموعة صغيرة غير مرئية من الحالات الداخلية الصعبة أنفع غالباً من بنشمارك عام آخر.

للفرق التي تستخدم نماذج الاستدلال في سياقات حساسة، احتفظ بسياسة مراجعة بشرية مرتبطة بالثقة والدليل. التصنيف يحدد المرشحين، لكنه لا يقرر متى يجب تصعيد إجابة. قاعدة التصعيد جزء من المنتج، لا خاصية في النموذج.

أسئلة شائعة

ما هو GPQA Diamond؟

GPQA Diamond مجموعة من 198 سؤال اختيار من متعدد في الأحياء والكيمياء والفيزياء بمستوى الدراسات العليا. كتب الأسئلة خبراء، وصُممت لتكون صعبة على غير المتخصص في المجال الدقيق. تقيس الدرجة أداءً علميًا في هذا الاختبار تحديدًا، ولا تكفي وحدها للحكم على الاستدلال العام أو صحة الاستشهادات.

أي نموذج يحتل المرتبة الأولى على GPQA Diamond في 2026؟

بحسب أرقام GPQA Diamond المنشورة من المزوّدين والمعروضة هنا، يحتل Gemini 3.1 Pro المرتبة الأولى عند 94.3%، يليه Claude Opus 4.7 عند 94.2% ثم Claude Opus 4.8 عند 93.6%. وتتجاوز خمسة نماذج في الجدول 90%. هذا ترتيب على بنشمارك علمي واحد، لا ضمانًا للاستدلال الإجمالي.

هل درجة GPQA العالية تعني أن النموذج جيد في الرياضيات؟

ليس بالضرورة. يتضمن GPQA استدلالًا متعدد الخطوات في العلوم، لكنه ليس اختبار رياضيات خالصًا. إذا كانت الرياضيات هي المهمة، فأضف اختبارات مخصصة مثل MATH-500 أو AIME، ثم اختبر مسائل تمثل مستوى المستخدمين وطريقة الإجابة المطلوبة في منتجك.