تصنيف · قدرات البرمجة · يونيو 2026

تصنيف نماذج الذكاء الاصطناعي للبرمجة

كل نموذج في فهرس benchr مرتّب حسب درجة SWE-bench Verified — البنشمارك المعياري للإصلاح المستقل للأكواد على مشكلات GitHub حقيقية. الأعلى أفضل. الأرقام الرسمية حيث نُشرت؛ والتقديرات التحريرية فيما عدا ذلك.

البيانات من models.json مبني على البيانات ومحايد
المرتبة النموذج المزوّد SWE-bench Verified الإدخال $/1M الجودة لكل دولار
#1Claude Opus 4.8Anthropic88.6%$5.0017.7/$
#2Claude Opus 4.7Anthropic87.6%$5.0017.5/$
#3GPT-5.5OpenAI84.0%$5.0016.8/$
#4Gemini 3.5 FlashGoogle80.6%$1.5053.7/$
#5Gemini 3.1 ProGoogle80.6%$2.0040.3/$
#6DeepSeek V4-ProDeepSeek80.6%$0.435185.3/$
#7Kimi K2.6Moonshot AI80.2%$0.95084.4/$
#8Claude Sonnet 4.6Anthropic79.6%$3.0026.5/$
#9DeepSeek V4-FlashDeepSeek79.0%$0.140564.3/$
#10Mistral Medium 3.5Mistral77.6%$1.5051.7/$
#11Qwen3.6-27BAlibaba77.2%مجاني∞ (مجاني)
#12GPT-5OpenAI74.9%$1.2559.9/$
#13Claude Haiku 4.5Anthropic73.3%$1.0073.3/$
#14Grok 4.3xAI68.0%$1.2554.4/$
#15Llama 4 MaverickMeta66.0%مجاني∞ (مجاني)
#16Mistral Large 3Mistral62.0%$0.500124.0/$
#17Llama 4 ScoutMeta56.0%مجاني∞ (مجاني)
#18GPT-5 MiniOpenAI48.0%$0.250192.0/$
#19Phi-4Microsoft30.0%مجاني∞ (مجاني)

ما الذي يقيسه SWE-bench Verified فعلاً

يضع SWE-bench أمام النموذج مشكلة GitHub وقاعدة أكواد المستودع. على النموذج أن يحدد الخطأ، ويكتب إصلاحاً، ويجعل ذلك الإصلاح يجتاز مجموعة اختبارات المستودع — تلقائياً، دون توجيه بشري. تزيل المجموعة الفرعية «Verified» المشكلات الغامضة التي يمكن إصلاحها بطرق متعددة، مما يجعل الدرجات أكثر موثوقية.

ما لا يقيسه: السرعة، أو زمن الاستجابة، أو المهام غير البرمجية، أو سلوك النموذج حين يشرف عليه مطور بنشاط. نموذج يحقق 75% على SWE-bench قد يكون ممتازاً للبرمجة الثنائية حتى لو كان نموذج 88% أفضل لخطوط الإنتاج المستقلة بالكامل. الدرجة أكثر دلالة حين يكون البشر خارج الحلقة.

قراءة التصنيف: بُعد التكلفة

يتصدّر Claude Opus 4.8 على SWE-bench الخام بنسبة 88.6%، لكنه يكلف $5/1M إدخال. ويحقق DeepSeek V4-Pro نسبة 80.6% بسعر $0.435/1M. ويحقق Claude Haiku 4.5 نسبة 73.3% بسعر $1/1M. يعرض الجدول أعلاه عمود «الجودة لكل دولار» — درجة SWE-bench مقسومة على سعر الإدخال — لإبراز النماذج التي تكون فيها قيمة العرض أقوى. ويتصدّر DeepSeek V4-Pro وDeepSeek V4-Flash هذا المقياس المشتق باستمرار.

للإصلاح المستقل للأكواد على نطاق واسع، السؤال المهم ليس فقط «من يحقق أعلى درجة» بل «عند أي معدل فشل تكلّف فجوة الجودة أكثر من فجوة السعر». راجع مقارنة GPT-5 مقابل Opus 4.8 لذلك التحليل.

المنهجية

درجات SWE-bench Verified من تقديمات المزوّدين الرسمية حيث نُشرت. وحين لا يقدّم مزوّد نتائجه، يستخدم benchr تقديراً تحريرياً مبنياً على بنشماركات مرتبطة وتقييمات داخلية مُفصح عنها. والتقديرات موسومة بنجمة في الجدول. أسعار الإدخال من وثائق API الرسمية حتى 3 يونيو 2026.

كيف تتحقق من نموذج برمجة قبل التبديل

استخدم SWE-bench كمرشّح، لا كقرار نهائي. نموذج يصلح مشكلات مستودعات Python جيداً قد يتعثر مع monorepo بلغة TypeScript لديك، أو مع منظومة اختباراتك، أو مع شجرة اعتمادياتك، أو مع قيود الأسلوب الداخلية لديك. قبل الترحيل، شغّل النموذج المرشّح على أخطاء حديثة سبق لفريقك إصلاحها وتحقق هل كان إصلاحه سيجتاز المراجعة.

أقوى مقياس إنتاجي هو تكلفة الإصلاح المقبول: إنفاق التوكنز زائد المحاولات الفاشلة زائد وقت مراجعة المهندس. إذا احتاج نموذج أرخص إلى ضعف عدد المحاولات، فقد يكون النموذج الأعلى درجة أقل تكلفة عملياً. وإذا كان كل إصلاح يراجعه مطور على أي حال، فقد يكون النموذج المتوسط هو الافتراضي الأفضل حتى حين يتصدّر Opus البنشمارك.

لماذا تهم ملاءمة المستودع

تتفاوت نماذج البرمجة حسب اللغة، وحجم المستودع، وجودة الاختبارات، ومقدار السياق المحيط الذي تحتاجه. قد تخفي درجة البنشمارك تلك الفروق. قبل نقل الحركة، اختر عينة من مشكلات مستودعاتك الخاصة: خطأ بسيط واحد، ومشكلة اعتمادية واحدة، وإعادة هيكلة واحدة، واختبار فاشل واحد بسجلات مضلِّلة، ومشكلة واحدة تتطلب قراءة الوثائق. هذه المجموعة الصغيرة تكشف أنماط الفشل أسرع من تصنيف عام.

تحقق أيضاً من سلوك الأدوات. بعض النماذج تكتب إصلاحات ممتازة لكنها تتعثر مع أوامر الطرفية، أو التنقل بين الملفات، أو رسائل الـ commit الموجزة. إذا كان وكيل البرمجة لديك يعتمد على تلك السلوكيات، فقيّم سير العمل الكامل بدل الإصلاح النهائي فقط.

نقطة عملية أخيرة: احتفظ بمجموعة انحدار صغيرة بعد اختيار نموذج. قد تغيّر نماذج البرمجة سلوكها حين يُحدّث المزوّدون التوجيه، أو إعدادات الاستدلال، أو أسماء النماذج البديلة. إعادة تشغيل شهرية على نفس المشكلات ستخبرك هل ما زال النموذج يستحق مكانه في خط إنتاجك.

أسئلة شائعة

ما هو SWE-bench Verified؟

SWE-bench Verified بنشمارك يضع أمام النماذج مشكلات GitHub حقيقية من مستودعات Python مفتوحة المصدر. على النموذج أن يحدد المشكلة، ويكتب الإصلاح، ويجتاز مجموعة الاختبارات القائمة دون سقالات أو تلميحات. تستبعد المجموعة الفرعية «Verified» المشكلات الغامضة أو ناقصة التحديد لتصنيف أنظف. وهو يُعدّ على نطاق واسع أفضل إشارة عامة على قدرة البرمجة المستقلة.

ما أفضل نموذج للبرمجة في 2026؟

Claude Opus 4.8 يتصدّر بنسبة 88.6% على SWE-bench Verified. أما للفرق ذات قيود التكلفة، فيحقق DeepSeek V4-Pro نسبة 80.6% بجزء بسيط من السعر. الاختيار بينهما هو إلى حد كبير قرار يوازن بين التكلفة وأقصى جودة.

لماذا تُوسَم بعض درجات SWE-bench كتقديرات؟

لا يقدّم كل المزوّدين نتائجهم إلى تصنيف SWE-bench الرسمي. وحين لا ينشر مزوّد نتيجة SWE-bench رسمية، يستخدم benchr تقديراً تحريرياً مبنياً على بيانات البنشمارك المتاحة والدرجات المرتبطة. والأرقام المقدّرة موسومة بذلك.