تصنيف نماذج الذكاء الاصطناعي
٢١ نموذجًا عبر الطبقات الحدّية والوسطى ومفتوحة المصدر، مرتّبة بتقييم benchr — توليفة تحريرية بين القدرة والسعر، لا درجة مختبر مستقلة. افرز أي عمود، فلتر حسب النوع أو الرخصة، واضغط اسم أي نموذج لقراءة مراجعته بالعربي.
| # | النموذج | تقييم benchr | SWE-bench % | إدخال $/مليون | إخراج $/مليون | السياق | توكن/ث | الإصدار |
|---|---|---|---|---|---|---|---|---|
| جارٍ تحميل النماذج… | ||||||||
كيف يعمل تقييم benchr
تقييم benchr رقم واحد يخبرك كيف يوازن النموذج بين ما يستطيع فعله وما يكلّفه. ليس استفتاءً ولا متوسط مراجعات غامضة، ولم يدفع أي مزوّد مقابل موضعه. نصف القدرة قراءة تحريرية من benchr، فعامل التقييم كرأي معروضة حسبته، لا كقياس مختبري.
درجة القدرة (وزن 65%)
مشتقّة من تقديرات قدرة تحريرية على مقياس 0–10، يمكنك فحصها في models.json. مبنية من نتائج البنشمارك والسجل العام، لا من مواد تسويقية.
درجة السعر (وزن 35%)
مبنية على السعر المخلوط — متوسط تكلفة الإدخال والإخراج لكل مليون توكن. النماذج المجانية ومفتوحة المصدر تأخذ 100. المقياس من 0.50 دولار (الدرجة الكاملة) إلى 30 دولارًا (صفر) لكل مليون توكن مخلوط.
الدرجة النهائية
المعادلة تعمل في models.ar.js فتقرأها وتتحقق منها بنفسك. تنتج قيمة 0–100 معروضة على مقياس 0–10. مدخلات القدرة تقديرات تحريرية من benchr؛ للأرقام الرسمية المحقّقة راجع model-figures.json.
أسئلة متكررة
ما هو تقييم benchr؟
توليفة شفافة من القدرة (65%) وكفاءة السعر (35%). الأعلى يعني قدرة أكبر مقابل كل دولار. المعادلة في جافاسكربت مفتوح تقرأه في models.ar.js.
أي نموذج هو الأفضل في 2026؟
يعتمد على ميزانيتك ومهمتك. لأقصى قدرة: Claude Opus 4.8. لأفضل قدرة مقابل الدولار: DeepSeek V4-Pro أو Gemini 3.5 Flash. للاستضافة الذاتية المجانية: Llama 4 Maverick أو Qwen 3.6.
هل التصنيفات مدفوعة؟
لا. تُحسب بالكامل من البيانات في models.json، ولم يدفع أي مزوّد مقابل موضعه. راجع المعايير التحريرية.
لماذا تُوصَف درجات البنشمارك بأنها «تقديرات تحريرية»؟
كثير من أرقام البنشمارك غير قابلة للمقارنة عبر المزوّدين — مجموعات الاختبار تختلف والظروف تختلف وبعضها مُبلَّغ ذاتيًا. للأرقام الرسمية المحقّقة راجع model-figures.json.