1,200 رسالة دعم عبر 18 فئة. صنّفها Phi-4 mini محلياً بدقة 94%، وسجل Claude Sonnet 4.6 عبر API نسبة 96% على المجموعة نفسها: فجوة نقطتين. الجانب المحلي لم يكلف شيئاً. عند هذا الحجم، كان جانب API سيكلف نحو 16 دولاراً يومياً.
مقارنة واحدة لا تثبت حجة النماذج اللغوية الصغيرة. لكن عشرات المقارنات المشابهة التي تتكرر بالطريقة نفسها في الإنتاج كل يوم تفعل. إذا كانت أعباء عملك تتضمن التصنيف أو الاستخراج أو التوجيه، أي شيء بزمن استجابة ضيق وسقف دقة متسامح، فإن Phi-4 mini وGemma 3 يستحقان نظرة دقيقة لا يمنحها لهما نقاش النماذج الرائدة غالباً.
يغطي هذا المقال أفضل النماذج دون 10B معلمة في مطلع 2026، مع مثال عملي وبيانات زمنية. هذه هي النماذج التي تستحق بناء مسار الإنتاج عليها عندما تهيمن التكلفة أو الخصوصية أو زمن الاستجابة على قيودك. عندما يعتمد عبء العمل على استدلال متعدد الخطوات أو معرفة عالمية واسعة، تتوقف عن كونها الخيار الصحيح.
(ملاحظة جانبية قبل حدود الفئة: ما زال Mistral 7B يظهر في الإنتاج لدى شركات تشغل بنية ذاتية الاستضافة. لا يدخل في نطاق هذا المقال لأن طبقة الأوزان المفتوحة الحالية، Phi-4 mini وGemma 2 9B وQwen 3 7B، تقدم جودة أفضل بوضوح على البصمة العتادية نفسها. إذا كنت ما زلت تشغل Mistral 7B والعمل يسير جيداً، فأنت بخير. مسار الترقية موجود عندما تريده.)
ما معنى «صغير» هنا
أي شيء دون 10B معلمة. تطرح Microsoft Phi-4 (مدونة Azure) بحجم 14B وPhi-4 mini بحجم 3.8B، مع بطاقة النموذج المصغر على Hugging Face. أما Google فلديها Gemma 3 بإصداري 9B و27B. وQwen 3 (qwen.ai) لديه متغيرات صغيرة تصل إلى 1.5B. نطاق 4B إلى 9B هو الأنسب. يناسب 16GB من الذاكرة مع تكميم معقول، ويعمل بسرعة كافية على لابتوب حديث ليشعر بالتفاعلية. لجانب العتاد عند تشغيل ذلك بنفسك، راجع تشغيل النماذج على جهازك الخاص.
على مقياس النماذج الرائدة، نموذج 4B مجرد خطأ تقريب. Claude Opus 4.7 أكبر بمئات المرات من حيث عدد المعلمات، وأكبر بمراتب كثيرة من حيث تكلفة التدريب. الهدف هنا هو الكفاءة في نطاق ضيق من المهام، لا اللحاق بالطبقة الرائدة: مهام تكون فيها قدرة النماذج الرائدة زائدة، ويعني فيها الصغير أسرع بكثير، وأرخص بكثير، وأسهل لك في التحكم.
يعرض التسويق للمنتجين Gemma 2 9B على أنه يتفوق على Phi-4 mini في العمل متعدد اللغات. يفوز Gemma فعلاً في هذا المحور في تقارير المجتمع. لكن الفجوة أصغر مما يوحي به التسويق؛ أداء Phi-4 mini في مهام الاستخراج المنظم بالإسبانية والفرنسية قريب بما يكفي ليجعل ميزة الحجم أهم مما يتوقعه التأطير.
ثلاثة أعباء عمل تتفوق فيها النماذج الصغيرة على الرائدة
التصنيف والاستخراج. في أعمال التوجيه والفرز والاستخراج المنظم، تصل النماذج الصغيرة إلى نحو 94% من دقة النماذج الرائدة بعُشر التكلفة. فجوة نقطتين نادراً ما تبرر عشرة أضعاف فاتورة API.
التوجيه والفرز. يقرر النموذج إلى أين يجب أن يذهب الطلب: أي API يُستدعى، وأي نموذج لاحق يُشغّل، وأي قالب يُطبّق. تتألق النماذج الصغيرة هنا لأن المهمة بسيطة، وميزانية الزمن ضيقة، وكلفة الخطأ قابلة للاستدراك. وضع نموذج صغير في خانة الموجّه يتيح لك حفظ النماذج الرائدة للطلبات التي تحتاجها.
الاستدلال على الجهاز أو الخاص. أي شيء لا تستطيع بياناته مغادرة الجهاز، مثل السجلات الصحية أو مستندات الشركة الداخلية أو أي شيء تحكمه قاعدة إقامة صارمة، وكان سقف القدرة مقبولاً. Gemma 3 بحجم 9B يعمل محلياً على لابتوبك أكثر فائدة من نموذج رائد لا يُسمح لفريقك باستخدامه.
أين تخسر النماذج الصغيرة
الاستدلال متعدد الخطوات. اطلب من نموذج 4B أن يربط ثلاث أو أربع خطوات منطقية، وسيقفز معدل الفشل بحدة. يستطيع النموذج تنفيذ كل خطوة منفردة، لكنه يفقد التماسك عبر السلسلة. النماذج الرائدة تحافظ على السلسلة بموثوقية أكبر، وهذا مهم لأي مهمة في بنيتك تتطلب تخطيطاً.
المعرفة العالمية. النماذج الصغيرة تعرف أقل ببساطة. اسأل Phi-4 mini سؤالاً غامضاً عن لوائح ضريبية إقليمية أو تاريخ لغة برمجة متخصصة، وستكون الإجابة سلسة وواثقة وغالباً خاطئة. هنا يرتبط عدد المعلمات بأوضح شكل باتساع المعرفة، ولا يوجد حل ذكي سهل.
استرجاع السياق الطويل. تعلن معظم النماذج الصغيرة عن سعات 128K رمز، لكن جودة الاسترجاع في الطرف العالي من هذه السعة أسوأ بكثير من النماذج الرائدة. في أي عمل في بنيتك يحتاج إلى استدلال عميق فوق مستند طويل، النموذج الصغير هو الأداة الخطأ. مقالة سعة السياق تغطي صورة السياق الطويل بالتفصيل.
نطاق 4B هو طبقة العمل العملية. احتفظ بالنماذج الرائدة للمشكلات التي لا تكفيها هذه الطبقة.
النموذجان الجديران بالاختيار
Phi-4 mini من Microsoft، صدر أواخر 2025، بحجم 3.8B معلمة. أقوى نموذج صغير في الاستدلال المنظم واتباع التعليمات بهذا الحجم. استراتيجية بيانات التدريب لدى Microsoft، وهي بيانات اصطناعية مُرشحة لقيمة تعليمية، تمنحه ميزة ملموسة في المهام التي تبدو مدخلاتها كمسألة كتابية أو مستند أعمال منظم. الترخيص MIT هو الأنظف المتاح.
Phi-4 الأكبر بحجم 14B لا يقع في فئة «الصغير» بدقة. يقف على الحدود، ويستحق الاقتران مع mini إذا كان عبء عملك يمزج مهام بسيطة ومهام استدلال منظم. الترخيص نفسه MIT.
Gemma 2 9B من Google، صدر في أكتوبر 2025. أفضل قدرة خام متعددة اللغات في فئة النماذج الصغيرة، بما في ذلك عربية أفضل بوضوح مما هو متوقع. ترخيص Gemma Terms متساهل بما يكفي للاستخدام التجاري مع قيود معقولة. النسخة المضبوطة للتعليمات تتبع التنسيقات المحددة بموثوقية أكبر من النموذج الأساسي.
| النموذج | المعلمات | الترخيص | الأفضل في |
|---|---|---|---|
| Phi-4 mini | 3.8B | MIT | التصنيف والاستخراج والمهام المنظمة |
| Phi-4 | 14B | MIT | استدلال منظم على حافة فئة «الصغير» |
| Gemma 2 9B | 9B | Gemma Terms | عمل متعدد اللغات موثوق، ومحادثة على الجهاز |
| Qwen 3 7B | 7B | Apache 2.0 | كود ببصمة صغيرة، الصينية |
| Llama 3.1 8B | 8B | Llama 3.1 Community | عام الاستخدام، وألفة المنظومة |
التصنيف
Phi-4 mini البريد وتذاكر الدعمالاستخراج
Phi-4 mini حقول منظمة من النصالتوجيه
Phi-4 mini تحديد أي API يُستدعىالتلخيص
Phi-4 مستندات قصيرة، مرور واحدمتعدد اللغات
Gemma 3 9B، عربي مقبولمساعد كود
Qwen 3 7B برمجة ببصمة صغيرةبريد، تذكرة، مستند، استعلام.
يصنف Phi-4 mini ويقرر المسار.
نحو 90% من الحالات. تكلفة API صفر.
نحو 10% من الحالات. ادفع لما يستحق.
أرقام دقة النماذج الصغيرة خاصة بعبء العمل. في فرز صندوق الوارد مع 18 فئة محددة جيداً، يصل Phi-4 mini إلى 94%. في تحليل مشاعر حرّ على نصوص وسائل التواصل، وهو أقرب إلى فروق دقيقة، رأى المجتمع النموذج نفسه يهبط إلى 78%. رقم 94% سقف لا أرضية.
سيناريو إنتاج ملموس
مثال ملموس يجعل المفاضلة أقل تجريداً. مسار تصنيف صندوق وارد كان يعمل سابقاً عبر Claude Sonnet 4.6 أُعيد بناؤه ليعمل على Phi-4 mini محلياً. يصنف الإعداد الرسائل الواردة إلى 18 فئة أولوية.
أرقام قبل وبعد:
| المقياس | Sonnet عبر API | Phi-4 mini محلي |
|---|---|---|
| التكلفة لكل رسالة | ~$0.004 | ~$0 (كهرباء) |
| زمن من البداية للنهاية | ~800 ms | ~60 ms |
| الدقة مقابل تسميات بشرية | 96% | 94% |
| هل تغادر البيانات الموقع؟ | نعم | لا |
انخفضت الدقة نقطتين. وانخفضت التكلفة عملياً إلى صفر. وانخفض الزمن بأكثر من مرتبة عشرية. وتغيرت قصة إقامة البيانات من «تغادر الشبكة» إلى «تبقى في مكانها».
لهذا العبء، المفاضلة واضحة.
في نظام توجيه فرص المبيعات حيث يكون للتصنيف الخاطئ أثر مالي، تميل المفاضلة إلى الاتجاه الآخر ويبقى API النموذج الرائد. تفتح النماذج الصغيرة نقطة تشغيل مختلفة على منحنى التكلفة والدقة. السؤال الصحيح ليس أي نموذج أفضل، بل أي نقطة تشغيل تناسب عبء العمل. للصورة الأوسع للتسعير عبر الأعباء، راجع السعر حسب حالة الاستخدام.
تبقى فجوة واحدة. لم يُضبط أي من هذه النماذج الصغيرة دقيقاً على بيانات خاصة بعبء العمل، وهذا غالباً سيغلق جزءاً من فجوة الدقة في مهمة بريد الدعم، وربما يكفي لاستعادة هبوط النقطتين. لم تُختبر المتغيرات متعددة الوسائط هنا أيضاً. كلاهما سؤال مفتوح للمتابعة.
لن تكون النماذج اللغوية الصغيرة مستقبل القدرة الرائدة. لكنها ستكون مستقبل بنية الذكاء الاصطناعي الإنتاجية.
أعباء العمل التي تفوز فيها، التصنيف والاستخراج والتوجيه والاستدلال على الجهاز، هي بالضبط ما يشكل معظم إنفاق API في الشركات الحقيقية. شركة تشغل ملايين نداءات الاستدلال يومياً عبر نموذج رائد بينما يمكن خدمة 90% منها بنموذج 4B تترك المال على الطاولة.
لأي مؤسسة ذات حجم جاد، المعمارية الصحيحة ذات طبقتين: نموذج رائد للطلبات التي تبرره، ونموذج صغير، مضبوط دقيقاً عند الفائدة، أمام كل طبقة أخرى. عندما يصبح الحجم حقيقياً، تصبح ديناميكيات التكلفة ومكاسب الزمن أكبر من أن تُتجاهل.
للعمل المنظم بالإنجليزية فقط، اختر Phi-4 mini. وللعمل متعدد اللغات، اختر Gemma 2 9B. كلاهما جيد بما يكفي ليصبح السؤال الحقيقي أين تستخدمه في البنية. تحتفظ النماذج الرائدة بالهيبة، وتنجز النماذج الصغيرة العمل.