النماذج اللغوية الصغيرة في الاستخدام العملي

Phi-4 mini وGemma 3 وأعباء العمل التي تفوز فيها النماذج دون 10B معلمة بهدوء.

· عرض سجل التغييرات

النطاق الأنسب 4–9B نطاق المعلمات المختبر
الذاكرة المطلوبة 16GB لتكميم 4-bit
سقف الدقة 96% مقابل تسميات بشرية، تصنيف
تكلفة المهمة $0.01 كهرباء فقط، استضافة ذاتية

1,200 رسالة دعم عبر 18 فئة. صنّفها Phi-4 mini محلياً بدقة 94%، وسجل Claude Sonnet 4.6 عبر API نسبة 96% على المجموعة نفسها: فجوة نقطتين. الجانب المحلي لم يكلف شيئاً. عند هذا الحجم، كان جانب API سيكلف نحو 16 دولاراً يومياً.

مقارنة واحدة لا تثبت حجة النماذج اللغوية الصغيرة. لكن عشرات المقارنات المشابهة التي تتكرر بالطريقة نفسها في الإنتاج كل يوم تفعل. إذا كانت أعباء عملك تتضمن التصنيف أو الاستخراج أو التوجيه، أي شيء بزمن استجابة ضيق وسقف دقة متسامح، فإن Phi-4 mini وGemma 3 يستحقان نظرة دقيقة لا يمنحها لهما نقاش النماذج الرائدة غالباً.

يغطي هذا المقال أفضل النماذج دون 10B معلمة في مطلع 2026، مع مثال عملي وبيانات زمنية. هذه هي النماذج التي تستحق بناء مسار الإنتاج عليها عندما تهيمن التكلفة أو الخصوصية أو زمن الاستجابة على قيودك. عندما يعتمد عبء العمل على استدلال متعدد الخطوات أو معرفة عالمية واسعة، تتوقف عن كونها الخيار الصحيح.

(ملاحظة جانبية قبل حدود الفئة: ما زال Mistral 7B يظهر في الإنتاج لدى شركات تشغل بنية ذاتية الاستضافة. لا يدخل في نطاق هذا المقال لأن طبقة الأوزان المفتوحة الحالية، Phi-4 mini وGemma 2 9B وQwen 3 7B، تقدم جودة أفضل بوضوح على البصمة العتادية نفسها. إذا كنت ما زلت تشغل Mistral 7B والعمل يسير جيداً، فأنت بخير. مسار الترقية موجود عندما تريده.)

ما معنى «صغير» هنا

أي شيء دون 10B معلمة. تطرح Microsoft Phi-4 (مدونة Azure) بحجم 14B وPhi-4 mini بحجم 3.8B، مع بطاقة النموذج المصغر على Hugging Face. أما Google فلديها Gemma 3 بإصداري 9B و27B. وQwen 3 (qwen.ai) لديه متغيرات صغيرة تصل إلى 1.5B. نطاق 4B إلى 9B هو الأنسب. يناسب 16GB من الذاكرة مع تكميم معقول، ويعمل بسرعة كافية على لابتوب حديث ليشعر بالتفاعلية. لجانب العتاد عند تشغيل ذلك بنفسك، راجع تشغيل النماذج على جهازك الخاص.

على مقياس النماذج الرائدة، نموذج 4B مجرد خطأ تقريب. Claude Opus 4.7 أكبر بمئات المرات من حيث عدد المعلمات، وأكبر بمراتب كثيرة من حيث تكلفة التدريب. الهدف هنا هو الكفاءة في نطاق ضيق من المهام، لا اللحاق بالطبقة الرائدة: مهام تكون فيها قدرة النماذج الرائدة زائدة، ويعني فيها الصغير أسرع بكثير، وأرخص بكثير، وأسهل لك في التحكم.

يعرض التسويق للمنتجين Gemma 2 9B على أنه يتفوق على Phi-4 mini في العمل متعدد اللغات. يفوز Gemma فعلاً في هذا المحور في تقارير المجتمع. لكن الفجوة أصغر مما يوحي به التسويق؛ أداء Phi-4 mini في مهام الاستخراج المنظم بالإسبانية والفرنسية قريب بما يكفي ليجعل ميزة الحجم أهم مما يتوقعه التأطير.

ثلاثة أعباء عمل تتفوق فيها النماذج الصغيرة على الرائدة

التصنيف والاستخراج. في أعمال التوجيه والفرز والاستخراج المنظم، تصل النماذج الصغيرة إلى نحو 94% من دقة النماذج الرائدة بعُشر التكلفة. فجوة نقطتين نادراً ما تبرر عشرة أضعاف فاتورة API.

التوجيه والفرز. يقرر النموذج إلى أين يجب أن يذهب الطلب: أي API يُستدعى، وأي نموذج لاحق يُشغّل، وأي قالب يُطبّق. تتألق النماذج الصغيرة هنا لأن المهمة بسيطة، وميزانية الزمن ضيقة، وكلفة الخطأ قابلة للاستدراك. وضع نموذج صغير في خانة الموجّه يتيح لك حفظ النماذج الرائدة للطلبات التي تحتاجها.

الاستدلال على الجهاز أو الخاص. أي شيء لا تستطيع بياناته مغادرة الجهاز، مثل السجلات الصحية أو مستندات الشركة الداخلية أو أي شيء تحكمه قاعدة إقامة صارمة، وكان سقف القدرة مقبولاً. Gemma 3 بحجم 9B يعمل محلياً على لابتوبك أكثر فائدة من نموذج رائد لا يُسمح لفريقك باستخدامه.

النماذج الصغيرة، دقة تصنيف البريد الإلكتروني

نسبة الاتفاق مع تسميات بشرية، مجموعة اختبار من 1,200 رسالة.

Phi-4 mini (3.8B)
94%
Phi-4 (14B)
95%
Gemma 2 9B
93%
Qwen 3 7B
92%
Claude Sonnet (API)
96%

أين تخسر النماذج الصغيرة

الاستدلال متعدد الخطوات. اطلب من نموذج 4B أن يربط ثلاث أو أربع خطوات منطقية، وسيقفز معدل الفشل بحدة. يستطيع النموذج تنفيذ كل خطوة منفردة، لكنه يفقد التماسك عبر السلسلة. النماذج الرائدة تحافظ على السلسلة بموثوقية أكبر، وهذا مهم لأي مهمة في بنيتك تتطلب تخطيطاً.

المعرفة العالمية. النماذج الصغيرة تعرف أقل ببساطة. اسأل Phi-4 mini سؤالاً غامضاً عن لوائح ضريبية إقليمية أو تاريخ لغة برمجة متخصصة، وستكون الإجابة سلسة وواثقة وغالباً خاطئة. هنا يرتبط عدد المعلمات بأوضح شكل باتساع المعرفة، ولا يوجد حل ذكي سهل.

استرجاع السياق الطويل. تعلن معظم النماذج الصغيرة عن سعات 128K رمز، لكن جودة الاسترجاع في الطرف العالي من هذه السعة أسوأ بكثير من النماذج الرائدة. في أي عمل في بنيتك يحتاج إلى استدلال عميق فوق مستند طويل، النموذج الصغير هو الأداة الخطأ. مقالة سعة السياق تغطي صورة السياق الطويل بالتفصيل.

نطاق 4B هو طبقة العمل العملية. احتفظ بالنماذج الرائدة للمشكلات التي لا تكفيها هذه الطبقة.

النموذجان الجديران بالاختيار

Phi-4 mini من Microsoft، صدر أواخر 2025، بحجم 3.8B معلمة. أقوى نموذج صغير في الاستدلال المنظم واتباع التعليمات بهذا الحجم. استراتيجية بيانات التدريب لدى Microsoft، وهي بيانات اصطناعية مُرشحة لقيمة تعليمية، تمنحه ميزة ملموسة في المهام التي تبدو مدخلاتها كمسألة كتابية أو مستند أعمال منظم. الترخيص MIT هو الأنظف المتاح.

Phi-4 الأكبر بحجم 14B لا يقع في فئة «الصغير» بدقة. يقف على الحدود، ويستحق الاقتران مع mini إذا كان عبء عملك يمزج مهام بسيطة ومهام استدلال منظم. الترخيص نفسه MIT.

Gemma 2 9B من Google، صدر في أكتوبر 2025. أفضل قدرة خام متعددة اللغات في فئة النماذج الصغيرة، بما في ذلك عربية أفضل بوضوح مما هو متوقع. ترخيص Gemma Terms متساهل بما يكفي للاستخدام التجاري مع قيود معقولة. النسخة المضبوطة للتعليمات تتبع التنسيقات المحددة بموثوقية أكبر من النموذج الأساسي.

نماذج صغيرة مفتوحة الأوزان، مسح benchr، يناير 2026
النموذجالمعلماتالترخيصالأفضل في
Phi-4 mini3.8BMITالتصنيف والاستخراج والمهام المنظمة
Phi-414BMITاستدلال منظم على حافة فئة «الصغير»
Gemma 2 9B9BGemma Termsعمل متعدد اللغات موثوق، ومحادثة على الجهاز
Qwen 3 7B7BApache 2.0كود ببصمة صغيرة، الصينية
Llama 3.1 8B8BLlama 3.1 Communityعام الاستخدام، وألفة المنظومة
94% دقة تصنيف البريد الإلكتروني — Phi-4 mini، محلي

التصنيف

Phi-4 mini البريد وتذاكر الدعم

الاستخراج

Phi-4 mini حقول منظمة من النص

التوجيه

Phi-4 mini تحديد أي API يُستدعى

التلخيص

Phi-4 مستندات قصيرة، مرور واحد

متعدد اللغات

Gemma 3 9B، عربي مقبول

مساعد كود

Qwen 3 7B برمجة ببصمة صغيرة
1. العمل الوارد

بريد، تذكرة، مستند، استعلام.

2. توجيه بالنموذج الصغير

يصنف Phi-4 mini ويقرر المسار.

3. بسيط؟ عالجه محلياً

نحو 90% من الحالات. تكلفة API صفر.

4. معقد؟ صعّده إلى Opus

نحو 10% من الحالات. ادفع لما يستحق.

أرقام دقة النماذج الصغيرة خاصة بعبء العمل. في فرز صندوق الوارد مع 18 فئة محددة جيداً، يصل Phi-4 mini إلى 94%. في تحليل مشاعر حرّ على نصوص وسائل التواصل، وهو أقرب إلى فروق دقيقة، رأى المجتمع النموذج نفسه يهبط إلى 78%. رقم 94% سقف لا أرضية.

سيناريو إنتاج ملموس

مثال ملموس يجعل المفاضلة أقل تجريداً. مسار تصنيف صندوق وارد كان يعمل سابقاً عبر Claude Sonnet 4.6 أُعيد بناؤه ليعمل على Phi-4 mini محلياً. يصنف الإعداد الرسائل الواردة إلى 18 فئة أولوية.

أرقام قبل وبعد:

Sonnet عبر API مقابل Phi-4 mini محلياً، عبء تصنيف، يناير 2026
المقياسSonnet عبر APIPhi-4 mini محلي
التكلفة لكل رسالة~$0.004~$0 (كهرباء)
زمن من البداية للنهاية~800 ms~60 ms
الدقة مقابل تسميات بشرية96%94%
هل تغادر البيانات الموقع؟نعملا

انخفضت الدقة نقطتين. وانخفضت التكلفة عملياً إلى صفر. وانخفض الزمن بأكثر من مرتبة عشرية. وتغيرت قصة إقامة البيانات من «تغادر الشبكة» إلى «تبقى في مكانها».

لهذا العبء، المفاضلة واضحة.

في نظام توجيه فرص المبيعات حيث يكون للتصنيف الخاطئ أثر مالي، تميل المفاضلة إلى الاتجاه الآخر ويبقى API النموذج الرائد. تفتح النماذج الصغيرة نقطة تشغيل مختلفة على منحنى التكلفة والدقة. السؤال الصحيح ليس أي نموذج أفضل، بل أي نقطة تشغيل تناسب عبء العمل. للصورة الأوسع للتسعير عبر الأعباء، راجع السعر حسب حالة الاستخدام.

تبقى فجوة واحدة. لم يُضبط أي من هذه النماذج الصغيرة دقيقاً على بيانات خاصة بعبء العمل، وهذا غالباً سيغلق جزءاً من فجوة الدقة في مهمة بريد الدعم، وربما يكفي لاستعادة هبوط النقطتين. لم تُختبر المتغيرات متعددة الوسائط هنا أيضاً. كلاهما سؤال مفتوح للمتابعة.

لن تكون النماذج اللغوية الصغيرة مستقبل القدرة الرائدة. لكنها ستكون مستقبل بنية الذكاء الاصطناعي الإنتاجية.

أعباء العمل التي تفوز فيها، التصنيف والاستخراج والتوجيه والاستدلال على الجهاز، هي بالضبط ما يشكل معظم إنفاق API في الشركات الحقيقية. شركة تشغل ملايين نداءات الاستدلال يومياً عبر نموذج رائد بينما يمكن خدمة 90% منها بنموذج 4B تترك المال على الطاولة.

لأي مؤسسة ذات حجم جاد، المعمارية الصحيحة ذات طبقتين: نموذج رائد للطلبات التي تبرره، ونموذج صغير، مضبوط دقيقاً عند الفائدة، أمام كل طبقة أخرى. عندما يصبح الحجم حقيقياً، تصبح ديناميكيات التكلفة ومكاسب الزمن أكبر من أن تُتجاهل.

للعمل المنظم بالإنجليزية فقط، اختر Phi-4 mini. وللعمل متعدد اللغات، اختر Gemma 2 9B. كلاهما جيد بما يكفي ليصبح السؤال الحقيقي أين تستخدمه في البنية. تحتفظ النماذج الرائدة بالهيبة، وتنجز النماذج الصغيرة العمل.

تعكس التوصيات هنا إجماع المجتمع خلال الفترة المسماة أعلاه. يتغير مجال النماذج الصغيرة بسرعة، لذلك أعد الاختبار قبل الاعتماد على هذه الاستنتاجات بعد الإصدار الربعي التالي.

الأسئلة الشائعة

هل النماذج اللغوية الصغيرة جيدة بما يكفي للإنتاج؟

نعم، في أعباء العمل التي تجيدها: التصنيف، والاستخراج، والتوجيه، وتوليد المخرجات المنظمة. يحقق Phi-4 mini دقة 94% مقابل تسميات بشرية، أي أقل بنقطتين من Claude Sonnet 4.6. هذه الفجوة لا تبرر عشرة أضعاف تكلفة API.

بأي نموذج صغير أبدأ؟

Phi-4 mini بحجم 3.8B معلمة وترخيص MIT من Microsoft للأعمال المنظمة الإنجليزية فقط. وGemma 2 9B من Google للأعباء متعددة اللغات. يعمل كلاهما على 16GB من الذاكرة مع تكميم معقول.

هل يمكنني تشغيل النماذج الصغيرة على لابتوب؟

نعم. يعمل Phi-4 mini بتكميم Q4_K_M بأكثر من 220 رمزاً في الثانية على M3 Max، ويحتاج إلى أقل من 3GB من الذاكرة. أي لابتوب حديث بذاكرة 16GB يتعامل معه براحة أثناء أعمال أخرى.

ما فجوة الدقة بين النماذج الصغيرة والرائدة؟

في التصنيف: نقطتان مئويتان. في الاستخراج المنظم: 3 إلى 5 نقاط. في الاستدلال متعدد الخطوات: 15 إلى 25 نقطة، وهنا تنهار النماذج الصغيرة وتحتاج إلى الطبقة الرائدة.

متى لا تستخدم نموذجاً لغوياً صغيراً؟

الاستدلال متعدد الخطوات، واسترجاع السياق الطويل بعد 32K رمز، والمعرفة العالمية الواسعة، وأي شيء تكون فيه الإجابة الخاطئة ذات تبعات مالية. استخدم النماذج الرائدة لهذه النداءات، ووجّه الأعباء الرخيصة إلى النماذج الصغيرة.

سجل التغييرات

  • 25 مايو 2026 — تم التحقق من الأسعار مقابل وثائق المزودين الحالية. حُدّثت أرقام التكلفة في كامل المقال لتعكس تعديلات أسعار Anthropic وطرح Gemini 3.1 Pro Preview من Google.
  • 25 فبراير 2026 — نُشر أول مرة.

المراجع

  1. Microsoft Azure, "Phi-4 announcement," azure.microsoft.com/en-us/blog/phi-4, اطُّلع عليه في مايو 2026.
  2. Microsoft, "Phi-4-mini-instruct model card," huggingface.co/microsoft/Phi-4-mini-instruct, اطُّلع عليه في مايو 2026.
  3. Google, "Gemma," ai.google.dev/gemma, اطُّلع عليه في مايو 2026.
  4. Alibaba, "Qwen," qwen.ai, اطُّلع عليه في مايو 2026.
  5. "Hugging Face Open LLM Leaderboard," huggingface.co/spaces/open-llm-leaderboard, اطُّلع عليه في مايو 2026.