مراجعة·يغطي فبراير 2026·نُشر 30 مايو 2026

النماذج اللغوية الصغيرة في الاستخدام العملي

Phi-4 mini وGemma 3 4B وإطار خاص بعبء العمل لتقييم النماذج دون 10B معلمة.

من فريق benchr · حُدّثت في 23 يوليو 2026 · عرض سجل التغييرات

النطاق الأنسب 4–9B النطاق التحريري لهذا الدليل

سقف توضيحي 16GB لبعض ملفات 4-bit؛ تحقّق من الحمل الإضافي

الدقة خاصة بالعبء قِسها بأمثلة معنونة

أساس التكلفة الإجمالية عتاد وطاقة ومراجعة وتشغيل

موجّه رسائل الدعم مثال مفيد لأن له مجموعة تسميات محدودة ويمكن تقييمه مقابل قرارات بشرية. وصفت هذه الصفحة سابقاً مقارنة غير منشورة لرسائل الدعم كأنها نتيجة لـbenchr من دون نشر مجموعة البيانات أو البروتوكول؛ وقد سُحب ذلك الادعاء. النهج القابل للدفاع هو أخذ عينة من صندوقك بعد إزالة البيانات الحساسة، وإنشاء تسميات محجوبة، ثم مقارنة المرشحين قبل النشر.

إذا كان عبء عملك تصنيفاً أو استخراجاً أو توجيهاً بميزانية زمن ضيقة وفشل يمكن استدراكه، يستحق Phi-4 mini وGemma 3 4B نظرة متأنية. هذه توصية لاختيار مرشح، لا ادعاء بأن كل نموذج صغير يبلغ نسبة ثابتة من جودة النموذج الرائد.

يغطي هذا المقال فئة ما دون 10B وإطار قرار قابل لإعادة الإنتاج. تستحق هذه النماذج التقييم حين تهيمن الخصوصية أو التحكم بالعتاد أو الكمون على قيودك. وحين يعتمد عبء العمل على استدلال متعدد الخطوات أو تركيب سياق طويل أو معرفة واسعة، تكون الفئة الرائدة عادةً المرشح الأكثر أماناً.

(ملاحظة جانبية قبل حدود الفئة: يبقى Mistral 7B مهماً لفرق لديها نشر ذاتي قائم. تحصر هذه الصفحة مجموعة المرشحين الحالية في Phi-4 mini وGemma 3 4B وQwen3 8B؛ هذا النطاق ليس دليلاً على وجوب استبدال نشر Mistral قائم.)

ما معنى «صغير» هنا

أي شيء دون 10B معلمة. توثّق Microsoft نموذج Phi-4 بحجم 14B وPhi-4 mini بحجم 3.8B. وتسرد بطاقة Gemma 3 من Google متغيرات 1B و4B و12B و27B. ويسرد إصدار Qwen3 الرسمي نماذج كثيفة بأحجام 0.6B و1.7B و4B و8B و14B و32B. يركز هذا الدليل تحريرياً على نطاق 4B إلى 9B. يمكن لبعض ملفات 4-bit أن تناسب ذاكرة 16GB، لكن الأوزان ومخبأ KV وطول السياق وحمل البيئة والعمليات الأخرى كلها تستهلك الذاكرة. تحقّق من الملف الدقيق على الجهاز المستهدف؛ وراجع تشغيل النماذج على جهازك الخاص.

لا تُفصح الشركات عادةً عن عدد معلمات النماذج الرائدة المغلقة أو تكلفة تدريبها، لذلك لا تخترع الصفحة نسبة أحجام. المقارنة العملية أضيق: هل يتجاوز مرشح مفتوح الأوزان عتبة جودة مهمتك مع تحسين الكمون أو الخصوصية أو التكلفة الكلية المهمة لنشرك؟

يثبت توثيق المزوّد نطاق تعدد اللغات لا ترتيباً عالمياً: توثّق Gemma 3 دعماً لأكثر من 140 لغة، بينما تسرد بطاقة Phi-4 mini أربعاً وعشرين لغة مدعومة. لا يثبت أي المصدرين أي نموذج أفضل للغتك أو سجلك أو مخطط الاستخراج. أدخل أمثلة محجوبة ممثلة ومراجعة من متحدثين بطلاقة، خصوصاً للعربية والنص المختلط.

ثلاثة أعباء قد تلائمها النماذج الصغيرة

التصنيف والاستخراج. أعمال التوجيه والفرز والاستخراج المنظم محدودة بما يكفي لتقييمها بأمثلة معنونة. يكون النموذج الصغير جذاباً فقط إذا ناسبت نسبة خطئه المقاسة وتكلفته التشغيلية الكلية عبء العمل؛ لا تفترض نسبة جودة أو تكلفة ثابتة.

التوجيه والفرز. يقرر النموذج إلى أين يجب أن يذهب الطلب: أي API يُستدعى، وأي نموذج لاحق يُشغّل، وأي قالب يُطبّق. يكون النموذج الصغير موجهاً محتملاً عندما تكون التسميات محدودة والأخطاء قابلة للاستدراك. تحقّق منه مقابل تسميات بشرية وحدد قاعدة الثقة أو المراجعة التي تصعّد الطلبات غير المؤكدة.

الاستدلال على الجهاز أو الخاص. حين لا تستطيع البيانات مغادرة بيئة معتمدة، قد يكون نموذج محلي مثل Gemma 3 4B مرشحاً إذا كانت جودته وضوابطه الأمنية مقبولة. التنفيذ المحلي وحده ليس إثباتاً للامتثال؛ فالمعمارية والسجلات والوصول والتحديثات والمراجعة البشرية كلها مهمة.

من أين تبدأ تقييم النماذج الصغيرة

دليل تحريري لملاءمة العبء، لا دقة مقاسة. تحقّق من كل مرشح على أمثلتك المحجوبة.

Phi-4 mini (3.8B)

مرشح تجربة التصنيف والاستخراج

Phi-4 (14B)

مرشح خط أساس محلي بقدرة أعلى

Gemma 3 4B

مرشح مقارنة محلية عامة

Qwen3 8B

مرشح مقارنة متعددة اللغات

Claude Sonnet (API)

خط أساس قارن جودة المهمة والتكلفة الكلية

مواضع تستدعي الحذر

الاستدلال متعدد الخطوات. قد يفقد النموذج المدمج التماسك عبر سلسلة طويلة حتى إذا نفذ الخطوات الفردية. لا تفترض قفزة فشل ثابتة أو أن نموذجاً أكبر ينجح دائماً؛ قيّم المهام الكاملة والقيود الوسطية وحالات الفشل ذات العواقب.

المعرفة العالمية. قد ينتج النموذج المدمج إجابات سلسة غير مسندة عن حقائق نادرة أو متغيرة. استخدم استرجاعاً من مصادر موثوقة واستشهادات وقواعد امتناع ومراجعة بشرية حين يهم الخطأ؛ لا يثبت عدد المعلمات وحده الموثوقية.

استرجاع السياق الطويل. سعة السياق المعلنة لا تثبت دقة الاسترجاع أو الاستدلال قرب حدها. اختبر مواضع الإجابة والمشتتات والاستشهادات والتعامل مع الفشل عبر أطوال المستندات التي تستخدمها فعلاً. تغطي مقالة سعة السياق هذا الفرق بالتفصيل.

تعامل مع نطاق 4B–9B كفئة مرشحة لا ضمان جودة. عبء العمل هو ما يحدد موضعها.

مرشحون يستحقون الإدراج

توثّق بطاقة Phi-4 mini من Microsoft نموذجاً بحجم 3.8B صدر في فبراير 2025، وسعة سياق 128K، وأربعاً وعشرين لغة مدعومة، وترخيص MIT. تجعله هذه الحقائق مرشحاً مدمجاً مهماً؛ لكنها لا تثبت أنه الأقوى لعبء منظم بعينه.

يقع Phi-4 الأكبر بحجم 14B خارج نطاق هذه الصفحة لما دون 10B. ويمكن مع ذلك أن يكون مقارنة محلية أعلى قدرة حين يناسب ملفه، باستخدام المطالبات والمعيار وحساب التكلفة التشغيلية نفسها.

توثّق بطاقة Gemma 3 من Google متغير 4B من جيل مارس 2025، بمدخلات نص وصورة وسعة سياق 128K ودعم لأكثر من 140 لغة وفق Gemma Terms. يجعله هذا النطاق الموثق مهماً لمجموعة مرشحين متعددة اللغات، لكن المصدر لا يثبت جودة العربية أو التفوق على Phi-4 mini أو Qwen3 في عبء عملك.

مرشحون مفتوحو الأوزان موثقون، مراجعة يوليو 2026
النموذج	المعلمات	الترخيص	دور التقييم
Phi-4 mini	3.8B	MIT	مرشح مدمج للمهام المنظمة
Phi-4	14B	MIT	مقارنة محلية أعلى قدرة
Gemma 3 4B	4B	Gemma Terms	مرشح متعدد اللغات ومدخلات الصور
Qwen3 8B	8B	Apache 2.0	مرشح متعدد اللغات والبرمجة
Llama 3.1 8B	8B	Llama 3.1 Community	خط أساس للمنظومة

قيّم استخدم تسمياتك وتكلفة الخطأ والتشغيل الكلي، لا نسبة عالمية

التصنيف

Phi-4 mini البريد وتذاكر الدعم

الاستخراج

Phi-4 mini حقول منظمة من النص

التوجيه

Phi-4 mini تحديد أي API يُستدعى

التلخيص

Phi-4 مستندات قصيرة، مرور واحد

متعدد اللغات

Gemma 3 4B دعم لغوي واسع موثق؛ اختبر لغتك

مساعد كود

Qwen3 8B مرشح للبرمجة؛ تحقّق منه محلياً

1. العمل الوارد

بريد، تذكرة، مستند، استعلام.

↓

2. توجيه بالنموذج الصغير

يصنف Phi-4 mini ويقرر المسار.

↓

3. بسيط؟ عالجه محلياً

حالات متكررة منخفضة الخطر تجتاز عتبة الجودة.

↓

4. معقد؟ صعّده

وجّه الحالات الغامضة أو عالية الخطر إلى نموذج أقوى أو مراجعة بشرية.

دقة النموذج الصغير خاصة بعبء العمل. تصنيف صندوق ذي فئات ضيقة وتحليل مشاعر حر يختبران قدرات مختلفة، فلا يمكن نقل نتيجة أحدهما إلى الآخر. وثّق تعريفات التسميات والتقسيم المحجوب وإصدار النموذج والمطالبة وقاعدة المراجعة كي يبقى القرار قابلاً للإعادة.

سيناريو إنتاج ملموس

خطة تقييم ملموسة تجعل المفاضلة أقل تجريداً. افترض أن خط تصنيف صندوق الوارد يستخدم API رائدة وأنك تفكر في Phi-4 mini محلياً. عرّف فئات الأولوية، وخذ عينة ممثلة وسمها، واحتفظ بمجموعة محجوبة لا تراها هندسة المطالبات أو الضبط الدقيق.

ورقة القياس المطلوبة:

ورقة تقييم: API رائدة مقابل نموذج صغير محلي
المقياس	Sonnet عبر API	Phi-4 mini محلي
التكلفة لكل رسالة	احسبها من أسعار الرموز الموثقة والرموز الفعلية	وزّع العتاد والطاقة والتخزين والمراجعة والتشغيل
زمن من البداية للنهاية	قِسه من منطقتك تحت حمل واقعي	قِسه على الجهاز والتزامن المستهدفين
الدقة مقابل تسميات بشرية	قيّمها على المجموعة المحجوبة نفسها	قيّمها على المجموعة المحجوبة نفسها
مسار البيانات	تُرسل إلى API خارجية وفق شروطها وضوابطها	يمكن أن تبقى في بنية معتمدة إذا ضُبطت لذلك

النتيجة غير معروفة مسبقاً. يفوز الخيار المحلي فقط إذا تجاوز عتبة الجودة وكانت تكلفته الإجمالية وكمونه وخصوصيته وعبؤه التشغيلي أفضل لهذا العمل.

في نظام توجيه فرص المبيعات حيث يكون للتصنيف الخاطئ أثر مالي، تميل المفاضلة إلى الاتجاه الآخر ويبقى API النموذج الرائد. تفتح النماذج الصغيرة نقطة تشغيل مختلفة على منحنى التكلفة والدقة. السؤال الصحيح ليس أي نموذج أفضل، بل أي نقطة تشغيل تناسب عبء العمل. للصورة الأوسع للتسعير عبر الأعباء، راجع السعر حسب حالة الاستخدام.

قد يغير الضبط الدقيق النتيجة، لكنه تجربة أخرى لها مجموعة محجوبة وتكلفة صيانة خاصة. ولا تُقيَّم النسخ متعددة الوسائط في هذه الصفحة. كلاهما سؤال لتقييمك الخاص.

يمكن للنماذج الصغيرة أن تشغل أدواراً إنتاجية مفيدة حين تدعم ذلك عتبة جودة مقاسة وتصميم خصوصية وتكلفة تشغيل كلية.

التصنيف والاستخراج والتوجيه والاستدلال على الجهاز هي أعباء العمل الأجدر بفرزها لنموذج أصغر. عند حجم كبير قد يهم نقل جزء من النداءات، لكن يجب أن تأتي النسبة من سجلات طلباتك ونتائج تقييمك لا من رقم عام.

المعمارية ذات الطبقتين خيار عند الحجم: استخدم نموذجاً مدمجاً للطلبات المحدودة التي تتجاوز عتبتك، ثم صعّد الباقي. ليست صحيحة عالمياً؛ فقد تفوق أخطاء التوجيه وتكرار البنية والمراجعة والصيانة وفورات الرموز.

للعمل المنظم، أدخل Phi-4 mini في التقييم. وللعمل متعدد اللغات أو مدخلات الصور، أدخل Gemma 3 4B؛ وQwen3 8B مرشح موثق آخر متعدد اللغات. لا يوجد فائز افتراضي: استخدم المجموعة المحجوبة والملفات الدقيقة وحساب التكلفة الكلية نفسها.

هذه توصيات تحريرية لاختيار مرشحين، وليست ترتيباً مجتمعياً أو نتيجة مقاسة. أعد اختبار النماذج المسماة على عبء العمل المحجوب نفسه، وبالملفات والعتاد وحساب التكلفة الدقيقة نفسها قبل الاعتماد عليها؛ فمجال النماذج الصغيرة يتغير بسرعة.

الأسئلة الشائعة

هل النماذج اللغوية الصغيرة جيدة بما يكفي للإنتاج؟

يمكن أن تكون مناسبة، خصوصاً للتصنيف والاستخراج والتوجيه والمخرجات المنظمة ذات الحدود الواضحة. لا توجد فجوة عالمية؛ اختبر المرشحين على عينة معنونة واحسب تكلفة الخطأ والكمون والخصوصية والتشغيل.

بأي نموذج صغير أبدأ؟

Phi-4 mini 3.8B وGemma 3 4B وQwen3 8B مرشحون موثقون في هذا النطاق. لا يوجد أفضل عالمياً، وذاكرة 16GB ليست ضماناً شاملاً: افحص الملف المكمّم والسياق وحمل البيئة وجودة المهمة والترخيص.

هل يمكنني تشغيل النماذج الصغيرة على لابتوب؟

نعم، حين يتسع الملف المكمّم وبيئة التشغيل بهامش كافٍ. تعتمد الإنتاجية على الشريحة والتكميم والسياق والبيئة والمطالبة، لذا افحص الملف وأعد قياس الأداء على جهازك.

ما فجوة الدقة بين النماذج الصغيرة والرائدة؟

لا توجد فجوة ثابتة. تتغير مع التسميات واللغة والمجال والمطالبة والضبط الدقيق وتحمل الخطأ. قِسها على مجموعة تقييمك المحجوبة.

متى لا تستخدم نموذجاً لغوياً صغيراً؟

لا تعتمد على نموذج مدمج بلا دليل أقوى في العمل متعدد الخطوات واسترجاع السياق الطويل والمعرفة الواسعة أو المتغيرة والقرارات عالية العواقب. قارن نموذجاً أقوى والاسترجاع والامتناع والمراجعة البشرية على حالات الفشل نفسها.

سجل التغييرات

23 يوليو 2026 — صُححت تسميتا Gemma 3 9B وQwen3 7B غير الموجودتين إلى Gemma 3 4B وQwen3 8B الموثقتين. وأزيلت نسب الأحجام وادعاءات «الأفضل» غير المسندة، وأعيدت صياغة الصفحة كدليل قابل لإعادة الإنتاج لاختيار المرشحين.
25 مايو 2026 — تم التحقق من الأسعار مقابل وثائق المزودين الحالية. حُدّثت أرقام التكلفة في كامل المقال لتعكس تعديلات أسعار Anthropic وطرح Gemini 3.1 Pro Preview من Google.
25 فبراير 2026 — نُشر أول مرة.

المراجع

Microsoft Azure, "Phi-4 announcement," azure.microsoft.com/en-us/blog/phi-4, اطُّلع عليه في مايو 2026.
Microsoft, "Phi-4-mini-instruct model card," huggingface.co/microsoft/Phi-4-mini-instruct, اطُّلع عليه في مايو 2026.
Google, "Gemma 3 model card," ai.google.dev/gemma/docs/core/model_card_3, اطُّلع عليه في يوليو 2026.
Qwen Team, "Qwen3: Think Deeper, Act Faster," qwenlm.github.io/blog/qwen3, اطُّلع عليه في يوليو 2026.
"Hugging Face Open LLM Leaderboard," huggingface.co/spaces/open-llm-leaderboard, اطُّلع عليه في مايو 2026.