نقطة يجب توضيحها قبل أي اختيار. هذه الصفحة ليست عن الترجمة بين العربية والإنجليزية. تلك مهمة مختلفة بفائزين مختلفين، ولها دليلها الخاص. هذه الصفحة عن السجل: تكتب أو تتحدث بالعربية المحلية، وتريد من النموذج أن يجيبك بالعربية المحلية، لا بعربية نشرة الأخبار المسطّحة التي تعود إليها كل النماذج حين تتوتر.
لذلك السلوك الافتراضي مهم. كل نموذج حدّي مدرَّب على قدر من الفصحى، السجل المكتوب الرسمي، أكبر بكثير من بيانات التعبير المحلي المنطوق. لذا فالفصحى هي موضع قوته، والتعبير المحلي هو موضع تذبذبه. ويظهر التذبذب على هيئة انجراف: تسأل بصياغة محلية، فيأتي الرد بالفصحى، أو بأسلوب عربي آخر أكثر حضوراً في بيانات التدريب. الحفاظ على السجل هو الاختبار كله هنا.
لماذا تعود النماذج إلى الفصحى
ابدأ بالأرقام، لأنها تفسّر كل ما يأتي بعدها. في المهام العربية الأكاديمية، تستقر النماذج حول 85 إلى 92 بالمئة. انزل إلى العربية المحلية فتهبط الدقة إلى نحو 75 إلى 85 بالمئة. تصمد السجلات الأكثر حضوراً في البيانات أفضل قليلاً، وتتراجع السجلات الأقل حضوراً. النمط يتبع حجم بيانات التدريب، لا أي شيء خاص بالسجلات المحلية نفسها.
رقم التسرّب ذاك هو أوضح قياس نشره أحد عن الانجراف المحلي. نموذج متخصص يُدعى ALLaM المحلي، مُدرَّب على بيانات محلية، كان يُسرّب الفصحى 32.63 بالمئة من الوقت قبل الضبط. وبعد ضبط LoRA على 5,466 زوجاً تعليمياً اصطناعياً، هبط التسرّب إلى 6.21 بالمئة وبلغ معدل حفظه للسجل المحلي 84.21 بالمئة. الدرس للنماذج الحدّية صريح: لا يُضبط أي منها على هذا النحو، فكلها تُسرّب. والسؤال الوحيد هو كم، ونحو ماذا.
دقة السجل، نموذجاً نموذجاً
لا توجد مواجهة مضبوطة تضع Claude وGPT وGemini وQwen أمام بعضها على العربية المحلية. لذا فالأشرطة أدناه استنتاج، مستمدّ من السلوك المحلي الموثّق لكل نموذج ودرجاته العربية الأكاديمية، لا من تشغيل معياري واحد. اقرأها كترتيب لاحتمال أن يحافظ كل نموذج على سجلك، مع التحفظ بأن الأرضية تتحرك تحتها جميعاً.
Claude Opus 4.7 يتصدّر. تضع ملاحظات Anthropic متعددة اللغات، مدعومةً باختبار مقارن، أفضليةً طفيفة في العربية المحلية، على الأرجح من مزيج بيانات التدريب. وفي اختبارات عمياء على تلخيص عربي أكاديمي سجّل 9.5 من 10، متقدّماً بوضوح على GPT بـ 8.5 وGemini بـ 7.5، وينتج عربية أكثر تنوعاً وطبيعية حيث يميل GPT إلى مفردات متكررة وصياغة أكثر تيبّساً. أما السمة الأهم لعمل السجل فهي نمط الإخفاق: حين لا يكون Claude متأكداً، يبقى أقرب إلى سجلك بدلاً من الهرب إلى الفصحى. وللقراءة الأوسع عن موقعه مقابل الميدان في المحتوى العربي، يضع تقرير benchr العملي عن الذكاء الاصطناعي للمحتوى العربي درجات لخمسة نماذج عبر الفصحى وعدة سجلات محلية.
Qwen 3 هو الوصيف، والوصيف الصادق. يدعم 119 لغة وتنويعاً بنافذة سياق 128K، اتساع لغوي أكبر من أي منافس هنا، وهو الأقوى في المجموعة على التبديل بين العربية والإنجليزية في منتصف الجملة. لكن الاتساع ليس عمقاً. لا يوجد معيار عام يثبت إخراج Qwen المحلي مقابل Claude، فاختياره رهان على التغطية لا نتيجة محلية مُتحقَّقة. إن كان عملك مكثّف الخلط اللغوي، فإن Qwen يستحق النظر؛ وإن كان يعتمد على سجل محلي دقيق جداً، فالحجة أضعف.
GPT-5.5 جيد في العربية وسيئ في هذه المهمة تحديداً. هو أقوى في السجلات التي تحضر بكثافة في بيانات التدريب، وتنزلق دقته في السجلات الأنحف. والمشكلة لمستخدمي العربية المحلية هي اتجاه الانزلاق: قد يعود الرد بأسلوب عربي آخر يعرفه النموذج أكثر. وتلك نتيجة أسوأ من الفصحى أحياناً، لأنها خاطئة بطريقة تبدو واثقة.
Gemini 3 Pro يفهم المدخل المحلي جيداً؛ يُقال إنه يحلّل أكثر من 16 سجلاً عربياً عند الدخول. المشكلة في المخرج. يوحّد Gemini ردوده إلى الفصحى عبر كل صيغة إقليمية، فتسأل بالعربية المحلية وتحصل على عربية رسمية في كل مرة. للفهم لا بأس بذلك. أما لردٍّ يبدو محلياً فهو غير صالح، ويغطي تقييم benchr لـ Gemini 3 Pro بقية ما يصل إليه هذا النموذج.
التنويعات المحلية الأقل تمثيلاً: أين تنهار الدقة
كلما دخلت في تفاصيل التعبير المحلي، أصبحت الأرض أنحف. "العربية المحلية" في أي معيار تعني عادةً متوسطاً ممزوجاً، لا التزاماً دقيقاً بكل تنويع. بعض التنويعات المحلية متمايز جداً، ونادر في البيانات العامة إلى حدٍّ يمنع أي نموذج حدّي من الوعد به. والأدبيات متسقة هنا: تبقى النماذج الكبيرة مهيمَنة بالفصحى بدعم محدود للسجلات المحلية الدقيقة، وتميل إلى دمجها في سجل محلي عام أو مباشرةً في الفصحى.
قد يعرف النموذج "العربية المحلية" كفئة ومع ذلك يسطّح التنويعات المحلية الأقل تمثيلاً إلى العربية الباهتة نفسها.
هنا تكسب النماذج المضبوطة مكانها. إن كان منتجك يحيا أو يموت على دقة السجل الفرعية المحلية، فالنموذج الحدّي الأساسي ليس الجواب؛ نموذج محلي مضبوط بـ LoRA هو الجواب، ومعدل ALLaM المحلي البالغ 84 بالمئة محلية هو إثبات المفهوم. ومن بين النماذج الجاهزة، يدمج Claude Opus 4.7 التنويعات المحلية أقل من غيره، لكن "أقل" ليست "جيداً". اضبط توقعاتك بناءً على ذلك.
لوحة النتائج
الخلاصة المختصرة، بحسب ما تحاول فعله. اعثر على صفّك وخذ الاختيار.
محادثة محلية عامة
Claude Opus 4.7 يحافظ على السجل، أقل انجراف للفصحىخلط عربي-إنجليزي
Qwen 3 119 سجل، الأفضل في التبديلدقة التنويعات المحلية
نموذج مضبوط من فئة ALLaM، لا نموذج حدّي أساسيإخراج فصحى رسمي
أي منها Gemini يعود إليها مجاناًالصوت / النسخ
Speechmatics 6.3% خطأ كلمات على صوت مختلطالأقل ملاءمةً للرد المحلي
Gemini 3 Pro يفهم، ويجيب بالفصحىملاحظة على صفّ الصوت ذاك، لأنه يسهل المبالغة في قراءته. يحقق نموذج Speechmatics ثنائي اللغة العربي-الإنجليزي معدل خطأ كلمات 6.3 بالمئة على التبديل اللغوي، أقل بنحو 35 بالمئة من 9.7 بالمئة لجوجل. نتيجة قوية، لكنها تحويل كلام إلى نص. لا تخبرك بشيء عن كيفية توليد نموذج محادثة لسجل، فلا تنقلها إلى عمل النص. وإن كنت توازن الجانب المنطوق على نطاق أوسع، ففي مقارنة benchr للنماذج الصوتية الصورة الأشمل.
إن كانت حاجتك الحقيقية نقل النص بنظافة بين اللغتين بدلاً من الحفاظ على سجل واحد، فتلك أرض الدليل الشقيق: يرتّب دليل benchr للترجمة بين العربية والإنجليزية النماذج بحسب جودة الاتجاه في الطريقين، وهو سؤال منفصل عن دقة السجل. وإن كانت المهمة الأساس مجرد إنتاج نثر عربي طويل متين، فإن دليل الذكاء الاصطناعي للكتابة المحايد لغوياً نقطة بداية أفضل، إذ يصادف أن متصدّر جودة الكتابة ومتصدّر السجل من العائلة نفسها.