مراجعة·مايو 2026

أفضل ذكاء اصطناعي للعربية المحلية

أين تحافظ النماذج على العربية المحلية وأين تعود إلى الفصحى أو تنجرف نحو سجل عربي آخر.

من فريق benchr · رُوجعت في 23 يوليو 2026 · عرض سجل التغييرات · تم التحقق من الأرقام مقابل المصادر الرسمية، 30 مايو 2026

نقطة يجب توضيحها قبل أي اختيار. هذه الصفحة ليست عن الترجمة بين العربية والإنجليزية؛ فتلك مهمة مختلفة بمعايير تقييم مختلفة، ولها دليلها الخاص. هذه الصفحة عن السجل: تكتب أو تتحدث بالعربية المحلية، وتريد من النموذج أن يجيبك بها بدلاً من العودة إلى الفصحى الرسمية.

لذلك السلوك الافتراضي مهم. تشير الأدبيات المذكورة إلى حضور أقوى للفصحى المكتوبة من التعبير المحلي المنطوق في بيانات النماذج العامة. وقد يظهر ذلك على هيئة انجراف: تسأل بصياغة محلية، فيأتي الرد بالفصحى أو بسجل عربي آخر أكثر حضوراً. قياس حفظ السجل هو الاختبار المركزي هنا.

لماذا تعود النماذج إلى الفصحى

ابدأ بالأرقام، لأنها تفسّر كل ما يأتي بعدها. في المهام العربية الأكاديمية، تستقر النماذج حول 85 إلى 92 بالمئة. انزل إلى العربية المحلية فتهبط الدقة إلى نحو 75 إلى 85 بالمئة. تصمد السجلات الأكثر حضوراً في البيانات أفضل قليلاً، وتتراجع السجلات الأقل حضوراً. النمط يتبع حجم بيانات التدريب، لا أي شيء خاص بالسجلات المحلية نفسها.

32% تسرّب الفصحى في نموذج محلي أساسي قبل الضبط الدقيق. خفّضه ضبط LoRA المتخصص إلى 6.21%.

رقم التسرّب ذاك هو أوضح قياس نشره أحد عن الانجراف المحلي. نموذج متخصص يُدعى ALLaM المحلي، مُدرَّب على بيانات محلية، كان يُسرّب الفصحى 32.63 بالمئة من الوقت قبل الضبط. وبعد ضبط LoRA على 5,466 زوجاً تعليمياً اصطناعياً، هبط التسرّب إلى 6.21 بالمئة وبلغ معدل حفظه للسجل المحلي 84.21 بالمئة. الدرس للنماذج الحدّية صريح: لا يُضبط أي منها على هذا النحو، فكلها تُسرّب. والسؤال الوحيد هو كم، ونحو ماذا.

دقة السجل، نموذجاً نموذجاً

لا توجد مواجهة عامة مضبوطة تضع Claude وGPT وGemini وQwen أمام بعضها على العربية الخليجية. لذلك تفصل القائمة أدناه بين ما يوثقه المزودون والأسئلة التي ينبغي أن يجيب عنها تقييم محلي. وهي ليست ترتيباً مقاساً.

Claude Opus 4.7

جرّبه أولاً مرشح تحريري؛ لا مواجهة خليجية عامة

Qwen 3

أدخله تموضع متعدد اللغات؛ تحقّق من الخليجي

GPT وGemini

مرشحا ضبط قِس الانجراف للفصحى أو سجل آخر محلياً

Claude Opus 4.7 هو المرشح الأول في هذه القائمة التحريرية، لا فائزاً موثقاً. توثق Anthropic قدرة متعددة اللغات عموماً، لكن المصادر لا توفر مقارنة محلية مضبوطة مع GPT أو Gemini أو Qwen. اقتبست نسخة سابقة درجات دقيقة من «اختبار أعمى» بلا مجموعة بيانات أو بروتوكول قابل للنشر؛ وقد سُحبت. قيّم حفظ السجل والمعنى والنبرة والانجراف إلى الفصحى منفصلة على مطالباتك المحجوبة بمراجعين متمكنين. ودليل المحتوى العربي إطار تحريري كذلك لا بطاقة مختبر خاصة.

Qwen 3 يستحق الدخول في القائمة لأن Alibaba توثق دعماً واسعاً لعدة لغات. لكن الاتساع ليس عمقاً: لا يوجد معيار عام يثبت إخراجه الخليجي مقابل Claude أو GPT أو Gemini. إن كان عملك كثيف الخلط اللغوي فأدخله وقيّم الانتقالات؛ أما النجدي أو الحجازي الدقيق فيحتاج مراجعين محليين متمكنين، لا عدّاد اللغات.

GPT-5.5 يستحق الدخول إذا كان جزءاً من بنيتك، لكن المصادر المذكورة لا تثبت معدل حفظ اللهجة الخليجية أو الانجراف. قيّم هل يبقى كل رد في السجل المطلوب أو ينتقل إلى الفصحى أو لهجة أخرى؛ ولا تستنتج ذلك من عبارة عامة عن دعم العربية.

Gemini 3 Pro مرشح ضبط آخر، خصوصاً للفرق التي تستخدم منتجات Google. لا يثبت الدليل المذكور كم يحافظ إخراجه على الخليجي بدلاً من التطبيع نحو الفصحى، لذلك قِس ذلك صراحة. ويحافظ تقييم Gemini 3 Pro الأوسع على حد الأدلة العامة نفسه.

فخ الانجراف نحو الفصحى لا يَنشر أي مزوّد معدّل انجراف، فلا تستطيع التسوّق بحثاً عنه. تُبلغ Anthropic وOpenAI وGoogle وAlibaba جميعها عن التعامل مع السجلات المحلية بمستوى "تدعم العربية"، لا "تُسرّب الفصحى بنسبة كذا على تنويع محلي". الأرقام المقاسة الوحيدة تأتي من نماذج بحثية صغيرة مضبوطة مثل ALLaM المحلي. لذا فكل ادعاء عن أي نموذج حدّي "يحافظ على العربية المحلية أفضل"، بما في ذلك الترتيب في هذه الصفحة، استنتاج لا مقياس مزوّد. اختبر على أوامرك الخاصة قبل أن تلتزم.

التنويعات المحلية الأقل تمثيلاً: أين تنهار الدقة

كلما دخلت في تفاصيل التعبير المحلي، أصبحت الأرض أنحف. "العربية المحلية" في أي معيار تعني عادةً متوسطاً ممزوجاً، لا التزاماً دقيقاً بكل تنويع. بعض التنويعات المحلية متمايز جداً، ونادر في البيانات العامة إلى حدٍّ يمنع أي نموذج حدّي من الوعد به. والأدبيات متسقة هنا: تبقى النماذج الكبيرة مهيمَنة بالفصحى بدعم محدود للسجلات المحلية الدقيقة، وتميل إلى دمجها في سجل محلي عام أو مباشرةً في الفصحى.

قد يعرف النموذج "العربية المحلية" كفئة ومع ذلك يسطّح التنويعات المحلية الأقل تمثيلاً إلى العربية الباهتة نفسها.

هنا قد تكسب النماذج المضبوطة مكانها. إن كان المنتج يعتمد على دقة سجل فرعي، فبحث Saudi-Dialect-ALLaM المنشور إثبات مفهوم مفيد للتخصص. لا تثبت الأدلة العامة أي نموذج حدّي جاهز يدمج التنويعات أقل من غيره، لذا اختبر السؤال مباشرةً ولا تعامل القائمة التحريرية كنتيجة.

قائمة التقييم القصيرة

استخدم هذه كمرشحين للاختبار لا كفائزين مقاسين. أبقِ المطالبات المحجوبة وسُلّم المراجعة العمياء نفسيهما عبر القائمة.

محادثة محلية عامة

ابدأ بـClaude مرشح تحريري؛ قِس انجراف السجل

خلط عربي-إنجليزي

أدخل Qwen ادعاء دعم واسع؛ قيّم كل انتقال

دقة التنويعات المحلية

أضف نموذجاً متخصصاً حيث يسمح الترخيص والنشر

إخراج فصحى رسمي

اختبر الجميع دعم العربية العام لا يرتّب الأسلوب

الصوت / النسخ

Speechmatics WER عام معلن للتبديل؛ تحقّق من ملاءمة المجموعة

مرشحا ضبط الانجراف

GPT + Gemini قِس الانتقال للفصحى ولهجات أخرى

ملاحظة على صفّ الصوت ذاك، لأنه يسهل المبالغة في قراءته. يحقق نموذج Speechmatics ثنائي اللغة العربي-الإنجليزي معدل خطأ كلمات 6.3 بالمئة على التبديل اللغوي، أقل بنحو 35 بالمئة من 9.7 بالمئة لجوجل. نتيجة قوية، لكنها تحويل كلام إلى نص. لا تخبرك بشيء عن كيفية توليد نموذج محادثة لسجل، فلا تنقلها إلى عمل النص. وإن كنت توازن الجانب المنطوق على نطاق أوسع، ففي مقارنة benchr للنماذج الصوتية الصورة الأشمل.

إن كانت حاجتك الحقيقية نقل النص بنظافة بين اللغتين بدلاً من الحفاظ على سجل واحد، فتلك أرض الدليل الشقيق: يرتّب دليل benchr للترجمة بين العربية والإنجليزية النماذج بحسب جودة الاتجاه في الطريقين، وهو سؤال منفصل عن دقة السجل. وإن كانت المهمة الأساس مجرد إنتاج نثر عربي طويل متين، فإن دليل الذكاء الاصطناعي للكتابة المحايد لغوياً نقطة بداية أفضل، إذ يصادف أن متصدّر جودة الكتابة ومتصدّر السجل من العائلة نفسها.

احسب تكلفتك ←·قارن هذا النموذج ←·اعثر على نموذجك ←

أسئلة شائعة

هل يتعامل Claude مع العربية المحلية أفضل من بقية النماذج؟

لا تثبت أي مقارنة عامة مضبوطة هذه النتيجة. Claude هو المرشح التحريري الأول استناداً إلى توثيق متعدد اللغات وتقارير عامة أوسع، لا إلى اختبار benchr أو درجة محلية منشورة. قارنه مباشرة على مطالباتك المحجوبة.

ما الفرق بين أداء الفصحى وأداء العربية المحلية في النماذج اللغوية الكبيرة؟

تؤدي النماذج أفضل بكثير في الفصحى، نحو 85 إلى 92 بالمئة في المعايير الأكاديمية، مقارنةً بالعربية المحلية، نحو 75 إلى 85 بالمئة، لأن بيانات التدريب تميل نحو العربية المكتوبة الرسمية. عندما يصادف النموذج مدخلاً محلياً فإنه غالباً ينجرف عائداً إلى الفصحى أو إلى سجل أكثر شيوعاً، ويكون الأثر أسوأ كلما كان السجل المحلي أقل تمثيلاً في البيانات.

كيف تؤدي التنويعات المحلية الأقل تمثيلاً في النماذج الحديثة؟

التنويعات المحلية الأقل تمثيلاً ضعيفة الحضور في كل نموذج حدّي كبير. لا تفصل النماذج الأساسية مثل Claude وGPT وQwen وGemini هذه التنويعات ولا تُحسّن لها صراحةً، وتميل إلى دمجها نحو الفصحى أو نحو سجل محلي عام. ويسد الضبط الدقيق المتخصص الفجوة: نموذج ALLaM المحلي، المضبوط بطريقة LoRA على 5,466 زوجاً تعليمياً اصطناعياً، بلغ معدل حفظ السجل المحلي 84.21 بالمئة وخفض تسرّب الفصحى من 32.63 بالمئة إلى 6.21 بالمئة.

هل ينافس Qwen 3 نموذج Claude في العربية المحلية؟

توثق Alibaba دعماً واسعاً لعدة لغات في Qwen، ما يجعله مرشحاً معقولاً للإدراج. لا يثبت أي معيار عام مضبوط أنه يتعامل مع العربية الخليجية أو التبديل العربي-الإنجليزي أفضل من Claude أو GPT أو Gemini. اختبر المرشحين على المطالبات المحلية المحجوبة نفسها؛ فالاتساع متعدد اللغات لا يضمن العمق المحلي.

أي نموذج يتعامل أفضل مع التبديل بين العربية والإنجليزية؟

تقارن نتيجة Speechmatics المذكورة النسخ الصوتي على مجموعة واحدة للتبديل العربي-الإنجليزي؛ ولا تثبت أداء نماذج المحادثة المولدة للنص. لا تحدد مقارنة عامة مضبوطة أفضل نموذج نصي حدّي هنا. أنشئ مجموعة محجوبة من الانتقالات التي يستخدمها جمهورك وقيّم المعنى والسجل والتطبيع غير المطلوب بمراجعين متمكنين.

سجل التغييرات

23 يوليو 2026 — سُحبت درجات الاختبارات العمياء غير المسندة، وأعيدت صياغة ترتيب النماذج كقائمة تحريرية تتطلب تحققاً محلياً.
30 مايو 2026 — نُشر أول مرة. يغطي Claude Opus 4.7 وQwen 3 وGPT-5.5 وGemini 3 Pro على السجل المحلي والانجراف نحو الفصحى؛ مع ملاحظات التنويعات المحلية والضبط الدقيق من الأبحاث الحالية.

المراجع

Truescho, "Claude vs ChatGPT: Which Is Better for Arabic Content? (2026)," truescho.com, اطُّلع عليه في مايو 2026.
Anthropic، "دعم تعدد اللغات"، platform.claude.com, اطُّلع عليه في مايو 2026.
"ALLaM المحلي: ضبط LoRA لتوليد العربية المحلية"، arxiv.org, اطُّلع عليه في مايو 2026.
"تطوير التحليل اللغوي المدعوم بالذكاء الاصطناعي: مدونات عربية محلية"، mdpi.com, اطُّلع عليه في مايو 2026.
"الترجمة بين السجلات المحلية العربية: تحليل مقارن على النماذج اللغوية الكبيرة"، frontiersin.org, اطُّلع عليه في مايو 2026.
Speechmatics، "تحويل الكلام العربي-الإنجليزي ثنائي اللغة إلى نص"، speechmatics.com, اطُّلع عليه في مايو 2026.