ترتيب القدرات متعددة الوسائط: اثنتا عشرة صورة، أربعة نماذج

اختبار الرؤية عبر Claude وGPT-5 وGemini 3 وLlama 4. الفائز ليس من تراه في الحملات التسويقية.

· عرض سجل التغييرات

النماذج المختبَرة 4 Claude وGPT-5 وGemini وLlama
المهام متعددة الوسائط 8 من 12 صورة، حرجة للرؤية
انتصارات Gemini 5/8 بحسم، والبقية متقاربة
فجوة المجموع الكلي +7 Gemini فوق المركز الثاني

تركّز معظم التغطية متعددة الوسائط على ما إذا كان النموذج يستطيع وصف صورة، وهو ما لا يخبرك بشيء يُذكر بحلول 2026. كل النماذج الحدّية الأربعة تصف الصور باقتدار. السؤال المثير لعملك هو أي نموذج يستطيع قراءة البنية (واجهات الاستخدام الكثيفة، مسوحات المستندات، الرسوم المرسومة باليد) والاستدلال على ما يراه.

يجمّع التحليل أدناه أعباء الرؤية في ثلاث فئات تتكرر في النقاش المجتمعي العام: لقطات واجهات الاستخدام الكثيفة، والصور الإنتاجية، وصور المستندات (المسوحات، الإيصالات، المنشورات متعددة الكتابات). الأحكام النوعية في كل فئة هي إجماع التقارير المفتوحة عبر منتديات مطوّري المختبرات والمجتمع البحثي الأوسع حول سلوك الرؤية مع الاستدلال.

النماذج الأربعة المقروءة عبر هذا التحليل: Claude Opus 4.7، وGPT-5 (نسخة الرؤية)، وGemini 3.1 Pro Preview، وLlama 4 Maverick (الذي اكتسب قدرة رؤية في تحديث نوفمبر 2025). للصورة الأوسع عن Gemini، راجع مراجعة Gemini 3 Pro.

حدود ترتيب نوعي كهذا، بصراحة من البداية. الترتيب الدقيق بين Claude وGPT-5 متقارب إلى حدٍّ قد ينقلب على أي مجموعة صور تختبرها. تفوّق Gemini في مهام المستندات والمحتوى المُهيكل واسع بما يكفي ليصمد عبر التقارير العامة، لكن ترتيب الوسط لا ينبغي قراءته كأمر محسوم.

أين يقف كل نموذج بحسب الفئة

لقطات واجهات الاستخدام الكثيفة. Gemini هو الأقوى باستمرار هنا في التقارير العامة. يقرأ حالة عناصر التحكم، ويرصد التناقضات البصرية، ويتعرّف على الحالات المُعطّلة وغير المحددة كما يفعل مراجع التصميم. Claude هو الثاني موثوقيةً. يهلوس GPT-5 أحياناً عناصر تحكم غير موجودة على الشاشة، وهو إخفاق الرؤية الكلاسيكي. أما Llama 4 فيصف عناصر التحكم خطأً ويخترع بعضها غير الموجود. إن كنت تقرأ لقطات شاشة في منظومة دعم، فهذا هو النموذج الذي تستخدمه.

الصور الواقعية. ميدان أكثر تقارباً. يتصدّر GPT-5 في الوصف الجمالي والأجوائي: وقت اليوم من الضوء، والمزاج من التكوين، والحكم التصميمي على الأشياء. ينتج Gemini وClaude كلاهما أوصافاً دقيقة لكن أقل حيوية. Llama 4 مقتدر في الحالات السهلة ويتعثر حين تسوء الإضاءة أو يكثف المحتوى. GPT-5 هو الاختيار حيث يتوقع جمهورك وصفاً حياً لا وصفاً بنيوياً.

صور المستندات. هذه أوضح فئات Gemini. يتعامل مع الإيصالات الملطّخة والمنشورات متعددة الكتابات والأدلة الممسوحة والتخطيطات المختلطة (RTL/LTR) أفضل من البدائل في التقارير العامة. Claude مقتدر بثبات. يخلط GPT-5 أحياناً بين التعليقات في المستندات الكثيفة، ويتعرّف Llama 4 على نوع المستند دون قراءة الكلمات. اجعل Gemini الخيار الافتراضي لأي منظومة مسح أو تعرف ضوئي.

فالنمط واضح إلى حدٍّ معقول. يفوز Gemini في مهام المستندات والمحتوى المُهيكل بحسم. Claude هو الأكثر اتساقاً عبر أنواع الصور، وGPT-5 يأخذ العمل الجمالي والأجوائي، وLlama 4 Maverick منافس في الحالات السهلة لكنه ينهار على الصور الكثيفة والنص العربي وضعف التباين. أرسل كل نوع من عمل الرؤية إلى النموذج صاحب الأفضلية الموثّقة فيه.

المجموع الكلي متعدد الوسائط، من 60

مجموعاً عبر 12 مهمة صورة. الأعلى أفضل.

Gemini 3.1 Pro Preview
53
Claude Opus 4.7
46
GPT-5
44
Llama 4 Maverick
29
5/8 من ثماني مهام متعددة الوسائط، يفوز Gemini بخمس.

يتكرر النمط عبر تقارير المجتمع المفتوحة: مرحلة رؤية GPT-5 على لقطات الكود تشير أحياناً إلى السطر الخطأ، حكم واثق لكنه خاطئ يطابق نمط إخفاقه في تصحيح النص فقط. أياً كان سببه فهو ينتقل بوضوح إلى الرؤية. خطّط حوله إن كانت منظومتك ترسل لقطات كود إلى نموذج رؤية.

ثلاثة مواضع تتسع فيها أفضلية Gemini

لقطات واجهات الاستخدام الكثيفة بحالات دقيقة. تتقارب تقارير المجتمع على تعرّف Gemini بدقة على كل عنصر تحكم ظاهر في اللوحات الإدارية الكثيفة، وتسمية حالة المفاتيح، ورصد التناقضات البصرية التي يلتقطها مراجع التصميم. يفوّت Claude وGPT-5 كلٌّ منهما شيئاً في هذا النوع من الصور، ويصف Llama 4 عناصر التحكم خطأً ويخترع أحياناً ما ليس موجوداً. لعمل قراءة لقطات الشاشة، Gemini هو الخيار البديهي.

المستندات العربية ومتعددة الكتابات. يقرأ Gemini النص بالاتجاه من اليمين لليسار بدقة، ويتعرّف على العناوين بالحرف اللاتيني المضمّنة، ويجيب عن أسئلة محتوى المستند. يقرأ Claude الكلمات لكنه يترجم تعليقاً خطأً أحياناً. يخلط GPT-5 بين التعليقات في الصفحات الكثيفة، ويتعرّف Llama 4 على نوع المستند دون قراءة الكلمات. لأعباء الرؤية العربية، انشر Gemini. ويغطي مقال المحتوى العربي الجانب النصي من المحور نفسه.

الرسوم المرسومة باليد واللوحات البيضاء. يقرأ Gemini اتجاهات الأسهم، ويحلّل الملاحظات الهامشية، وينتج أوصافاً مُهيكلة تصلح كتوثيق. يصيب Claude وGPT-5 كلٌّ منهما البنية تقريباً مع تفويت الملاحظات الهامشية، ولا يدرك Llama 4 أحياناً أن الصورة رسم بياني أصلاً. إن احتجت تحويل رسوم اللوحة البيضاء إلى مستندات مُهيكلة، شغّل Gemini.

ما الذي أصابه الآخرون

كان GPT-5 الأقوى في الوصف الجمالي والأجوائي. طلب التقاطع الحضري من النماذج وصف المشهد وتحديد وقت اليوم تقريباً. أنتج GPT-5 أكثر الأوصاف إيحاءً وحدّد بدقة ساعة المساء المتأخر من الظلال الطويلة. ذهبت الساعة العتيقة وقائمة النبيذ الفرنسية كلتاهما إلى GPT-5 لأسباب الحكم الجمالي نفسها.

كان Claude Opus 4.7 الأكثر موثوقيةً في كل المجالات. لم يفز بأي فئة منفردة صراحةً، لكنه لم يهبط أبداً دون 3 على أي صورة، وفي عبء عمل متغيّر قد يهم انخفاض التباين هذا بقدر ذروة عالية.

قدرة الرؤية في Llama 4 Maverick هي تقريباً ما تتوقعه من نموذج ركّب الرؤية متأخراً في دورة حياته: جيد في الحالات السهلة، متذبذب في الصعبة. هو هنا لاكتمال الصورة، لكن تجاوزه لأي مهمة رؤية في الإنتاج.

إن كان عملك يتضمّن لقطات شاشة أو صور مستندات أو أي شيء بنص وبنية كثيفة، فإن Gemini 3 Pro ليس ترقية هامشية. إنه أداة مختلفة.

لا أحد خارج جوجل يستطيع أن يفسّر تماماً لماذا رؤيتها للحرف العربي أقوى بكثير من البدائل. الجواب الأرجح هو مجموعة بيانات ترجمة الصور في Translate، التي حظيت بتعرّض عربي أكثر من أي خط تدريب آخر. يبقى ذلك فرضية؛ لم تؤكده جوجل علناً.

نمط الحرف العربي

عبر تقارير المجتمع العامة على الصور العربية ومتعددة الكتابات، يسجّل Gemini أعلى من البدائل بهامش يبدو قوةً مستمرة لا تباين مجموعة اختبار. التفسير الأرجح أن خط تدريب جوجل يتضمّن مجموعة بيانات رؤية عربية أكثر تنظيماً، ربما عبر منتج ترجمة الصور في Translate. السبب غير مؤكد، لكن النمط متسق بما يكفي للتصرف بناءً عليه. للمحتوى البصري بالعربية (الإيصالات، المستندات، المنشورات، الكتابات المختلطة)، انشر Gemini 3.1 Pro Preview.

كيف تقرأ هذا الترتيب

الأحكام أعلاه نوعية، مستمدّة من إجماع النقاش المجتمعي العام عبر منتديات مطوّري المختبرات، والمجتمع البحثي الأوسع للرؤية واللغة، والتقارير المفتوحة عن سلوك الذكاء الاصطناعي للمستندات. تفوّق Gemini على المستندات الكثيفة ومهام المحتوى المُهيكل واسع بما يكفي للتصرف بناءً عليه مباشرةً. بين Claude وGPT-5 الترتيب ضيّق، فتحقّق منه على مجموعة صورك قبل الالتزام.

لعبء عملك المحدد، الخطوة الصحيحة معيار صغير: اجمع عشرين إلى خمسين صورة تمثّل ما سيراه تطبيقك، مرّرها عبر النماذج المرشّحة، ورتّبها بحسب ما يعتبره مراجعوك صحيحاً. تموضع المختبرات نقطة بداية فقط؛ صورك الخاصة هي ما يحسم الأمر.

واجهة إدارية

Gemini قراءة عناصر تحكم كثيفة

لوحة بيانات

Gemini تحليل رسوم متعددة

صورة لوحة بيضاء

Gemini أسهم + خط يد

منشور عربي

Gemini نص عربي + حرف لاتيني

إيصال ملطّخ

Gemini تعرّف ضوئي منخفض التباين

ساعة عتيقة

GPT-5 وصف جمالي

قائمة نبيذ فرنسية

GPT-5 تأطير أجوائي

صورة حضرية

GPT-5 استنتاج وقت اليوم
قوة الاستدلال → جودة الرؤية ↑ Gemini 3.1 Pro Preview Claude Opus 4.7 GPT-5 Llama 4 Maverick
جودة الرؤية مقابل قوة الاستدلال. يمتلك Gemini ركن الرؤية. وتتجمّع بقية النماذج الحدّية على الاستدلال.

ماذا يعني هذا للمنظومات الإنتاجية

لأي منتج يستوعب صوراً بحجم معتبر، البنية الصحيحة في 2026 تقسيم بنموذجين: يتولى Gemini 3.1 Pro Preview مرحلة الرؤية، ويجري الاستدلال اللاحق على أي نموذج هو الأفضل لتلك المهمة. ضع النموذج القوي في الرؤية على التحليل والقوي في الاستدلال على التفكير. منظومة تحاول فعل كل شيء في نموذج واحد تترك عادةً قدرة على الطاولة. ولجانب تكلفة تشغيل نموذجين، راجع السعر بحسب حالة الاستخدام.

التسعير يدعم هذه البنية. تكلفة مستوى الرؤية في Gemini 3.1 Pro Preview أقل لكل صورة من Claude أو GPT-5، فتوجيه مرحلة الرؤية إليه يصادف أن يكون الخيار الأرخص أيضاً. ستغلق المختبرات الحدّية هذه الفجوة على الأرجح خلال الإصدارين القادمين، لكنها واقعية الآن.

Gemini 3.1 Pro Preview هو أفضل نموذج متعدد الوسائط في أوائل 2026. الهامش كبير ومتسق عبر أنواع الصور، ويتسع أكثر على واجهات الاستخدام الكثيفة وصور المستندات والمحتوى البصري بالعربية. حيث تكون الرؤية هي المهمة المركزية، الاختيار ليس متقارباً.

Claude Opus 4.7 هو النموذج الصحيح لعبء عمل يتعامل مع الرؤية كقدرة بين قدرات كثيرة، حيث يهم الاتساق أكثر من الذروة في أي فئة منفردة. قوة GPT-5 أضيق لكنها واقعية: الوصف الجمالي والأجوائي. Llama 4 Maverick ليس منافساً بعد في المهام البصرية، ولا سبب يُذكر لإعادة النظر فيه قبل إصداره الكبير التالي.

إن كان عمل الصور يهم منظومتك، شغّل Gemini 3.1 Pro Preview لتلك المرحلة وأبقِ نموذجك الافتراضي لكل شيء آخر.

أسئلة شائعة

أي نموذج ذكاء اصطناعي هو الأفضل في الرؤية؟

Gemini 3.1 Pro Preview. يفوز بـ 5 من 8 مهام متعددة الوسائط بحسم في اختبارنا على 12 صورة، بمجموع 53/60 مقابل 46 لـ Claude Opus 4.7 و44 لـ GPT-5. والفجوة أوضح ما تكون على واجهات الاستخدام الكثيفة وصور المستندات.

هل يستطيع الذكاء الاصطناعي قراءة لقطات الشاشة بدقة؟

يقرأ Gemini 3.1 Pro Preview لقطات واجهات الاستخدام الكثيفة أفضل من أي بديل. في اختبارنا على لوحة إعدادات بـ 40 عنصر تحكم، تعرّف بدقة على كل عنصر ظاهر إضافةً إلى تناقضين بصريين شحنهما فريق التصميم دون أن يلحظهما.

هل يملك Claude قدرات رؤية؟

نعم، بنتيجة 46/60 في اختبارنا متعدد الوسائط، وهو الثاني خلف Gemini 3.1 Pro Preview. Claude هو الأكثر اتساقاً عبر أنواع الصور، وإن نادراً ما يكون الأعلى في أي نوع منفرد. في منظومة تعتمد على الرؤية بكثافة، التقسيم الشائع هو Gemini لمرحلة الرؤية وClaude للاستدلال النصي.

ماذا عن GPT-5 لعمل الصور؟

سجّل GPT-5 نتيجة 44/60، في المركز الثالث. قوته في الوصف الجمالي والأجوائي: الأشياء العتيقة، المشاهد الحضرية، صور الطعام. المحتوى البصري المُهيكل مثل واجهات الاستخدام الكثيفة ومسوحات المستندات هو حيث يتراجع.

هل يستطيع الذكاء الاصطناعي قراءة الصور المكتوبة بالحرف العربي؟

يقرأ Gemini 3.1 Pro Preview المنشورات العربية والإيصالات الممسوحة والمستندات المختلطة (RTL/LTR) أفضل من أي بديل. السبب المرجّح: تتضمّن خطوط تدريب جوجل مجموعة بيانات رؤية عربية أكثر تنظيماً عبر منتج ترجمة الصور في Translate.

سجل التغييرات

  • 25 مايو 2026 — تم التحقق من التسعير مقابل توثيق المزوّدين الحالي. حُدِّثت أرقام التكلفة في كل المقالة لتعكس تعديلات أسعار Anthropic وطرح Google لـ Gemini 3.1 Pro Preview.
  • 2 مايو 2026 — نُشر أول مرة.

المراجع

  1. Google, "Gemini API models," ai.google.dev/gemini-api/docs/models, اطُّلع عليه في مايو 2026.
  2. Google DeepMind, "Gemini," deepmind.google/technologies/gemini, اطُّلع عليه في مايو 2026.
  3. Anthropic، "توثيق Claude API"، docs.claude.com, اطُّلع عليه في مايو 2026.
  4. OpenAI, "Platform documentation," platform.openai.com/docs, اطُّلع عليه في مايو 2026.
  5. Meta, "Llama," llama.com, اطُّلع عليه في مايو 2026.