تركّز معظم التغطية متعددة الوسائط على ما إذا كان النموذج يستطيع وصف صورة، وهو ما لا يخبرك بشيء يُذكر بحلول 2026. كل النماذج الحدّية الأربعة تصف الصور باقتدار. السؤال المثير لعملك هو أي نموذج يستطيع قراءة البنية (واجهات الاستخدام الكثيفة، مسوحات المستندات، الرسوم المرسومة باليد) والاستدلال على ما يراه.
يجمّع التحليل أدناه أعباء الرؤية في ثلاث فئات تتكرر في النقاش المجتمعي العام: لقطات واجهات الاستخدام الكثيفة، والصور الإنتاجية، وصور المستندات (المسوحات، الإيصالات، المنشورات متعددة الكتابات). الأحكام النوعية في كل فئة هي إجماع التقارير المفتوحة عبر منتديات مطوّري المختبرات والمجتمع البحثي الأوسع حول سلوك الرؤية مع الاستدلال.
النماذج الأربعة المقروءة عبر هذا التحليل: Claude Opus 4.7، وGPT-5 (نسخة الرؤية)، وGemini 3.1 Pro Preview، وLlama 4 Maverick (الذي اكتسب قدرة رؤية في تحديث نوفمبر 2025). للصورة الأوسع عن Gemini، راجع مراجعة Gemini 3 Pro.
حدود ترتيب نوعي كهذا، بصراحة من البداية. الترتيب الدقيق بين Claude وGPT-5 متقارب إلى حدٍّ قد ينقلب على أي مجموعة صور تختبرها. تفوّق Gemini في مهام المستندات والمحتوى المُهيكل واسع بما يكفي ليصمد عبر التقارير العامة، لكن ترتيب الوسط لا ينبغي قراءته كأمر محسوم.
أين يقف كل نموذج بحسب الفئة
لقطات واجهات الاستخدام الكثيفة. Gemini هو الأقوى باستمرار هنا في التقارير العامة. يقرأ حالة عناصر التحكم، ويرصد التناقضات البصرية، ويتعرّف على الحالات المُعطّلة وغير المحددة كما يفعل مراجع التصميم. Claude هو الثاني موثوقيةً. يهلوس GPT-5 أحياناً عناصر تحكم غير موجودة على الشاشة، وهو إخفاق الرؤية الكلاسيكي. أما Llama 4 فيصف عناصر التحكم خطأً ويخترع بعضها غير الموجود. إن كنت تقرأ لقطات شاشة في منظومة دعم، فهذا هو النموذج الذي تستخدمه.
الصور الواقعية. ميدان أكثر تقارباً. يتصدّر GPT-5 في الوصف الجمالي والأجوائي: وقت اليوم من الضوء، والمزاج من التكوين، والحكم التصميمي على الأشياء. ينتج Gemini وClaude كلاهما أوصافاً دقيقة لكن أقل حيوية. Llama 4 مقتدر في الحالات السهلة ويتعثر حين تسوء الإضاءة أو يكثف المحتوى. GPT-5 هو الاختيار حيث يتوقع جمهورك وصفاً حياً لا وصفاً بنيوياً.
صور المستندات. هذه أوضح فئات Gemini. يتعامل مع الإيصالات الملطّخة والمنشورات متعددة الكتابات والأدلة الممسوحة والتخطيطات المختلطة (RTL/LTR) أفضل من البدائل في التقارير العامة. Claude مقتدر بثبات. يخلط GPT-5 أحياناً بين التعليقات في المستندات الكثيفة، ويتعرّف Llama 4 على نوع المستند دون قراءة الكلمات. اجعل Gemini الخيار الافتراضي لأي منظومة مسح أو تعرف ضوئي.
فالنمط واضح إلى حدٍّ معقول. يفوز Gemini في مهام المستندات والمحتوى المُهيكل بحسم. Claude هو الأكثر اتساقاً عبر أنواع الصور، وGPT-5 يأخذ العمل الجمالي والأجوائي، وLlama 4 Maverick منافس في الحالات السهلة لكنه ينهار على الصور الكثيفة والنص العربي وضعف التباين. أرسل كل نوع من عمل الرؤية إلى النموذج صاحب الأفضلية الموثّقة فيه.
يتكرر النمط عبر تقارير المجتمع المفتوحة: مرحلة رؤية GPT-5 على لقطات الكود تشير أحياناً إلى السطر الخطأ، حكم واثق لكنه خاطئ يطابق نمط إخفاقه في تصحيح النص فقط. أياً كان سببه فهو ينتقل بوضوح إلى الرؤية. خطّط حوله إن كانت منظومتك ترسل لقطات كود إلى نموذج رؤية.
ثلاثة مواضع تتسع فيها أفضلية Gemini
لقطات واجهات الاستخدام الكثيفة بحالات دقيقة. تتقارب تقارير المجتمع على تعرّف Gemini بدقة على كل عنصر تحكم ظاهر في اللوحات الإدارية الكثيفة، وتسمية حالة المفاتيح، ورصد التناقضات البصرية التي يلتقطها مراجع التصميم. يفوّت Claude وGPT-5 كلٌّ منهما شيئاً في هذا النوع من الصور، ويصف Llama 4 عناصر التحكم خطأً ويخترع أحياناً ما ليس موجوداً. لعمل قراءة لقطات الشاشة، Gemini هو الخيار البديهي.
المستندات العربية ومتعددة الكتابات. يقرأ Gemini النص بالاتجاه من اليمين لليسار بدقة، ويتعرّف على العناوين بالحرف اللاتيني المضمّنة، ويجيب عن أسئلة محتوى المستند. يقرأ Claude الكلمات لكنه يترجم تعليقاً خطأً أحياناً. يخلط GPT-5 بين التعليقات في الصفحات الكثيفة، ويتعرّف Llama 4 على نوع المستند دون قراءة الكلمات. لأعباء الرؤية العربية، انشر Gemini. ويغطي مقال المحتوى العربي الجانب النصي من المحور نفسه.
الرسوم المرسومة باليد واللوحات البيضاء. يقرأ Gemini اتجاهات الأسهم، ويحلّل الملاحظات الهامشية، وينتج أوصافاً مُهيكلة تصلح كتوثيق. يصيب Claude وGPT-5 كلٌّ منهما البنية تقريباً مع تفويت الملاحظات الهامشية، ولا يدرك Llama 4 أحياناً أن الصورة رسم بياني أصلاً. إن احتجت تحويل رسوم اللوحة البيضاء إلى مستندات مُهيكلة، شغّل Gemini.
ما الذي أصابه الآخرون
كان GPT-5 الأقوى في الوصف الجمالي والأجوائي. طلب التقاطع الحضري من النماذج وصف المشهد وتحديد وقت اليوم تقريباً. أنتج GPT-5 أكثر الأوصاف إيحاءً وحدّد بدقة ساعة المساء المتأخر من الظلال الطويلة. ذهبت الساعة العتيقة وقائمة النبيذ الفرنسية كلتاهما إلى GPT-5 لأسباب الحكم الجمالي نفسها.
كان Claude Opus 4.7 الأكثر موثوقيةً في كل المجالات. لم يفز بأي فئة منفردة صراحةً، لكنه لم يهبط أبداً دون 3 على أي صورة، وفي عبء عمل متغيّر قد يهم انخفاض التباين هذا بقدر ذروة عالية.
قدرة الرؤية في Llama 4 Maverick هي تقريباً ما تتوقعه من نموذج ركّب الرؤية متأخراً في دورة حياته: جيد في الحالات السهلة، متذبذب في الصعبة. هو هنا لاكتمال الصورة، لكن تجاوزه لأي مهمة رؤية في الإنتاج.
إن كان عملك يتضمّن لقطات شاشة أو صور مستندات أو أي شيء بنص وبنية كثيفة، فإن Gemini 3 Pro ليس ترقية هامشية. إنه أداة مختلفة.
لا أحد خارج جوجل يستطيع أن يفسّر تماماً لماذا رؤيتها للحرف العربي أقوى بكثير من البدائل. الجواب الأرجح هو مجموعة بيانات ترجمة الصور في Translate، التي حظيت بتعرّض عربي أكثر من أي خط تدريب آخر. يبقى ذلك فرضية؛ لم تؤكده جوجل علناً.
نمط الحرف العربي
عبر تقارير المجتمع العامة على الصور العربية ومتعددة الكتابات، يسجّل Gemini أعلى من البدائل بهامش يبدو قوةً مستمرة لا تباين مجموعة اختبار. التفسير الأرجح أن خط تدريب جوجل يتضمّن مجموعة بيانات رؤية عربية أكثر تنظيماً، ربما عبر منتج ترجمة الصور في Translate. السبب غير مؤكد، لكن النمط متسق بما يكفي للتصرف بناءً عليه. للمحتوى البصري بالعربية (الإيصالات، المستندات، المنشورات، الكتابات المختلطة)، انشر Gemini 3.1 Pro Preview.
كيف تقرأ هذا الترتيب
الأحكام أعلاه نوعية، مستمدّة من إجماع النقاش المجتمعي العام عبر منتديات مطوّري المختبرات، والمجتمع البحثي الأوسع للرؤية واللغة، والتقارير المفتوحة عن سلوك الذكاء الاصطناعي للمستندات. تفوّق Gemini على المستندات الكثيفة ومهام المحتوى المُهيكل واسع بما يكفي للتصرف بناءً عليه مباشرةً. بين Claude وGPT-5 الترتيب ضيّق، فتحقّق منه على مجموعة صورك قبل الالتزام.
لعبء عملك المحدد، الخطوة الصحيحة معيار صغير: اجمع عشرين إلى خمسين صورة تمثّل ما سيراه تطبيقك، مرّرها عبر النماذج المرشّحة، ورتّبها بحسب ما يعتبره مراجعوك صحيحاً. تموضع المختبرات نقطة بداية فقط؛ صورك الخاصة هي ما يحسم الأمر.
واجهة إدارية
Gemini قراءة عناصر تحكم كثيفةلوحة بيانات
Gemini تحليل رسوم متعددةصورة لوحة بيضاء
Gemini أسهم + خط يدمنشور عربي
Gemini نص عربي + حرف لاتينيإيصال ملطّخ
Gemini تعرّف ضوئي منخفض التباينساعة عتيقة
GPT-5 وصف جماليقائمة نبيذ فرنسية
GPT-5 تأطير أجوائيصورة حضرية
GPT-5 استنتاج وقت اليومماذا يعني هذا للمنظومات الإنتاجية
لأي منتج يستوعب صوراً بحجم معتبر، البنية الصحيحة في 2026 تقسيم بنموذجين: يتولى Gemini 3.1 Pro Preview مرحلة الرؤية، ويجري الاستدلال اللاحق على أي نموذج هو الأفضل لتلك المهمة. ضع النموذج القوي في الرؤية على التحليل والقوي في الاستدلال على التفكير. منظومة تحاول فعل كل شيء في نموذج واحد تترك عادةً قدرة على الطاولة. ولجانب تكلفة تشغيل نموذجين، راجع السعر بحسب حالة الاستخدام.
التسعير يدعم هذه البنية. تكلفة مستوى الرؤية في Gemini 3.1 Pro Preview أقل لكل صورة من Claude أو GPT-5، فتوجيه مرحلة الرؤية إليه يصادف أن يكون الخيار الأرخص أيضاً. ستغلق المختبرات الحدّية هذه الفجوة على الأرجح خلال الإصدارين القادمين، لكنها واقعية الآن.
Gemini 3.1 Pro Preview هو أفضل نموذج متعدد الوسائط في أوائل 2026. الهامش كبير ومتسق عبر أنواع الصور، ويتسع أكثر على واجهات الاستخدام الكثيفة وصور المستندات والمحتوى البصري بالعربية. حيث تكون الرؤية هي المهمة المركزية، الاختيار ليس متقارباً.
Claude Opus 4.7 هو النموذج الصحيح لعبء عمل يتعامل مع الرؤية كقدرة بين قدرات كثيرة، حيث يهم الاتساق أكثر من الذروة في أي فئة منفردة. قوة GPT-5 أضيق لكنها واقعية: الوصف الجمالي والأجوائي. Llama 4 Maverick ليس منافساً بعد في المهام البصرية، ولا سبب يُذكر لإعادة النظر فيه قبل إصداره الكبير التالي.
إن كان عمل الصور يهم منظومتك، شغّل Gemini 3.1 Pro Preview لتلك المرحلة وأبقِ نموذجك الافتراضي لكل شيء آخر.