مقارنة·مايو 2026

دليل اختيار النماذج متعددة الوسائط

كيف تختصر قائمة Claude وGPT-5 وGemini وLlama للقطات الشاشة والمستندات والصور والمحتوى متعدد الكتابات.

من فريق benchr · حُدِّثت في 23 يوليو 2026 · عرض سجل التغييرات

عائلات النماذج 4 Claude وGPT-5 وGemini وLlama

مجموعات العمل 3 واجهات وصور ومستندات

نوع الدليل تحريري مصادر عامة، بلا اختبار benchr

قاعدة القرار تحقّق استخدم صورك المحجوبة

تركّز معظم التغطية متعددة الوسائط على ما إذا كان النموذج يستطيع وصف صورة، وهو ما لا يخبرك بشيء يُذكر بحلول 2026. كل النماذج الحدّية الأربعة تصف الصور باقتدار. السؤال المثير لعملك هو أي نموذج يستطيع قراءة البنية (واجهات الاستخدام الكثيفة، مسوحات المستندات، الرسوم المرسومة باليد) والاستدلال على ما يراه.

يجمّع التحليل أدناه أعباء الرؤية في ثلاث مجموعات تقييم عملية: لقطات واجهات الاستخدام الكثيفة، والصور الإنتاجية، وصور المستندات مثل المسوحات والإيصالات والمنشورات متعددة الكتابات. الفئات تحريرية. تثبت وثائق المنتجات المدخلات والخصائص المدعومة، لكن المصادر المستشهَد بها لا تقدم مواجهة مضبوطة ترتّب النماذج على هذه المجموعات.

النماذج الأربعة المقروءة عبر هذا التحليل: Claude Opus 4.7، وGPT-5 (نسخة الرؤية)، وGemini 3.1 Pro Preview، وLlama 4 Maverick (الذي اكتسب قدرة رؤية في تحديث نوفمبر 2025). للصورة الأوسع عن Gemini، راجع مراجعة Gemini 3 Pro.

حدود هذا الدليل من البداية: كل موضع لنموذج فرضية للتقييم لا ترتيباً مقاساً. استخدم الصور المحجوبة وإصدارات النماذج والمطالبة وإعدادات التوليد ومعياراً معمّى نفسها قبل اختيار المزوّد.

أين يقف كل نموذج بحسب الفئة

لقطات واجهات الاستخدام الكثيفة. اختبر تعرّف عناصر التحكم والحالات المعطلة وغير المحددة والنص الصغير والعناصر المخترعة وإحداثيات الدليل. Gemini مرشح تحريري أول، وعلى Claude وGPT-5 وأي خيار محلي مواجهة المعيار نفسه. لا تعلن الصفحة فائزاً.

الصور الواقعية. افصل التعرّف الواقعي عن الوصف الجمالي. قيّم الأشياء والعلاقات المكانية وعدم اليقين والإضاءة والأسلوب كل واحد على حدة؛ فقد تكون الإجابة حية لكنها خاطئة. أدخل المرشحين الذين تتطلبهم قيود نشرك بدلاً من افتراض متصدر.

صور المستندات. اختبر النسخ قبل التفسير على الإيصالات الملطخة والمسوح والجداول والمنشورات متعددة الكتابات والتخطيطات المختلطة RTL/LTR. Gemini مرشح أول معقول بفضل تموضعه متعدد الوسائط الموثق، لا فائز OCR مثبتاً. قارنه مع Claude وGPT-5 وأداة OCR متخصصة على دقة الحقول.

الناتج المفيد خريطة تقييم لا ترتيب: عرّف كل فئة صور، ووثّق المعيار داخلياً، واختر النموذج الذي يتجاوز عتبة عبء عملك بكلفة وكمون مقبولين.

نقطة البداية التحريرية بحسب الدور

ليست درجة مقاسة. كل تسمية تحدد مرشحاً للتقييم لا فائزاً.

Gemini 3.1 Pro Preview

مستندات وبنية مرشح لتجارب تخطيط المستندات

Claude Opus 4.7

مرشح عام أدخله في معيار التقييم المعمى نفسه

GPT-5

مرشح عام أدخله في معيار التقييم المعمى نفسه

Llama 4 Maverick

مرشح للتحكم المحلي ضعه في الحسبان عندما يهم التحكم بالنشر

لا درجة عالمية استخدم معياراً واحداً وصورك المحجوبة لنتيجة خاصة بعبء العمل.

تحتاج لقطات الكود مجموعة حقيقة مرجعية خاصة. قيّم هل يشير كل نموذج إلى موضع الملف أو السطر الصحيح، ويميّز الكود المرئي من السياق المستنتج، ويمتنع حين لا تكفي اللقطة. لا تنقل سمعة تصحيح النص إلى نتيجة رؤية بلا اختبار.

ثلاث مجموعات عمل تبدأ بتقييمها

لقطات واجهات الاستخدام الكثيفة بحالات دقيقة. ابنِ لوحات بعناصر معروفة وحالات مفاتيح وعناصر معطلة وتناقضات مقصودة. احسب التطابقات والإغفالات والعناصر المخترعة لكل مرشح. يمكن اختبار Gemini أولاً، لكن المصادر المستشهَد بها لا تثبته فائزاً بديهياً.

المستندات العربية ومتعددة الكتابات. اختبر النسخ الحرفي وترتيب RTL والعناوين اللاتينية المضمّنة واستخراج الحقول قبل سؤال المحتوى. أدخل Gemini وClaude وGPT-5 وأداة OCR متخصصة في المعيار نفسه؛ لا تنشر فائزاً قبل مراجعة متحدث متمكن. ويغطي مقال المحتوى العربي الجانب النصي.

الرسوم المرسومة باليد واللوحات البيضاء. قيّم اتجاهات الأسهم والملاحظات الهامشية وبنية الرسم وعدم اليقين لكل مرشح. إن احتجت تحويلها إلى وثائق منظمة، قارن الإخراج بالبنية المرجعية بدلاً من افتراض نموذج متصدر.

ما الذي تقيّمه في المرشحين الآخرين

للوصف الجمالي والأجوائي، ضع GPT-5 في قائمة المرشحين واطلب من المراجعين تقييم صحة التفاصيل منفصلة عن جودة الكتابة؛ فالإجابة الحية قد تخترع تفاصيل بصرية.

لاستدلال الصور والمستندات العام، ضع Claude إلى جانب Gemini وGPT-5. لا تثبت المصادر ترتيب اتساق مقاساً، لذا استخدم المعيار نفسه ومراجعة معماة لكل مرشح.

يبقى Llama مهماً حين يكون النشر المحلي أو التحكم بالنموذج شرطاً. ولا يمكن استنتاج ملاءمته للصور الكثيفة من وجود مدخل رؤية وحده؛ اختبر التعرف الضوئي والعلاقات المكانية ومعدل الهلوسة على الملف والبيئة المستهدفين.

لقطات الشاشة والمستندات الكثيفة تحتاج معياراً خاصاً؛ دعم الصور وحده لا يثبت الملاءمة.

لا تكشف وثائق المزوّد ما يكفي من تفاصيل بيانات التدريب لتفسير السلوك المقارن مع الحرف العربي. لا تنسب نتيجة إلى مجموعة خاصة ما لم يؤكد المزوّد ذلك.

تقييم الحرف العربي

تحتاج الصور العربية ومتعددة الكتابات تقييماً خاصاً لأن التعرف الضوئي وترتيب القراءة من اليمين إلى اليسار والنص اللاتيني واللهجة تضيف أنماط فشل مختلفة. Gemini مرشح أولي معقول لا فائز موثق. قارنه بالنماذج المدعومة الأخرى على إيصالات ومستندات ومنشورات ممثلة، واطلب نسخاً حرفياً قبل التفسير، واستخدم مراجعاً متمكناً.

كيف تقرأ هذا الترتيب

القائمة أعلاه تحريرية. لا تثبت المصادر العامة المستشهَد بها ترتيباً مضبوطاً للمستندات الكثيفة أو المحتوى المهيكل أو صور النص العربي. تعامل مع كل موضع كفرضية اختبار، واشترط النسخ الدقيق وترتيب القراءة واستخراج الحقول ومراجعة متحدث بطلاقة على مجموعتك المحجوبة.

لعبء عملك المحدد، الخطوة الصحيحة معيار صغير: اجمع عشرين إلى خمسين صورة تمثّل ما سيراه تطبيقك، مرّرها عبر النماذج المرشّحة، ورتّبها بحسب ما يعتبره مراجعوك صحيحاً. تموضع المختبرات نقطة بداية فقط؛ صورك الخاصة هي ما يحسم الأمر.

واجهة إدارية

اختبر كل المرشحين العناصر والحالات والإغفال والاختراع

مستند عربي

اختبر كل المرشحين النص الدقيق وترتيب RTL والحقول والحرف المختلط

صورة فوتوغرافية

اختبر كل المرشحين الحقائق والعلاقات المكانية قبل الأسلوب

لوحة بيضاء

اختبر كل المرشحين الأسهم والخط والبنية وعدم اليقين

ماذا يعني هذا للمنظومات الإنتاجية

البنية ذات المرحلتين خيار لمنتجات تستوعب صوراً بحجم معتبر: استخدم OCR أو نموذج رؤية للاستخراج المنظم، ثم نموذجاً منفصلاً للاستدلال. قارنها بخط أساس من نموذج واحد لأن المراحل الإضافية تزيد الكمون والكلفة وحدود الفشل. ولجانب التكلفة راجع السعر بحسب حالة الاستخدام.

سعّر المعمارية من أسعار المزوّد الحالية وحساب رموز الصور لمدخلاتك الدقيقة. قد تكون مرحلة الرؤية المنفصلة أرخص أو أغلى بعد الإعادات وOCR ورموز المرحلة التالية والمراجعة؛ لا تفترض الصفحة النتيجة.

ابدأ بـGemini لأعباء المستندات والصور المهيكلة، وبـClaude وGPT-5 كمرشحين عامين، وبـLlama عندما يهم التحكم المحلي. هذه قائمة تقييم تحريرية وليست ترتيباً مقاساً.

قد يختلف الاختيار جذرياً بين واجهة إدارية وإيصال عربي وصورة فوتوغرافية. لا تنقل نتيجة نوع صورة إلى نوع آخر.

إن كان عمل الصور مهماً لمنظومتك، فاختبر المرشحين على مجموعة محجوبة، وسجّل النسخ الحرفي والصحة والاستدلال والهلوسة بصورة منفصلة قبل النشر.

أسئلة شائعة

أي نموذج ذكاء اصطناعي هو الأفضل في الرؤية؟

لا تثبت المصادر فائزاً عالمياً. Gemini مرشح تحريري أول للمستندات والصور المهيكلة، وClaude وGPT-5 بديلان معقولان. تحقّق منها على مجموعة محجوبة من منتجك.

هل يستطيع الذكاء الاصطناعي قراءة لقطات الشاشة بدقة؟

تقرأ النماذج الحالية لقطات الشاشة، لكن عناصر التحكم الكثيفة والحالات المعطلة والتباين المنخفض والنص الصغير تبقى نقاط فشل. قيّم العناصر والحالات الدقيقة على لقطات ممثلة.

هل يملك Claude قدرات رؤية؟

نعم. يقبل Claude مدخلات الصور في المنتجات المدعومة وهو مرشح عام معقول. لا تثبت المصادر مركزاً ثانياً عالمياً، لذا قارنه مباشرة على أنواع صورك.

ماذا عن GPT-5 لعمل الصور؟

GPT-5 مرشح متعدد الوسائط لفهم الصور وسير عمل التوليد. لا تمنحه الصفحة ترتيباً مقاساً؛ قيّم الصور والمستندات المهيكلة كعبئين منفصلين.

هل يستطيع الذكاء الاصطناعي قراءة الصور المكتوبة بالحرف العربي؟

تستطيع النماذج معالجة الصور العربية، لكن التعرف الضوئي وترتيب القراءة واللهجة وتخطيطات RTL/LTR تحتاج تحققاً محلياً. اطلب نسخاً حرفياً وأشرك مراجعاً عربياً متمكناً في العمل المهم.

سجل التغييرات

23 يوليو 2026 — أزيلت ترتيبات «إجماع المجتمع» وسلوكيات النماذج غير القابلة للتدقيق، وأعيدت صياغة مواضع النماذج كفرضيات اختبار تحريرية بمعيار قابل للإعادة.
25 مايو 2026 — تم التحقق من التسعير مقابل توثيق المزوّدين الحالي. حُدِّثت أرقام التكلفة في كل المقالة لتعكس تعديلات أسعار Anthropic وطرح Google لـ Gemini 3.1 Pro Preview.
2 مايو 2026 — نُشر أول مرة.

المراجع

Google, "Gemini API models," ai.google.dev/gemini-api/docs/models, اطُّلع عليه في مايو 2026.
Google DeepMind, "Gemini," deepmind.google/technologies/gemini, اطُّلع عليه في مايو 2026.
Anthropic، "توثيق Claude API"، docs.claude.com, اطُّلع عليه في مايو 2026.
OpenAI, "Platform documentation," platform.openai.com/docs, اطُّلع عليه في مايو 2026.
Meta, "Llama," llama.com, اطُّلع عليه في مايو 2026.