Google وعدت بنموذج Gemini جديد في I/O في مايو، مع جدول زمني فضفاض بعنوان "يونيو 2026". وصل Gemini 3.5 Pro في 30 يونيو، أي قبل يوم واحد من نهاية تلك النافذة، وهو مبني حول الحجم الخام. العنوان الرئيسي هو نافذة سياق إدخال بـ2,000,000 رمز، وهي الأولى من نوعها في الطبقة الطليعية يوم صدوره. هذا الرقم أهميته أقل كخط تسويقي وأكثر كبيان تموضع: بعد أن أمضى Gemini 3.5 Flash إطلاقه الخاص وهو يتفوق على طبقة 3.1 Pro الأقدم في معايير البرمجة، احتاجت Google رداً في أعلى العائلة، وهذا هو الرد.
الحجة في سطر واحد: Gemini 3.5 Pro هو أعمق استدلال وأطول سياق تشحنه Google حالياً، ويتموضع فوق كل من Gemini 3.1 Pro، الذي يبقى حالياً خياراً أرخص للاستدلال، وGemini 3.5 Flash، الذي يبقى حالياً الخيار الأسرع والأرخص لوكلاء البرمجة. أما هل تستحق الترقية فيعتمد على ما إذا كان عبء عملك يحتاج فعلاً السقف الذي يسعى إليه هذا النموذج، وعلى مدى دقتك في إدارة حافة التسعير عند 200,000 رمز.
نافذة السياق بـ2,000,000 رمز
ابدأ بالرقم الذي تتصدر Google الحديث عنه. نافذة سياق Gemini 3.5 Pro هي 2,000,000 رمز، أي ضعف الـ1,000,000 لدى Gemini 3.1 Pro وضعف الـ1,000,000 لدى Gemini 3.5 Flash، وكانت الأولى من نوعها في الطبقة الطليعية يوم صدورها. حد الإخراج الأقصى هو 100,000 رمز. معرّف نموذج الـAPI هو gemini-3.5-pro، ويمكن الوصول إليه أينما تشحن Google واجهة Gemini API ووصول Vertex AI.
نافذة بهذا الحجم قدرة حقيقية للعمل على المستندات والفيديوهات الطويلة، وتوليف الأبحاث عبر مجموعات نصية كبيرة، وأي مهمة يكون البديل فيها التقطيع والاسترجاع. لكنها أيضاً، كما مع كل نموذج بسياق ضخم، دعوة إلى الاستخدام المفرط. كتب benchr سابقاً عن كيفية تسويق ادعاءات المليون رمز مقابل التكلفة الفعلية لملئها، وتلك الفجوة بالضبط هي ما يتناوله قسم التسعير أدناه.
التسعير، طبقة بطبقة
يُسعَّر Gemini 3.5 Pro بطبقتين حسب حجم المطالبة، وفق صفحة تسعير Gemini API من Google. لأول 200,000 رمز في الطلب، الأسعار القياسية هي $2.50 للإدخال و$15 للإخراج لكل مليون. تجاوز هذا الحد يعيد تسعير الطلب بأكمله، إدخالاً وإخراجاً، إلى $5 للإدخال و$22 للإخراج لكل مليون — الشكل المتدرج نفسه المستخدم في Gemini 3.1 Pro، لكن مربوطاً بسعر أساس أعلى. تعمل مهام الدفعات (batch) بنصف السعر القياسي: $1.25/$7.50 عند 200K أو أقل، و$2.50/$11 فوقها. قراءة الإدخال المخبأ تكلف $0.25 لكل مليون، وهي خصم 90% عن السعر القياسي البالغ $2.50، وتفرض Google بشكل منفصل $1 لكل مليون رمز في الساعة لإبقاء ذلك التخزين المؤقت نشطاً، وهي القاعدة نفسها المستخدمة مع Gemini 3.1 Pro وGemini 3.5 Flash. بخلاف Flash، لا توجد هنا طبقة API مجانية.
معرفة ما إذا كانت تلك الرياضيات المتدرجة تتفوق على بديل بسعر ثابت لمهمتك المحددة هو بالضبط ما وُجد من أجله حاسبة التكلفة وتفصيل السعر حسب حالة الاستخدام في benchr، وإذا كانت مطالباتك تزحف فوق 200K بلا سبب حقيقي، فإن تكتيكات خفض استخدام الرموز تنطبق هنا بقدر ما تنطبق على أي نموذج متدرج آخر.
أرقام قياسية جديدة في الاستدلال
تقوم حجة المعايير على رقمين تسعد Google بمقارنتهما: ARC-AGI-2 وGPQA Diamond. يسجل Gemini 3.5 Pro نسبة 80.0 على ARC-AGI-2، ارتفاعاً من 77.1 لـGemini 3.1 Pro ورقماً قياسياً جديداً لعائلة Gemini. وعلى GPQA Diamond يسجل 95.5، ارتفاعاً من 94.3 لـ3.1 Pro ورقماً قياسياً جديداً أيضاً لعائلة Gemini — وعند 95.5، هي حالياً أعلى درجة GPQA Diamond يتابعها benchr عبر أي نموذج، متقدمة على 93.6 لـClaude Opus 4.8.
| المعيار | النتيجة | ملاحظة |
|---|---|---|
| GPQA Diamond | 95.5 | ارتفاعاً من 94.3 لـGemini 3.1 Pro؛ أعلى درجة GPQA يتابعها benchr |
| ARC-AGI-2 | 80.0 | ارتفاعاً من 77.1 لـGemini 3.1 Pro؛ رقم قياسي جديد لعائلة Gemini |
| SWE-bench Verified | 85.5% | برمجة على تذاكر GitHub حقيقية |
| LMSYS Arena | 1420 | تقييم Elo بالمواجهة المباشرة حسب تفضيل البشر |
| MMLU | 93.0% | معيار معرفة واسع |
| HumanEval | 92.0% | توليد الشفرة |
| MATH | 92.5% | رياضيات تنافسية |
اقرأ عبارة "أعلى درجة GPQA يتابعها benchr" بحذر. إنها ادعاء لحظي لا دائم: صدر Gemini 3.5 Pro في 30 يونيو 2026، قبل يوم واحد من وصول GPT-5.6 من OpenAI إلى الإتاحة العامة، وقبل يومين من إطلاق Anthropic لـClaude Sonnet 5 إلى جانب إعادة Claude Fable 5 لجميع العملاء. لا شيء من ذلك يغيّر ما يمثله Gemini 3.5 Pro بحد ذاته، لكن الميدان الذي يُقارَن به تحرك في الأسبوع نفسه — راجع تغطية benchr لـإطلاق GPT-5.6 وإطلاق Claude Sonnet 5 للجانب الآخر من القصة.
الطرح ليس مجرد رقم أكبر. بل هل يستطيع عبء عملك استخدام مليوني رمز من دون دفع ثمن تلك المساحة الإضافية في كل مرة يصل فيها الطلب إلى ما بعد منتصف النافذة.
أين يقف في تشكيلة Google
Gemini 3.5 Pro هو النموذج الذي تلجأ إليه حين تحتاج المهمة نفسها السقف: أعمق استدلال في عائلة Gemini، وأوسع نافذة سياق تشحنها Google، وعملاً بصرياً يمتد عبر مستندات أو فيديوهات طويلة، حيث تؤدي المساحة الإضافية عملاً حقيقياً بدلاً من أن تبقى بلا استخدام. إذا كنت تُشغّل استدلالاً بمستوى الدراسات العليا، أو توليف أبحاث عبر مجموعات مستندات كبيرة، أو تحليلاً متعدد الوسائط يحتاج فعلاً أكثر من مليون رمز من السياق، فهذا هو نموذج Google المبني لتلك المهمة.
تجاوزه، أو على الأقل لا تلجأ إليه افتراضياً، إذا كان عبء عملك مساراً برمجياً وكيلياً عالي الحجم. يبقى Gemini 3.5 Flash حالياً لأنه أسرع وأرخص لتلك المهمة تحديداً، وتضعه Google في هذا الموقع عن قصد. تجاوزه أيضاً إذا كنت حساساً للتكلفة ومطالباتك تقع عادة بين 150K و250K رمزاً، لأن تلك بالضبط هي المنطقة التي تعض فيها حافة تسعير الـ200K بأقسى شكل وأقله قابلية للتنبؤ. يبقى Gemini 3.1 Pro خيار الاستدلال الأرخص للعمل الذي يتسع براحة تحت طبقته الخاصة بـ200K ولا يحتاج المساحة الإضافية التي يسعى إليها هذا النموذج. لمعرفة أين يقف الثلاثة أمام بقية الميدان، يضعهم تصنيف النماذج وأداة المقارنة في benchr جنباً إلى جنب.
الحكم النهائي
يكسب Gemini 3.5 Pro درجة قوية في القدرة: نافذة سياق بـ2,000,000 رمز هي الأولى من نوعها في الصناعة، وأرقام قياسية جديدة لعائلة Gemini في كل من ARC-AGI-2 (80.0) وGPQA Diamond (95.5، أعلى درجة GPQA يتابعها benchr حالياً في أي مكان). التسعير المتدرج عند $2.50/$15 تحت 200K و$5/$22 فوقها واضح بمجرد أن تعرف أين يقع الحد، ويتبع الشكل نفسه الذي أرساه Gemini 3.1 Pro من قبل، فلا مفاجآت إن كنت قد سعّرت نموذج Gemini متدرجاً من قبل.
اختر Gemini 3.5 Pro إذا كان عملك يحتاج أعمق استدلال في عائلة Gemini، أو نافذة سياق تُقاس بالملايين، أو الاثنين معاً، وتستطيع إما إبقاء الطلبات تحت 200,000 رمز أو تقبّل سعر ما فوق 200K كثمن لتلك المساحة الإضافية. تجاوزه إذا كنت تُشغّل مساراً برمجياً وكيلياً عالي الحجم، حيث يكون Gemini 3.5 Flash أسرع وأرخص، وهو النموذج الذي توجهك Google نفسها نحوه. وتعامل مع Gemini 3.1 Pro كخيار القيمة إذا كان عمل الاستدلال لديك يتسع تحت حده الخاص بـ200K ولا يحتاج السقف الإضافي الذي يسعى إليه هذا النموذج. لتاج الاستدلال والسياق، هذا هو حالياً أقوى مقعد في تشكيلة Google.