تفصيل التسعير
| الطبقة | السعر / مليون توكن |
|---|---|
| الإدخال القياسي (≤200 ألف) | $2.50 |
| الإدخال القياسي (>200 ألف) | $5.00 |
| الإخراج القياسي (≤200 ألف) | $15.00 |
| الإخراج القياسي (>200 ألف) | $22.00 |
| الإدخال المخزَّن مؤقتًا | $0.25 |
| تخزين الذاكرة المؤقتة | $1.00 لكل مليون توكن-ساعة |
| إدخال الدُّفعات (≤200 ألف) | $1.25 |
| إخراج الدُّفعات (≤200 ألف) | $7.50 |
| إدخال الدُّفعات (>200 ألف) | $2.50 |
| إخراج الدُّفعات (>200 ألف) | $11.00 |
| الطبقة المجانية | غير متوفرة |
| سعة السياق | 2,000,000 توكن |
| أقصى إخراج | 100,000 توكن |
التسعير المتدرّج: ما الذي يتغيّر فوق 200,000 توكن
يستخدم Gemini 3.5 Pro الشكل المتدرّج نفسه الذي طرحته Google مع Gemini 3.1 Pro، لكن بسعر أساس أعلى. ابقَ عند 200,000 توكن من السياق في النداء الواحد أو أقل وتدفع 2.50$ للمليون إدخال و15$ للإخراج. تجاوز هذا الحدّ — ولو بتوكن واحد — ويُعاد تسعير النداء بأكمله: 5$ للمليون إدخال (زيادة 100%) و22$ للإخراج (زيادة 46.7%، إذ إنّ 22$ يزيد 7$ عن 15$، و7$ ÷ 15$ = 0.467). هذا حدّ لكل نداء، لا سقف شهري، لذا فإنّ الحمل الذي يمزج بين نداءات قصيرة وطويلة يدفع السعر الأدنى على القصيرة والسعر الأعلى على الطويلة فقط.
نافذة السياق البالغة 2,000,000 توكن
عند 2,000,000 توكن، تُعدّ نافذة سياق Gemini 3.5 Pro الأكبر في طبقة الطليعة عند إطلاقها — أي ضِعف تقريبًا سياق GPT-5.6 Sol البالغ 1,100,000 توكن، وضِعفا سياق Claude Sonnet 5 البالغ 1,000,000 توكن بالضبط. وهذه المساحة الإضافية هي بيت القصيد من النموذج: الأحمال التي تحتاج سياقًا أكبر ممّا يقدّمه أيّ نموذج طليعي آخر في هذا التحديث أصبح لها الآن وجهة. والمقابل هو التسعير المتدرّج أعلاه وسقف الإخراج: أقصى إخراج لكل نداء هو 100,000 توكن، أي نصف سقف Claude Sonnet 5 البالغ 200,000 توكن، لذا يظلّ توليد الاستجابة الواحدة الطويلة جدًا يفضّل نموذج أنثروبيك الجديد متوسّط الطبقة رغم أن Gemini 3.5 Pro يستطيع استيعاب كمية أكبر بكثير من المدخلات.
GPQA Diamond عند 95.5: أعلى نتيجة يتتبعها benchr
يختبر GPQA Diamond أسئلة بمستوى الدكتوراه في الأحياء والكيمياء والفيزياء. ونتيجة Gemini 3.5 Pro البالغة 95.5% هي الأعلى التي يتتبعها benchr في هذا التحديث — متقدّمة على Gemini 3.1 Pro (94.3%) وClaude Opus 4.8 (93.6%) وClaude Sonnet 5 (92.0%) وGPT-5.6 Sol (91.2%). وهي أيضًا أعلى نتيجة تسجّلها عائلة Gemini على ARC-AGI-2، عند 80.0 مقابل 77.1 لـGemini 3.1 Pro. لكنّ هذه الفجوة لا تنتقل إلى البرمجة: فعلى SWE-bench Verified، تتخلّف نتيجة Gemini 3.5 Pro البالغة 85.5% عن GPT-5.6 Sol (89.8%) وClaude Sonnet 5 (89.4%). وجِّه العمل العلمي والبحثي كثيف الاستدلال إلى هنا؛ ووجِّه عمل الوكلاء كثيف البرمجة إلى مكان آخر.
أين يقع Gemini 3.5 Pro في عائلة Gemini
يقع Gemini 3.5 Pro فوق كلٍّ من Gemini 3.1 Pro وGemini 3.5 Flash — فهو أعمق نموذج استدلالًا وأطولها سياقًا بين ما تقدّمه Google، وأُطلق بعد أن كان Flash قد تفوّق فعلًا على 3.1 Pro في بنشماركات البرمجة. إن كان حِملك حسّاسًا للكمون أو مصمَّمًا لوكلاء البرمجة، يبقى Flash الخيار الأسرع والأرخص. وإن احتجت سياقًا أو عمق استدلال أكبر ممّا يوفّره 3.1 Pro، فـ3.5 Pro هو مسار الترقية. استخدم أدوات المقارنة في benchr أو تصنيفات النماذج لموازنة هذا مقابل خيارات خارج عائلة Gemini لحملك تحديدًا.
سيناريوهات التكلفة
نداء واحد طويل السياق. نداء واحد يستخدم 1,000,000 توكن إدخال يتجاوز عتبة الـ200 ألف، فيُحتسب النداء كلّه بالطبقة الأعلى: 1,000,000 × 5$/مليون = 5.00$ للإدخال. أضف 20,000 توكن إخراج بسعر 22$/مليون = 0.44$. الإجمالي: 5.44$ لهذا النداء الواحد.
شهر نموذجي، نداءات دون 200 ألف. عند 10 ملايين توكن إدخال + 2 مليون إخراج شهريًا، كلّها ضمن طبقة الـ200 ألف لكل نداء: 10 × 2.50$ = 25$ إدخال، 2 × 15$ = 30$ إخراج، الإجمالي 55$ شهريًا. الحجم نفسه على Claude Opus 4.8 (5$/25$): 10 × 5$ = 50$ إدخال، 2 × 25$ = 50$ إخراج، الإجمالي 100$ شهريًا — يكلّف Gemini 3.5 Pro 55% من ذلك، أي توفير 45%. ومقابل GPT-5.6 Sol (5$/30$) بالحجم نفسه: 50$ + 60$ = 110$ شهريًا — Gemini 3.5 Pro هو نصف ذلك بالضبط.
الشهر نفسه، نداءات فوق 200 ألف. إذا تجاوز كلّ نداء في ذلك الشهر (10 ملايين/2 مليون) عتبة الـ200 ألف: 10 × 5$ = 50$ إدخال، 2 × 22$ = 44$ إخراج، الإجمالي 94$ شهريًا — أعلى بنسبة 70.9% من سيناريو ما دون 200 ألف (39$ أكثر على أساس 55$)، لكنه يبقى أرخص بنسبة 6% من Claude Opus 4.8 عند 100$ شهريًا، وأرخص بنسبة 14.5% من GPT-5.6 Sol عند 110$ شهريًا بالحجم نفسه.
الإدخال المخزَّن مؤقتًا. عند معدّل إصابة تخزين 90% ضمن طبقة الـ200 ألف: 0.9 × 0.25$ + 0.1 × 2.50$ = 0.225$ + 0.25$ = 0.475$ فعليًا لكل مليون — خفض 81% عن السعر غير المخزَّن البالغ 2.50$. لاحظ أنّ رسم تخزين الذاكرة المؤقتة المنفصل، البالغ 1$ لكل مليون توكن-ساعة، يُضاف فوق سعر القراءة المخفّض هذا، لذا يتوقّف اقتصاد التخزين على مدة احتفاظك بالسياق في الذاكرة المؤقتة، لا على معدّل الإصابة وحده.
معالجة الدُّفعات. خصم الدُّفعات ثابت 50% في الطبقتين: 1.25$/7.50$ عند 200 ألف توكن أو أقل (1.25$ ÷ 2.50$ = 50%، 7.50$ ÷ 15$ = 50%)، و2.50$/11$ فوقها (2.50$ ÷ 5$ = 50%، 11$ ÷ 22$ = 50%). للمهام غير التفاعلية عالية الحجم حيث لا يكون زمن التنفيذ هو القيد، تخفّض الدُّفعات الفاتورة إلى النصف بغضّ النظر عن طبقة السياق التي أنت فيها.
ملاءمة الاستخدام
الأنسب لـ: النداءات الفردية التي تحتاج فعليًا أكثر من 1,000,000 توكن من السياق؛ الاستدلال العلمي والبحثي بمستوى الدكتوراه حيث يهمّ عمق GPQA Diamond؛ الفرق العاملة أصلًا على Gemini 3.1 Pro التي تصطدم بسقف سياقه أو استدلاله؛ الأحمال التي تهمّ فيها نتيجة الاستدلال المطلقة أكثر من إنتاجية البرمجة.
تجاوزه إذا: كانت نداءاتك غالبًا دون 200,000 توكن ولا تحتاج عمق GPQA بمستوى الطليعة — فـGemini 3.5 Flash أسرع وأرخص لعمل وكلاء البرمجة. تجاوزه أيضًا إن كان SWE-bench Verified هو مقياسك الأساسي — فكلٌّ من Claude Sonnet 5 (89.4%) وGPT-5.6 Sol (89.8%) يتفوّقان على نتيجة Gemini 3.5 Pro البالغة 85.5%. وتجاوزه إن احتجت أكثر من 100,000 توكن إخراج لكل نداء — فسقف Claude Sonnet 5 البالغ 200,000 توكن ضِعف ذلك.
قائمة القرار
قِس طول السياق النموذجي لديك قبل الالتزام: إن كان حجم نداءاتك عند المئين التسعين (p90) يتجاوز 200,000 توكن باستمرار، فضَع ميزانيتك على طبقة 5$/22$، لا على السعر المعلن 2.50$/15$ — فالفارق يتراكم بسرعة عند الحجم الكبير، كما توضّح سيناريوهات التكلفة أعلاه.
تأكّد ممّا إذا كان عمق الاستدلال على طراز GPQA هو عنق الزجاجة فعلًا، أم أنك تحسّن في الواقع لإنتاجية البرمجة. إن كان الأخير، فكلٌّ من Gemini 3.5 Flash وClaude Sonnet 5 أرخص ويسجّل أعلى على SWE-bench Verified من Gemini 3.5 Pro.