نموذجان، ميزانية واحدة، آلتان مختلفتان تماماً. هذه هي المقارنة النادرة التي تستطيع فيها تجاهل ورقة الأسعار — بضعة سنتات لكل مليون توكن تفصل بينهما في أيٍّ من الاتجاهين بحسب نسبة الإدخال/الإخراج لديك. كل ما يهمّ هنا يقع في أعمدة الهندسة.
المواصفات جنباً إلى جنب
| البُعد | GPT-5 | Gemini 3.5 Flash |
|---|---|---|
| الإدخال / 1M | $1.25 | $1.50 |
| الإخراج / 1M | $10.00 | $9.00 |
| الإدخال المخزَّن / 1M | — | $0.15 |
| طبقة API مجانية | لا | نعم |
| سعة السياق | 400,000 | 1,048,576 |
| أقصى إخراج | 128,000 | 65,536 |
| أول توكن (تقدير benchr) | 520ms | 195ms |
| الإنتاجية (تقدير benchr) | 90 tok/s | 289 tok/s |
السرعة هي عرض Flash كله
عند 195ms حتى أول توكن و289 توكن/ثانية في تتبّع benchr، يُعدّ Flash من أسرع النماذج بطبقة المقدّمة في السوق — أسرع بنحو 3× من إنتاجية GPT-5. للمحادثة الموجَّهة للمستخدم، ومساعدي البرمجة الحيّة، وأي منتج يراقب فيه أحدٌ بثّ الإجابة، يكون ذلك الفارق مرئياً بالعين المجرّدة. إجابة من 2,000 توكن تستغرق نحو 7 ثوانٍ في البثّ على Flash و22 على GPT-5. لا يوجد خصم سعر يشتري لك خمس عشرة ثانية من انتباه المستخدم.
أين يصمد GPT-5
سقف الإخراج والمنظومة. أقصى إخراج لـ GPT-5 البالغ 128K يضاعف 64K لدى Flash — وهذا مهمّ لتوليدات الشيفرة الطويلة وصياغة المستندات في استدعاء واحد. وحكاية التكامل تتكرّر من كل مقارنة مع OpenAI: أُطُر أكثر، واستدعاء دوال أكثر اختباراً في الميدان، وتوافق فوري أكثر. أما في البرمجة، فيتتبّع benchr لـ Flash درجة 80.6% على SWE-bench Verified مقابل 74.9% الرسمية لـ GPT-5 — اقرأ تلك الفجوة على أنها إرشادية، إذ إن رقم Flash تقدير تحريري في فهرس benchr، مُعلَّم على هذا النحو، بينما رقم GPT-5 رسمي. وفي مراجعة Flash الصورة الأكمل.
التواء الطبقة المجانية
لدى Flash طبقة API مجانية؛ وGPT-5 لا. للنماذج الأولية والأدوات الداخلية والمشاريع الجانبية منخفضة الحجم، ليس ذلك خطأ تقريب — بل هو الفاتورة كلها. ينبغي لكثير من الفِرق أن تصنع نماذجها الأولية على طبقة Flash المجانية، وتقيس، ثم تقرّر بعدها فقط أين تذهب حركة المرور المدفوعة. وفي جولة الذكاء الاصطناعي المجاني خريطة لحدود الطبقة المجانية.