مراجعة·يونيو 2026

GPT-5.4، مراجعة: خيار القيمة الذي لا تروّج له OpenAI

كان أقوى نموذج لدى OpenAI سبعة أسابيع قبل صدور GPT-5.5. نراجعه الآن بوصفه خياراً قد يقدم توازناً أفضل بين السعر والأداء.

من فريق benchr · نُشر في 10 يونيو 2026 · حُدّث في 29 يوليو 2026 · سجل التغييرات · أُعيد التحقق من الأرقام عبر إعلان OpenAI وصفحة النموذج الرسمية في 29 يوليو 2026

GPT-5.4، مراجعة: خيار القيمة الذي لا تروّج له OpenAI: خطوط توجيه داكنة وشرائط خضراء للقياس. — **OpenAI**يعتمد تصميم GPT-5.4، مراجعة: خيار القيمة الذي لا تروّج له OpenAI على خطوط توجيه داكنة وشرائط خضراء للقياس.

الإدخال / 1Mالمخزّن $0.25 · الإخراج $15

OSWorld-Verifiedتقييم منشور من OpenAI

سعة السياقوفق صفحة API الحالية

أقصى إخراجللمخرجات الطويلة

قيمة GPT-5.4 لا تظهر في محادثة قصيرة. النموذج موجّه لعمل مركّب: يقرأ مادة كبيرة، يقرر متى يستخدم أداة، ينفذ خطوة في واجهة، ثم ينتج ملفاً يحتاجه فريق بشري. لذلك لا يبدأ قرار الشراء من سؤال «هل أجوبته أفضل؟»، بل من سؤال «هل يقلل انتقال العمل بين عدة نماذج وأدوات ومراجعين؟».

اختبر المسار، لا الانطباع

قبل وضعه في المسار الرئيسي، اختر عملية حقيقية قليلة المخاطر: مراجعة طلب شراء، أو تحديث تقرير، أو إصلاح برمجي محدود. استخدم صلاحيات حساب تجريبي، واحتفظ بسجل الأدوات، وحدد النقطة التي يجب أن يتوقف عندها قبل تنفيذ أثر لا يمكن التراجع عنه. الجودة هنا تشمل سلامة الإجراء ووضوح الأثر، لا فصاحة النص النهائي فقط.

مصفوفة قرار عملية لتجربة GPT-5.4
نوع العمل	مدى الملاءمة	ما الذي تراجعه	سبب محتمل للرفض
التعامل مع موقع أو تطبيق مكتبي	مرشح قوي	اختيار الهدف الصحيح والتوقف عند خطوة التأكيد والتعافي من تغير الواجهة	عدم وجود بيئة تجريبية أو سجل كامل للحركات
المستندات والجداول والعروض	قوي حين تدخل الأدوات في المسار	الصيغ والمراجع والنواقص ووقت التنظيف اليدوي	الاكتفاء بالشكل الجميل وإهمال صحة المحتوى
تعديل مستودع برمجي	يحتاج اختباراً محلياً	الاختبارات المقبولة والانحدارات وعدد دورات الأدوات	اشتراط نتيجة SWE-bench Verified رسمية غير منشورة لهذا النموذج
تصنيف أو استخراج قصير ومتكرر	غالباً ليس المسار المناسب	السعر والسرعة أمام نموذج أصغر	دفع تكلفة قدرات لا تستخدمها المهمة

كيف تُقرأ الأرقام الرسمية

تنشر OpenAI لـGPT-5.4 نتيجة 83.0% على GDPval بصيغة الفوز أو التعادل، ودرجة 57.7 على SWE-Bench Pro (Public)، و75.0% على OSWorld-Verified، و82.7% على BrowseComp، و54.6% على Toolathlon. اجتماع هذه المؤشرات يدعم صورة نموذج للعمل المهني والتصفح واستخدام الحاسوب والأدوات. لكنه لا يحوّلها إلى ضمان لبيئتك، فهي تقييمات منشورة من المزوّد بإعداداته.

والاسم هنا جزء من الدقة: SWE-Bench Pro ليس SWE-bench Verified. لا تنقل درجة 57.7 إلى عمود «Verified» في وثيقة المشتريات. أبقِ اسم الاختبار كما نشرته OpenAI، ثم أضف نتيجة مستودعك أنت بوصفها الدليل الحاسم.

بوابة عمل من ثلاث مراحل

مهمة واجهة: نفّذ إجراءً قابلاً للعكس في حساب تجريبي، ثم غيّر موضع عنصر أو اسمه في تكرار لاحق. راقب هل يكتشف التغيير وهل يتوقف قبل الخطوة الحساسة.
مهمة ملف: أعطه حزمة مصادر منزوعة البيانات الحساسة واطلب جدولاً أو تقريراً يلتزم بنمط مؤسستك. احسب تعديلات المراجع والصيغ والنواقص، لا عدد الكلمات.
مهمة مستودع: استخدم خللاً محدوداً يتطلب قراءة عدة ملفات وتشغيل الاختبارات وشرح التعديل. قارن تكلفة النتيجة المقبولة ووقت المراجع بمسارك الحالي.

السياق الطويل سعة قصوى وليس وعداً بأن كل ما يوضع فيه سيُستخدم جيداً. تعرض صفحة API ‏1,050,000 رمز، لكن OpenAI تذكر اقتصاداً مختلفاً لما يتجاوز نافذة 272K القياسية. افصل نتائج الطلبات العادية عن الطويلة في التقرير المالي. وتوجد أمثلة الحساب في صفحة أسعار GPT-5.4.

متى تختاره ومتى تتجاوزه

اختره عندما…	تجاوزه عندما…
يحتاج المسار نفسه إلى تحليل وأدوات وتفاعل مع واجهة وتسليم ملف قابل للمراجعة.	تنجح المهمة القصيرة الحتمية على نموذج أصغر من دون زيادة في المراجعة.
تستطيع عزل الصلاحيات وحفظ الأثر وفرض تأكيد قبل الخطوات الحساسة.	لا تستطيع رؤية استدعاءات الأدوات أو استعادة الحالة بعد نقرة خاطئة.
تحتاج نافذة كبيرة وتملك اختباراً يقيس الاستفادة منها فعلاً.	تطلب سياسة الشراء معياراً مستقلاً أو SWE-bench Verified رسمياً.

أسئلة شائعة

ما أقوى سبب لاختيار GPT-5.4؟

اختره حين يجمع سير العمل بين مستندات احترافية واستدعاءات أدوات وتفاعل مباشر مع الحاسوب. تنشر OpenAI نتيجة 75.0% على OSWorld-Verified، وتعرض صفحة API الحالية سياقاً يبلغ 1,050,000 رمز وحد إخراج 128,000 رمز.

هل لـGPT-5.4 نتيجة رسمية على SWE-bench Verified؟

لا توجد في السجل نتيجة رسمية منشورة على SWE-bench Verified لهذا النموذج. تنشر OpenAI درجة 57.7 على SWE-Bench Pro (Public)، وهو اختبار مختلف لا يجوز تغيير اسمه.

ما الذي يجب قياسه في تجربة GPT-5.4؟

قس تكلفة التسليم المقبول، وقدرته على التعافي من خطأ أداة، وإكمال مهمة الحاسوب، ووقت المراجعة، وحجم الإدخال. اختبر السياق الطويل في مجموعة منفصلة لأن الطلبات فوق نافذة 272K القياسية لها اقتصاد استخدام مختلف.

سجل التغييرات

29 يوليو 2026 — أُعيد بناء المراجعة حول مصفوفة قرار وبوابة عمل من ثلاث مراحل؛ وصُححت سعة السياق إلى 1,050,000 وفق صفحة API الحالية؛ وأضيفت تقييمات OpenAI المنشورة مع الحفاظ على أسمائها وحدودها.
10 يونيو 2026 — نُشرت كمراجعة استرجاعية مقصودة، بعد ثلاثة أشهر من إطلاق 5 مارس. الأسعار وسعة السياق مُتحقَّقة من صفحة أسعار OpenAI؛ وأرقام OSWorld والدقة والمالية منسوبة إلى مادة الإطلاق من OpenAI؛ وفجوة SWE-bench مُعلَّمة كثغرة صادقة في السجل.

المراجع

OpenAI، Introducing GPT-5.4، 5 مارس 2026؛ أُعيد التحقق من جدول التقييمات في 29 يوليو 2026.
OpenAI API، توثيق نموذج GPT-5.4، حُققت حدود الرموز والأسعار القياسية في 29 يوليو 2026.