ماذا يغطي هذا الدليل
ثلاث مقالات، وقرار شراء واحد. جدول السعر لكل حالة استخدام يفصّل تكلفة كل نوع عمل عبر النماذج التجارية الكبرى. مقالة سعات السياق تشرح لماذا لا تكون أرقام النافذة المعلنة هي ما تستطيع استخدامه فعلاً. ومقالة تسويق المليون توكن تحاجج بأن معظم فواتير السياق الطويل مهدورة مقارنةً بنظام استرجاع مبني كما يجب.
التسعير بحسب نوع العمل
-
جدول السعر لكل حالة استخدام
ستة أنواع عمل، ثلاثة نماذج متقدمة، والأرخص لكل واحد. الدردشة تكلّف 0.014$ للدور على Sonnet. استعلامات RAG بـ 0.036$. ملخصات المستندات ترتفع إلى 0.18$. وجلسات الوكلاء قد تتجاوز 50$ إن لم تضع لها سقفاً.
-
سجل أسعار واجهات الذكاء الاصطناعي: السجل الدائم
المزوّدون يعيدون كتابة صفحات التسعير فتختفي الأرقام القديمة. سجل benchr لا يُمحى منه شيء، يحفظ كل سعر وتغيير وإيقاف موثَّق — مؤرَّخاً، موصولاً بمصدره، وقابلاً للتنزيل كبيانات مفتوحة تحت رخصة CC BY 4.0.
اقتصاد سعة السياق
-
سعات السياق مقارنةً عبر أربعة نماذج متقدمة
النافذة المعلنة مقابل منطقة الاسترجاع الفعلية. Claude يقول 1M، ويسترجع بثبات حتى نحو 600K. Gemini يقول 2M، ويصمد حتى نحو 800K. الفجوة مهمة — معظم الفرق يسعّرون على النافذة المعلنة ويدفعون مقابل الفعلية.
-
المليون توكن كان دائماً رقماً تسويقياً
200K توكن على Claude Opus تكلّف نحو 1$ للاستعلام. الإجابة نفسها عبر RAG تكلّف 0.06$. هذا فرق 17 ضعفاً للسؤال الواحد. عند حجم معتبر، تفرض بنية التكلفة المعمارية. ابنِ على الاسترجاع أولاً.
متى تتجاوز النماذج المتقدمة كلياً
-
RAG مقابل الضبط الدقيق، مع الحساب
RAG يفوز في كل مرة تقريباً. الاستثناءات الثلاثة التي يستحق فيها الضبط الدقيق مكانه، والحساب وراء كل واحد، وتفصيل التكلفة عبر الأساليب.
-
النماذج اللغوية الصغيرة، في الاستخدام العملي
Phi-4 mini يبلغ دقة تصنيف 94% بتكلفة حدّية صفر. الفارق بنقطتين عن Sonnet 4.6 لا يستحق 16$ يومياً من إنفاق الـ API عند ذلك الحجم.
انضباط التكلفة الذي ينجح
ثلاث قواعد من عام من مراقبة فواتير الذكاء الاصطناعي في الإنتاج وهي تنفلت.
أولاً: قيّد المخرجات. ضع سقفاً لعدد التوكنز الأقصى. افرض صيغاً منظَّمة. اطلب "بلا مقدمات" واختصر في كل مكان. المخرجات هي حيث يذهب المال. راجع مقالة هندسة المطالبات للتقنيات.
ثانياً: خزّن البادئة مؤقتاً. Anthropic وGoogle وOpenAI كلها تدعم التخزين المؤقت للمطالبات بنحو 10% من سعر المدخلات القياسي. إن كانت مطالبة النظام لديك واحدة في كل نداء، فأنت تدفع 10 أضعاف ما يلزم لأنك لا تخزّن مؤقتاً.
ثالثاً: وجّه بحسب نوع العمل. استخدم النموذج المحلي الصغير للتصنيف. استخدم Sonnet أو Flash للتوليد الروتيني. واحتفظ بـ Opus وGPT-5 للنداءات التي تبرر التكلفة. أداة المقارنة تساعدك على تحديد أي نموذج يناسب أي نوع عمل.