دعوة الاستضافة الذاتية لنموذج مفتوح مغرية وخاطئة في الغالب. تقرأ أن بطاقة A100 مستأجرة تكلّف دولاراً وبعض الدولار في الساعة، وتقرأ أن النموذج المفتوح مجاني التنزيل، فتجري الحساب في رأسك: بالتأكيد يتفوّق هذا على دفع بضعة دولارات لكل مليون توكن لواجهة API. نادراً ما يتفوّق. والسبب أن ثمة رقماً لا يضعه أحد تقريباً في جدول الحسابات، وما إن تضعه حتى ينقلب القرار كلّه.
ذلك الرقم هو الإشغال (utilization). يكلّف الـGPU المبلغ نفسه في الساعة سواء كان مثبّتاً عند الحمل الكامل أو جالساً خاملاً ينتظر الطلب التالي، فالتكلفة الحقيقية للاستضافة الذاتية ليست السعر بالساعة. إنها السعر بالساعة مقسوماً على مقدار العمل الذي عصرته فعلاً من تلك الساعة. يمشي هذا المقال بالحساب مباشرةً، ويذكر الأسعار الحالية على الجانبين، ويعلّم الحجم الذي تتغيّر عنده الإجابة.
المعادلة الوحيدة التي تحسم الأمر
جرّد القرار إلى جوهره فلا تبقى سوى مقارنة واحدة. تتفوّق الاستضافة الذاتية على API حين تنخفض تكلفة إنتاج توكن واحد على GPU الخاص بك دون ما تتقاضاه API لكل توكن:
سعر GPU بالساعة ÷ (توكن/ث × 3,600 × الإشغال) < سعر API لكل توكن
الطرف الأيسر هو ما يكلّفك صنع توكن واحد. خذ سعر الـGPU بالساعة، ثم اقسمه على عدد التوكنات التي سلّمها الـGPU فعلاً في ساعة، وهو توكناته في الثانية مضروبة في 3,600 ثانية مضروبة في نسبة الساعة التي أبقيته فيها مشغولاً. الطرف الأيمن هو سعر API المعلن. وكل ما يتبع ليس إلا إدخال أرقام حقيقية في هذا السطر.
حدّ الإنتاجية هو حيث يخدع الناس أنفسهم أولاً. بطاقة A100 80GB واحدة تخدم نموذجاً من فئة Llama 70B عبر vLLM تنتج نحو 1,000 إلى 3,000 توكن إخراج في الثانية حين تجمّع طلبات كثيرة دفعةً. شغّل طلباً واحداً منفرداً فتنتج البطاقة نفسها نحو 40 إلى 60 توكناً في الثانية. الرقم المُجمَّع دفعةً هو ما يجعل الاستضافة الذاتية قابلة للحياة، ولا تبلغه إلا حين يكون لديك تدفّق ثابت من حركة متزامنة لتجميعها. لا حركة، لا تجميع، لا اقتصاد.
وحدّ الإشغال هو حيث يخدعون أنفسهم ثانياً، وبصورة أسوأ. أنزل نسبة الانشغال إلى 10 بالمئة فتصعد تكلفة كل توكن عشرة أضعاف، لأنك دفعت ثمن الساعة كاملةً واستخدمت عُشرها. GPU بحمل 10 بالمئة لا يكلّف لكل توكن أكثر بقليل من GPU بأقصى طاقته. يكلّف نحو عشرة أضعافه.
ما يكلّفه كل جانب فعلاً في يونيو 2026
ابدأ بالـGPU المستأجر. أسعار من فئة RunPod بالساعة الآن نحو 1.39 إلى 2 دولار لبطاقة A100 80GB، و2.89 إلى 3.50 دولار لبطاقة H100 80GB، ونحو 0.69 دولار لبطاقة RTX 4090 سعة 24GB (ذاكرة أقل من أن تكفي نموذجاً بحجم 70B، لكنها جيدة للأصغر). هذه أرقام الطلب الفوري (on-demand)؛ والأسعار المُلتزَم بها والفورية (spot) أقل، ويمكنك التحقّق من اللوحة الحالية على صفحة أسعار RunPod.
والآن جانب API، لفئة النموذج المفتوح نفسها. المزوّدون المُستضافون الرخيصون مثل Groq وTogether وFireworks يشغّلون نموذجاً من فئة Llama 70B بنحو 0.59 إلى 0.90 دولار لكل مليون توكن. وبعضهم ينخفض أكثر: DeepInfra هبط إلى نحو 0.12 إلى 0.23 دولار لكل مليون. وواجهة DeepSeek نفسها قرب 0.27 إلى 0.55 دولار لكل مليون. هذه هي الأسعار التي على الاستضافة الذاتية أن تتفوّق عليها، وهي منخفضة بقسوة.
| الخيار | ما هو | السعر المعلن |
|---|---|---|
| RTX 4090 24GB | GPU مستأجر، نماذج صغيرة فقط | ~$0.69/ساعة |
| A100 80GB | GPU مستأجر، يخدم نموذج 70B | $1.39–$2/ساعة |
| H100 80GB | GPU مستأجر، أسرع وأغلى | $2.89–$3.50/ساعة |
| DeepInfra (نموذج مفتوح) | API مُستضافة، بالتوكن | ~$0.12–$0.23/مليون |
| واجهة DeepSeek | API مُستضافة، بالتوكن | ~$0.27–$0.55/مليون |
| Groq / Together / Fireworks | API مُستضافة، بالتوكن | ~$0.59–$0.90/مليون |
مثال محسوب، عند ثلاثة أحجام
مرّر أحجاماً حقيقية عبر الجانبين. خذ مليار توكن شهرياً، عبئاً جاداً لكنه ليس هائلاً. عبر API مفتوحة رخيصة بسعر 0.59 إلى 0.90 دولار لكل مليون، يكلّف ذلك نحو 600 إلى 1,040 دولاراً شهرياً، ولا تشغّل بنية تحتية من أجله. ولخدمة الحمل نفسه بنفسك مع هامش وقليل من التكرار الاحتياطي، تشغّل بطاقتي A100 على الأقل على مدار الساعة. بطاقتا A100 عند 24/7 تبلغان نحو 2,880 دولاراً شهرياً للـGPU وحده، وذلك قبل أن تدفع لأحد ليُعدّه ويراقبه ويبقيه مُحدَّثاً.
إذن عند مليار توكن شهرياً، أمام API مفتوحة رخيصة، يخسر الـGPU المستأجر بفارق واسع: نحو 2,880 دولاراً مقابل نحو 880 دولاراً، وفاتورة الهندسة لم تبدأ بعد. لا تلحق الاستضافة الذاتية بتلك الواجهات المفتوحة الرخيصة حتى تدفع حركة أكبر بكثير عبر العتاد نفسه، نحو 10 إلى 50 مليار توكن شهرياً، وفقط إن أبقيت ذلك العتاد مشغولاً فعلاً. تبقى تكلفة الـGPU الثابتة مستوية بينما تتدرّج فاتورة API مع الاستخدام، فهناك تقاطع. لكنه يقع عالياً.
| الحجم الشهري | API مفتوحة رخيصة (~$0.59–$0.90/مليون) | بطاقتا A100، 24/7 (GPU فقط) | الخيار الأرخص |
|---|---|---|---|
| 100 مليون توكن | ~$59–$90 | ~$2,880 | API، بفارق هائل |
| مليار توكن | ~$590–$900 | ~$2,880 | API |
| 10 مليار توكن | ~$5,900–$9,000 | ~$2,880 | استضافة ذاتية، إن استُغلّت جيداً |
تختلف الصورة تماماً حين تقارن بواجهة API مملوكة أغلى بدلاً من مفتوحة رخيصة. النماذج المغلقة من الطبقة الرائدة تكلّف عدّة دولارات لكل مليون توكن لا أقل من دولار بكثير، فيكون جانب التوكن من المعادلة أعلى بكثير ويبلغ الـGPU المستأجر نقطة التعادل أبكر بكثير، نحو مليار توكن شهرياً بدل 10 إلى 50. العتاد نفسه الذي يخسر بشدة أمام DeepInfra يستطيع التفوّق على طبقة مملوكة فاخرة عند عُشر الحجم. ما تقارن به فعلاً يحسم كل شيء تقريباً. لأسعار النماذج المغلقة، راجع أسعار benchr الموثّقة؛ ولأرخص واجهات API المُستضافة عبر المزوّدين، راجع ترتيب أرخص واجهات LLM.
100M
API يفوز ليس قريباً. ~$90 مقابل ~$2,8801B
API يفوز ~$880 مقابل ~$2,880 للـGPU فقط10–50B
استضافة ذاتية إن بقي الإشغال عالياً~1B
استضافة ذاتية مقابل طبقة مملوكة فاخرةالتكاليف التي لا تظهر في فاتورة الاستئجار
مبلغ الـ2,880 دولاراً هو الجزء السهل عدّه، وهو الجزء الذي يجمّل الاستضافة الذاتية، لأنه الـGPU وحده فقط. الفاتورة الكاملة تشمل الناس والوقت حول الـGPU: مهندسو DevOps لإقامة العنقود، والمراقبة لتعرف متى ينهار، والتحديثات حين يشحن النموذج أو طبقة الخدمة تغييراً كاسراً، وساعات الخمول التي تدفع ثمنها كلما هبطت الحركة دون السعة. المحلّلون الذين حاولوا جمع كل ذلك يقدّرون أن التكلفة الحقيقية تبلغ نحو 3 إلى 5 أضعاف سطر الـGPU الخام.
عامِل هذا المضاعِف 3 إلى 5 كقاعدة تقريبية، لا رقماً مُدقَّقاً. المضاعِف الفعلي يعتمد على مدى براعة فريقك أصلاً في تشغيل بنية GPU التحتية، ومدى ثبات حركتك. لكن الاتجاه ليس موضع شك: السعر المعلن للـGPU هو الأرضية، لا الرقم، وحساب نقطة تعادل يتوقّف عند السعر بالساعة يحكي لك قصة مريحة لا قصة صادقة. يمشي تحليل الجهاز المحلي بفخّ التكاليف الخفية نفسه على عتادك أنت بدل عتاد مستأجر.
المسار الوسط: استأجر الـGPU وقت تشغيله فقط
ثمة خيار حقيقي بين GPU مستأجر دائم التشغيل وواجهة API بالتوكن، ويذهب مباشرةً إلى مشكلة الإشغال. يحاسب GPU بلا خادم (serverless) بالمللي ثانية ويتقلّص إلى الصفر، فحين لا يعمل شيء لا تدفع شيئاً. ولعبء متقطّع أو منخفض الحجم، تلك هي اللعبة كلها: بدل أن تدفع ثمن A100 خامل في الـ90 بالمئة من اليوم التي لا عمل لها فيها، تدفع فقط ثمن المللي ثانية التي يولّد فيها توكنات فعلاً.
المأخذ الصادق هو البدء البارد (cold start). النموذج الكبير يجب أن يُحمَّل إلى ذاكرة الـGPU قبل أن يجيب على أول طلب، ولنموذج من فئة 70B ليس ذلك التحميل فورياً. تستطيع محو التأخير بإبقاء عامل دافئ جاهز دائماً، لكن العامل الدافئ هو GPU يعمل دائماً، يكلّف ما يكلّفه استئجار دائم ويعيد وفورات وقت الخمول. فـserverless هو الأداة الصحيحة حين تكون حركتك متموّجة وتحتمل بطء أول استجابة أحياناً، والأداة الخاطئة حين تحتاج زمن استجابة منخفضاً ثابتاً طوال الساعات.
GPU مستأجر دائم التشغيل، مُجمَّع دفعةً. يبقى الإشغال عالياً، وتنخفض تكلفة كل توكن.
GPU بلا خادم، يتقلّص إلى الصفر. ادفع بالمللي ثانية، واحتمل البدء البارد.
API بالتوكن. لا بنية تحتية، ولا فاتورة خمول، ولا بدء بارد لإدارته.
إذن أيهما
الزم API افتراضياً، وابقَ عليها أطول مما يقترح حدسك. دون مليار توكن شهرياً، أمام أي API لنموذج مفتوح رخيصة، الاستضافة الذاتية على GPU مستأجر صفقة أسوأ ما إن تحسب الهندسة، بل هي صفقة أسوأ حتى قبل أن تحسبها. سعر التوكن الذي عليك التفوّق عليه منخفض إلى حدّ يصارع معه GPU مُستغَل بالكامل ليجاريه.
استضِف ذاتياً حين يصدق أمران معاً: حجمك عالٍ بما يكفي لتجاوز نطاق نقطة التعادل (نحو 10 إلى 50 مليار توكن شهرياً أمام واجهات API المفتوحة الرخيصة، وأقل بكثير أمام المملوكة الفاخرة)، وحركتك ثابتة بما يكفي لإبقاء العتاد مشغولاً فعلاً. وإن كان الحجم متوفّراً لكن الحركة متموّجة، فامدد يدك إلى GPU بلا خادم قبل عنقود دائم التشغيل، حتى تتوقّف ساعات الخمول عن المحاسبة. وإن كنت تقارن بطبقة مملوكة باهظة بدل مفتوحة رخيصة، فأعد الحساب من الصفر، لأن نقطة التعادل تلك تقع أدنى بكثير وتغدو الاستضافة الذاتية جذّابة أبكر بكثير. ولتمرير أعداد التوكنات والأسعار الخاصة بك عبره، تجري حاسبة التكلفة الحساب، ويُظهر جدول السعر بحسب حالة الاستخدام كيف تتغيّر الفاتورة بحسب شكل العبء.