تحليل·يونيو 2026·نُشر في 19 يونيو 2026

استئجار GPU مقابل الدفع بالرمز: متى تكون الاستضافة الذاتية لنموذج مفتوح أرخص فعلاً

حساب نقطة التعادل الصادق — سعر GPU بالساعة مقابل سعر API لكل مليون رمز، ولماذا الإشغال، لا السعر المعلن، هو ما يحسم القرار.

من فريق benchr · حُدِّثت في 19 يونيو 2026 · سجل التغييرات

استئجار GPU مقابل الدفع بالرمز: متى تكون الاستضافة الذاتية لنموذج مفتوح أرخص فعلاً: طبقات أدلة ومسارات للمقارنة. — **بحث النماذج**يرافق استئجار GPU مقابل الدفع بالرمز: متى تكون الاستضافة الذاتية لنموذج مفتوح أرخص فعلاً تصميم يقوم على طبقات أدلة ومسارات للمقارنة.

الإجابة المختصرة: لمعظم أعباء العمل، الزم API. واجهة برمجة لنموذج مفتوح رخيصة تكلّف نحو 0.59 إلى 0.90 دولار لكل مليون رمز، فيكلّف مليار رمز شهرياً نحو 600 إلى 1,040 دولاراً. بطاقتا A100 تعملان على مدار الساعة تكلّفان نحو 2,880 دولاراً شهرياً للـGPU وحده، قبل دقيقة هندسة واحدة. لا تتفوّق الاستضافة الذاتية على API مفتوحة رخيصة إلا عند حجم عالٍ ومُستغَل جيداً، نحو 10 إلى 50 مليار رمز شهرياً. أما أمام الطبقات المغلقة الأغلى فتأتي نقطة التعادل أبكر بكثير، قرب مليار رمز شهرياً. والرقم الذي يحسم الأمر ليس سعر الـGPU بالساعة. إنه الإشغال.

بطاقتا A100، 24/7 $2,880 فاتورة الـGPU شهرياً، قبل الهندسة

مليار رمز، API رخيصة ~$600–$1,040 شهرياً، بلا بنية تحتية لتشغيلها

نطاق نقطة التعادل 10–50B رمز/شهر مقابل API مفتوحة رخيصة

كلفة حمل 10% 10× غرامة كل رمز لـGPU خامل

دعوة الاستضافة الذاتية لنموذج مفتوح مغرية وخاطئة في الغالب. تقرأ أن بطاقة A100 مستأجرة تكلّف دولاراً وبعض الدولار في الساعة، وتقرأ أن النموذج المفتوح مجاني التنزيل، فتجري الحساب في رأسك: بالتأكيد يتفوّق هذا على دفع بضعة دولارات لكل مليون رمز لواجهة API. نادراً ما يتفوّق. والسبب أن ثمة رقماً لا يضعه أحد تقريباً في جدول الحسابات، وما إن تضعه حتى ينقلب القرار كلّه.

ذلك الرقم هو الإشغال (utilization). يكلّف الـGPU المبلغ نفسه في الساعة سواء كان مثبّتاً عند الحمل الكامل أو جالساً خاملاً ينتظر الطلب التالي، فالتكلفة الحقيقية للاستضافة الذاتية ليست السعر بالساعة. إنها السعر بالساعة مقسوماً على مقدار العمل الذي عصرته فعلاً من تلك الساعة. يمشي هذا المقال بالحساب مباشرةً، ويذكر الأسعار الحالية على الجانبين، ويعلّم الحجم الذي تتغيّر عنده الإجابة.

المعادلة الوحيدة التي تحسم الأمر

جرّد القرار إلى جوهره فلا تبقى سوى مقارنة واحدة. تتفوّق الاستضافة الذاتية على API حين تنخفض تكلفة إنتاج رمز واحد على GPU الخاص بك دون ما تتقاضاه API لكل رمز:

سعر GPU بالساعة ÷ (رمز/ث × 3,600 × الإشغال) < سعر API لكل رمز

الطرف الأيسر هو ما يكلّفك صنع رمز واحد. خذ سعر الـGPU بالساعة، ثم اقسمه على عدد الرموز التي سلّمها الـGPU فعلاً في ساعة، وهو رموزه في الثانية مضروبة في 3,600 ثانية مضروبة في نسبة الساعة التي أبقيته فيها مشغولاً. الطرف الأيمن هو سعر API المعلن. وكل ما يتبع ليس إلا إدخال أرقام حقيقية في هذا السطر.

حدّ الإنتاجية هو حيث يخدع الناس أنفسهم أولاً. بطاقة A100 80GB واحدة تخدم نموذجاً من فئة Llama 70B عبر vLLM تنتج نحو 1,000 إلى 3,000 رمز إخراج في الثانية حين تجمّع طلبات كثيرة دفعةً. شغّل طلباً واحداً منفرداً فتنتج البطاقة نفسها نحو 40 إلى 60 رمزاً في الثانية. الرقم المُجمَّع دفعةً هو ما يجعل الاستضافة الذاتية قابلة للحياة، ولا تبلغه إلا حين يكون لديك تدفّق ثابت من حركة متزامنة لتجميعها. لا حركة، لا تجميع، لا اقتصاد.

وحدّ الإشغال هو حيث يخدعون أنفسهم ثانياً، وبصورة أسوأ. أنزل نسبة الانشغال إلى 10 بالمئة فتصعد تكلفة كل رمز عشرة أضعاف، لأنك دفعت ثمن الساعة كاملةً واستخدمت عُشرها. GPU بحمل 10 بالمئة لا يكلّف لكل رمز أكثر بقليل من GPU بأقصى طاقته. يكلّف نحو عشرة أضعافه.

ما يكلّفه كل جانب فعلاً في يونيو 2026

ابدأ بالـGPU المستأجر. أسعار من فئة RunPod بالساعة الآن نحو 1.39 إلى 2 دولار لبطاقة A100 80GB، و2.89 إلى 3.50 دولار لبطاقة H100 80GB، ونحو 0.69 دولار لبطاقة RTX 4090 سعة 24GB (ذاكرة أقل من أن تكفي نموذجاً بحجم 70B، لكنها جيدة للأصغر). هذه أرقام الطلب الفوري (on-demand)؛ والأسعار المُلتزَم بها والفورية (spot) أقل، ويمكنك التحقّق من اللوحة الحالية على صفحة أسعار RunPod.

والآن جانب API، لفئة النموذج المفتوح نفسها. المزوّدون المُستضافون الرخيصون مثل Groq وTogether وFireworks يشغّلون نموذجاً من فئة Llama 70B بنحو 0.59 إلى 0.90 دولار لكل مليون رمز. وبعضهم ينخفض أكثر: DeepInfra هبط إلى نحو 0.12 إلى 0.23 دولار لكل مليون. وواجهة DeepSeek نفسها قرب 0.27 إلى 0.55 دولار لكل مليون. هذه هي الأسعار التي على الاستضافة الذاتية أن تتفوّق عليها، وهي منخفضة بقسوة.

ما يكلّفه GPU مستأجر بالساعة مقابل ما تتقاضاه API لنموذج مفتوح مُستضاف لكل مليون رمز، يونيو 2026. أسعار طلب فوري من فئة RunPod.
الخيار	ما هو	السعر المعلن
RTX 4090 24GB	GPU مستأجر، نماذج صغيرة فقط	~$0.69/ساعة
A100 80GB	GPU مستأجر، يخدم نموذج 70B	$1.39–$2/ساعة
H100 80GB	GPU مستأجر، أسرع وأغلى	$2.89–$3.50/ساعة
DeepInfra (نموذج مفتوح)	API مُستضافة، بالرمز	~$0.12–$0.23/مليون
واجهة DeepSeek	API مُستضافة، بالرمز	~$0.27–$0.55/مليون
Groq / Together / Fireworks	API مُستضافة، بالرمز	~$0.59–$0.90/مليون

مثال محسوب، عند ثلاثة أحجام

مرّر أحجاماً حقيقية عبر الجانبين. خذ مليار رمز شهرياً، عبئاً جاداً لكنه ليس هائلاً. عبر API مفتوحة رخيصة بسعر 0.59 إلى 0.90 دولار لكل مليون، يكلّف ذلك نحو 600 إلى 1,040 دولاراً شهرياً، ولا تشغّل بنية تحتية من أجله. ولخدمة الحمل نفسه بنفسك مع هامش وقليل من التكرار الاحتياطي، تشغّل بطاقتي A100 على الأقل على مدار الساعة. بطاقتا A100 عند 24/7 تبلغان نحو 2,880 دولاراً شهرياً للـGPU وحده، وذلك قبل أن تدفع لأحد ليُعدّه ويراقبه ويبقيه مُحدَّثاً.

$2,880 بطاقتا A100 تعملان 24/7 لشهر — فاتورة الـGPU وحدها، مقابل نحو 880 دولاراً لمليار رمز على API رخيصة

إذن عند مليار رمز شهرياً، أمام API مفتوحة رخيصة، يخسر الـGPU المستأجر بفارق واسع: نحو 2,880 دولاراً مقابل نحو 880 دولاراً، وفاتورة الهندسة لم تبدأ بعد. لا تلحق الاستضافة الذاتية بتلك الواجهات المفتوحة الرخيصة حتى تدفع حركة أكبر بكثير عبر العتاد نفسه، نحو 10 إلى 50 مليار رمز شهرياً، وفقط إن أبقيت ذلك العتاد مشغولاً فعلاً. تبقى تكلفة الـGPU الثابتة مستوية بينما تتدرّج فاتورة API مع الاستخدام، فهناك تقاطع. لكنه يقع عالياً.

التكلفة الشهرية بحسب الحجم: API لنموذج مفتوح رخيصة مقابل بطاقتي A100 تعملان 24/7. فاتورة الـGPU ثابتة؛ فاتورة API تتدرّج مع الرموز. تكاليف الهندسة ووقت الخمول إضافية وغير معروضة هنا.
الحجم الشهري	API مفتوحة رخيصة (~$0.59–$0.90/مليون)	بطاقتا A100، 24/7 (GPU فقط)	الخيار الأرخص
100 مليون رمز	~$59–$90	~$2,880	API، بفارق هائل
مليار رمز	~$590–$900	~$2,880	API
10 مليار رمز	~$5,900–$9,000	~$2,880	استضافة ذاتية، إن استُغلّت جيداً

تختلف الصورة تماماً حين تقارن بواجهة API مملوكة أغلى بدلاً من مفتوحة رخيصة. النماذج المغلقة من الطبقة الرائدة تكلّف عدّة دولارات لكل مليون رمز لا أقل من دولار بكثير، فيكون جانب الرمز من المعادلة أعلى بكثير ويبلغ الـGPU المستأجر نقطة التعادل أبكر بكثير، نحو مليار رمز شهرياً بدل 10 إلى 50.

العتاد نفسه الذي يخسر بشدة أمام DeepInfra يستطيع التفوّق على طبقة مملوكة فاخرة عند عُشر الحجم. ما تقارن به فعلاً يحسم كل شيء تقريباً. لأسعار النماذج المغلقة، راجع أسعار benchr الموثّقة؛ ولأرخص واجهات API المُستضافة عبر المزوّدين، راجع ترتيب أرخص واجهات LLM.

100M

API يفوز ليس قريباً. ~$90 مقابل ~$2,880

API يفوز ~$880 مقابل ~$2,880 للـGPU فقط

10–50B

استضافة ذاتية إن بقي الإشغال عالياً

~1B

استضافة ذاتية مقابل طبقة مملوكة فاخرة

التكاليف التي لا تظهر في فاتورة الاستئجار

مبلغ الـ2,880 دولاراً هو الجزء السهل عدّه، وهو الجزء الذي يجمّل الاستضافة الذاتية، لأنه الـGPU وحده فقط. الفاتورة الكاملة تشمل الناس والوقت حول الـGPU: مهندسو DevOps لإقامة العنقود، والمراقبة لتعرف متى ينهار، والتحديثات حين يشحن النموذج أو طبقة الخدمة تغييراً كاسراً، وساعات الخمول التي تدفع ثمنها كلما هبطت الحركة دون السعة. المحلّلون الذين حاولوا جمع كل ذلك يقدّرون أن التكلفة الحقيقية تبلغ نحو 3 إلى 5 أضعاف سطر الـGPU الخام.

عامِل هذا المضاعِف 3 إلى 5 كقاعدة تقريبية، لا رقماً مُدقَّقاً. المضاعِف الفعلي يعتمد على مدى براعة فريقك أصلاً في تشغيل بنية GPU التحتية، ومدى ثبات حركتك. لكن الاتجاه ليس موضع شك: السعر المعلن للـGPU هو الأرضية، لا الرقم، وحساب نقطة تعادل يتوقّف عند السعر بالساعة يحكي لك قصة مريحة لا قصة صادقة. يمشي تحليل الجهاز المحلي بفخّ التكاليف الخفية نفسه على عتادك أنت بدل عتاد مستأجر.

المسار الوسط: استأجر الـGPU وقت تشغيله فقط

ثمة خيار حقيقي بين GPU مستأجر دائم التشغيل وواجهة API بالرمز، ويذهب مباشرةً إلى مشكلة الإشغال. يحاسب GPU بلا خادم (serverless) بالمللي ثانية ويتقلّص إلى الصفر، فحين لا يعمل شيء لا تدفع شيئاً. ولعبء متقطّع أو منخفض الحجم، تلك هي اللعبة كلها: بدل أن تدفع ثمن A100 خامل في الـ90 بالمئة من اليوم التي لا عمل لها فيها، تدفع فقط ثمن المللي ثانية التي يولّد فيها رموز فعلاً.

المأخذ الصادق هو البدء البارد (cold start). النموذج الكبير يجب أن يُحمَّل إلى ذاكرة الـGPU قبل أن يجيب على أول طلب، ولنموذج من فئة 70B ليس ذلك التحميل فورياً. تستطيع محو التأخير بإبقاء عامل دافئ جاهز دائماً، لكن العامل الدافئ هو GPU يعمل دائماً، يكلّف ما يكلّفه استئجار دائم ويعيد وفورات وقت الخمول. فـserverless هو الأداة الصحيحة حين تكون حركتك متموّجة وتحتمل بطء أول استجابة أحياناً، والأداة الخاطئة حين تحتاج زمن استجابة منخفضاً ثابتاً طوال الساعات.

حركة عالية ثابتة

GPU مستأجر دائم التشغيل، مُجمَّع دفعةً. يبقى الإشغال عالياً، وتنخفض تكلفة كل رمز.

↓

حركة متقطّعة أو منخفضة

GPU بلا خادم، يتقلّص إلى الصفر. ادفع بالمللي ثانية، واحتمل البدء البارد.

↓

حجم منخفض أو متقلّب

API بالرمز. لا بنية تحتية، ولا فاتورة خمول، ولا بدء بارد لإدارته.

إذن أيهما

الزم API افتراضياً، وابقَ عليها أطول مما يقترح حدسك. دون مليار رمز شهرياً، أمام أي API لنموذج مفتوح رخيصة، الاستضافة الذاتية على GPU مستأجر صفقة أسوأ ما إن تحسب الهندسة، بل هي صفقة أسوأ حتى قبل أن تحسبها. سعر الرمز الذي عليك التفوّق عليه منخفض إلى حدّ يصارع معه GPU مُستغَل بالكامل ليجاريه.

استضف النموذج بنفسك عندما يتحقق شرطان معاً: أن يكون حجم الاستخدام كافياً لتجاوز نقطة التعادل، وأن تكون الحركة ثابتة بما يكفي لإبقاء العتاد مشغولاً. تقع نقطة التعادل قرب 10 إلى 50 مليار رمز شهرياً عند المقارنة بواجهات API المفتوحة منخفضة السعر، وتنخفض كثيراً عند المقارنة بواجهات مغلقة أعلى سعراً.

إذا كان الحجم كبيراً لكن الحركة متذبذبة، فجرّب GPU بلا خادم قبل تشغيل عنقود دائم حتى لا تدفع مقابل ساعات الخمول. وأعد الحساب من الصفر إذا تغيّر النموذج الذي تقارن به. تساعدك حاسبة التكلفة على إدخال أرقامك، ويشرح جدول السعر حسب حالة الاستخدام أثر شكل عبء العمل في الفاتورة.

أسئلة شائعة

هل استضافة Llama 70B ذاتياً أرخص أم استخدام API؟

لمعظم أعباء العمل، API أرخص. واجهة برمجة لنموذج مفتوح رخيصة تكلّف نحو 0.59 إلى 0.90 دولار لكل مليون رمز، وبعضها ينخفض إلى 0.12 إلى 0.23 دولار، فيكلّف مليار رمز شهرياً نحو 600 إلى 1,040 دولاراً. بطاقتا A100 تعملان على مدار الساعة تكلّفان نحو 2,880 دولاراً شهرياً للـGPU وحده، قبل أي هندسة. لا تلحق الاستضافة الذاتية بواجهات API المفتوحة الرخيصة إلا عند حجم عالٍ ومُستغَل جيداً، نحو 10 إلى 50 مليار رمز شهرياً. أما أمام الطبقات المغلقة الأغلى فتأتي نقطة التعادل أبكر بكثير، قرب مليار رمز شهرياً.

ما الـGPU الذي أحتاجه لخدمة نموذج بحجم 70B؟

بطاقة A100 80GB واحدة تستطيع خدمة نموذج من فئة Llama 70B عبر vLLM، بإنتاجية نحو 1,000 إلى 3,000 رمز إخراج في الثانية حين تُجمَّع الطلبات دفعةً، لكن نحو 40 إلى 60 رمزاً في الثانية لطلب واحد منفرد. بطاقة H100 80GB أسرع وأغلى. للإنتاجية الحقيقية والتكرار الاحتياطي، تشغّل الأنظمة الإنتاجية عادةً أكثر من بطاقة. أسعار يونيو 2026 بالساعة نحو 1.39 إلى 2 دولار لـA100، و2.89 إلى 3.50 دولار لـH100، ونحو 0.69 دولار لبطاقة RTX 4090 سعة 24GB.

هل يوفّر GPU بلا خادم (serverless) المال؟

لأعباء العمل المتقطّعة أو منخفضة الإشغال، نعم. يحاسب GPU بلا خادم بالمللي ثانية ويتقلّص إلى الصفر، فتتوقّف عن الدفع حين لا يعمل شيء، وهذه بالضبط مشكلة وقت الخمول التي تُغرق GPU مستأجراً يعمل دائماً. المأخذ هو البدء البارد: النموذج الكبير يجب أن يُحمَّل قبل أن يجيب، والطريقة الوحيدة لإزالة هذا التأخير هي إبقاء عامل دافئ جاهز، وهو يكلّف تقريباً كتشغيل الـGPU طوال الوقت. إنه المسار الوسط الصادق بين GPU مستأجر دائم التشغيل وواجهة API بالرمز.

ما حجم الرموز عند نقطة التعادل للاستضافة الذاتية؟

يعتمد كلياً على ما تقارن به. أمام واجهة API لنموذج مفتوح رخيصة بسعر 0.12 إلى 0.90 دولار لكل مليون رمز، تبدأ الاستضافة الذاتية المُستغَلّة جيداً بالفوز نحو 10 إلى 50 مليار رمز شهرياً. أما أمام واجهة API مملوكة أغلى، فقد تأتي نقطة التعادل قرب مليار رمز شهرياً. والعامل الأكثر تحريكاً لها هو الإشغال: GPU يعمل بحمل 10 بالمئة يكلّف لكل رمز نحو عشرة أضعاف ما يكلّفه الـGPU نفسه مُشغَّلاً بأقصى طاقته.

سجل التغييرات

19 يونيو 2026 — نُشر أول مرة. تم التحقق من أسعار الـGPU بالساعة، وأسعار واجهات API للنماذج المفتوحة المُستضافة، وأرقام الإنتاجية مقابل أسعار RunPod وتوثيق خدمته بلا خادم وأسعار المزوّدين الحالية؛ ومضاعِف التكلفة الخفية 3 إلى 5 مُعلَّم كتقدير محلّلين، لا رقماً مُدقَّقاً.

المراجع

RunPod, "GPU instance pricing," runpod.io/gpu-instance/pricing، اطُّلع عليه في يونيو 2026.
RunPod, "Serverless overview," docs.runpod.io/serverless/overview، اطُّلع عليه في يونيو 2026.
TokenMix, "Self-host LLM vs API: a break-even analysis," tokenmix.ai/blog، اطُّلع عليه في يونيو 2026.
AI Pricing Guru, "Together pricing reference," aipricing.guru/together-pricing، اطُّلع عليه في يونيو 2026.