دليل·يونيو 2026·نُشر في 19 يونيو 2026

جهازك لا يستطيع تشغيل النماذج المفتوحة الكبيرة. إليك ما ينفع فعلاً.

لماذا لا يُحمَّل DeepSeek وLlama 70B على حاسوبك، والحلول الأربعة الحقيقية، من التكميم إلى استئجار GPU سحابي.

من فريق benchr · حُدِّثت في 19 يونيو 2026 · سجل التغييرات

جهازك لا يستطيع تشغيل النماذج المفتوحة الكبيرة. إليك ما ينفع فعلاً: كتل أجهزة ومسارات للذاكرة. — **تشغيل محلي**تظهر هوية جهازك لا يستطيع تشغيل النماذج المفتوحة الكبيرة. إليك ما ينفع فعلاً عبر كتل أجهزة ومسارات للذاكرة.

الإجابة المختصرة: النموذج لا يُحمَّل لأنه يحتاج ذاكرة VRAM أكبر مما تملكه بطاقتك. نموذج بحجم 70B يقارب 140GB بالدقة الكاملة، ونحو 40GB حتى بعد ضغطه إلى Q4، وبطاقة استهلاكية نموذجية بذاكرة 8GB أو 16GB لا تحمل شيئاً قريباً من ذلك. أمامك أربعة حلول صادقة: كمّم النموذج ليتقلّص، أو انزل إلى نموذج أصغر أو مُقطّر يتسع، أو أرسل العمل إلى API مستضاف، أو استأجر GPU سحابياً بالساعة. التكميم واختيار نموذج أصغر مجانيان. وAPI المستضاف أقلّها إعداداً. والاستئجار هو الحل حين تريد النموذج بحجمه الكامل على عتاد حقيقي دون شراء بطاقة، وتعمل بطاقة RunPod من فئة A100 80GB بنحو 1.39 دولار للساعة.

70B بالدقة الكاملة 140GB FP16، بايتان لكل وزن

70B بتكميم Q4_K_M 40GB ما زال يتجاوز بطاقة 24GB

بطاقة ألعاب نموذجية 8GB تحمل نموذج 7B بتكميم Q4

A100 80GB مستأجَرة $1.39/ساعة RunPod، يونيو 2026

وجدتَ نموذجاً تريد تشغيله. ربما هو Llama 3.3 70B، وربما نسخة من DeepSeek يتحدّث عنها الجميع. تنزّل الأوزان، وتوجّه بيئة التشغيل إليها، فيفشل التحميل أو يزحف الجهاز حتى التوقّف. هذا ليس خللاً، وليس خطأً في إعدادك. النموذج يحتاج ذاكرة رسومية أكبر مما يملكه حاسوبك. الخبر الجيد أن المشكلة مفهومة جيداً والحلول ملموسة، فلنمرّ على سبب حدوثها ثم على كل طريق حقيقي للالتفاف عليها.

لماذا لا يُحمَّل: حساب الـ VRAM

أوزان النموذج يجب أن تجلس في الذاكرة قبل أن يستطيع الـ GPU استخدامها، والقاعدة التقريبية مختصرة: الـ VRAM التي تحتاجها بالغيغابايت تقارب عدد المعاملات بالمليارات مضروباً في عدد البايتات لكل وزن. الدقة الكاملة (FP16) بايتان لكل وزن. فنموذج 70B بدقة FP16 يطلب نحو 140GB. اضغطه إلى 8 بت (Q8) فيهبط كل وزن إلى نحو بايت واحد، أي يقسم الرقم على اثنين تقريباً. انزل إلى 4 بت (Q4_K_M) فيكلّف الوزن نحو نصف بايت، فيهبط النموذج نفسه بحجم 70B قرب 40GB من الأوزان.

ثم أضف قليلاً فوق ذلك. ذاكرة KV (التي تحمل السياق الجاري) زائد الحِمل العام تلتهم 1 إلى 2GB إضافية عند سياق قصير وتنمو من هناك. والسياق الأطول ليس مجانياً أيضاً: تتوسّع ذاكرة KV خطّياً مع عدد الرموز التي تبقيها في النافذة، فجلسة بسياق طويل قد تضيف عدة غيغابايتات لا يظهرها الحساب أعلاه.

الرقم على بطاقة النموذج هو الأرضية لا السقف. المعاملات تحدّد حجم الأوزان؛ وطول السياق يضيف الباقي بهدوء.

تلك القاعدة الواحدة تفسّر كل تحميل فاشل. بطاقتك تملك قدراً ثابتاً من VRAM، والنموذج يطلب أكثر منه، ولا يوجد إعداد يُذيب الفجوة. ما تستطيع تغييره هو حجم النموذج الذي تطلب منها حمله.

ما الذي تستطيع بطاقتك حمله فعلاً

هذا هو الجزء الذي تدفنه أوراق المواصفات. بطاقات المستهلك مُصمّمة للألعاب لا لنماذج لغوية بحجم 70B، والقفزة من "يتسع" إلى "لا يتسع" حادة. الجدول أدناه يقرن فئات VRAM الشائعة بأكبر نموذج يتسع بأريحية عند Q4، وهو التكميم الذي يشغّله معظم الناس.

تقدير ذاكرة النماذج بتكميم Q4_K_M وما يتسع على كل فئة GPU، يونيو 2026. الأرقام تقريبية وتنمو مع طول السياق
النموذج	المعاملات	VRAM عند Q4	يتسع على
فئة Llama / Qwen	7B–8B	~5 GB	بطاقة 8GB (RTX 3060/4060)
متوسط الحجم	13B–14B	~9 GB	بطاقة 16GB
DeepSeek-R1-Distill	32B	~18 GB	بطاقة 24GB (RTX 3090/4090)
Llama 3.3 / Qwen 72B	70B–72B	~40 GB	48GB (بطاقتا 4090 أو شريحة M-series Max)
DeepSeek-V3 / R1 (كامل)	~671B (MoE)	130–250 GB+	مؤسسي متعدد البطاقات فقط

اقرأه من الأعلى. بطاقة 8GB، أي RTX 3060 أو 4060، تشغّل نموذج 7B أو 8B بتكميم Q4 وتتوقف عنده. بطاقة 16GB توصلك إلى نحو 13B أو 14B. وبطاقة 24GB، أي RTX 3090 أو 4090 التي تُمثّل عماد معظم الإعدادات المنزلية الجادة، تتوقف عند حدود نموذج 32B بتكميم Q4. لاحظ أين يقع 70B: ليس على سطر الـ 24GB. نموذج 70B بتكميم Q4 يحتاج نحو 40GB، فالسقف المحلي الواقعي له 48GB، أي بطاقتا 4090 موصولتان معاً أو شريحة Apple Silicon من فئة Max بذاكرة موحّدة 48GB أو أكثر.

فإن كان نموذجك لا يُحمَّل، فابحث عن سطره. وإن كان النموذج فئة أعلى مما تحمله بطاقتك، فالأقسام الأربعة التالية هي الطريق. ولرواية أوفى عن الإنتاجية والبرمجيات وحساب التكلفة حين يتسع العتاد فعلاً، راجع تشغيل النماذج على جهازك.

الحل 1: كمّم النموذج

التكميم يعني تخزين كل وزن ببتات أقل. بدل 16 بت لكل وزن تستخدم 8، أو 4، فيتقلّص الملف بالتناسب. نموذج 70B الذي يبلغ 140GB بدقة FP16 يصبح نحو 40GB عند Q4، وهذا هو الفرق بين الحاجة إلى خادم والحاجة إلى بطاقة جيدة واحدة أو حجيرة مستأجَرة. الصيغ التي ستراها هي GGUF (تستخدمها llama.cpp وOllama)، إضافة إلى AWQ وGPTQ في جانب خوادم الـ GPU.

السؤال العادل هو ما يكلّفك ذلك من الجودة، والجواب أقل مما توحي به وفورات الذاكرة. يرفع Q4_K_M، النسخة التي يستقرّ عندها معظم الناس، الحَيْرة (perplexity) بأقل من نحو 1% مقابل FP16 الكامل في معظم المهام بينما يقلّص البصمة إلى النصف تقريباً. وQ8 قريب من عديم الفقد.

لكن الحدّ الأدنى حقيقي: عند Q3 وأقل، تهبط جودة الاستدلال بشكل ستلمسه في المسائل الصعبة، فلا تكمّم تحت Q4 لمجرد الانضغاط على بطاقة أصغر بحجم واحد. معظم أوزان GGUF المُكمَّمة منشورة مباشرةً على بطاقات نماذج Hugging Face، فهذا الحل مجاني وعادةً تنزيل واحد.

أوزان نموذج 70B، بحسب التكميم

تقدير VRAM للأوزان وحدها، قبل ذاكرة KV والحِمل العام.

FP16 (كامل)

140 GB

70 GB

Q4_K_M

40 GB

الحل 2: انزل إلى نموذج أصغر أو مُقطّر

قد يكون النموذج الذي اخترته أكبر مما تحتاجه المهمة. النموذج المُقطّر هو نموذج أصغر دُرّب على محاكاة سلوك نموذج أكبر، وفي كثير من المهام تكون الفجوة أضيق مما يوحي به عدد المعاملات. وDeepSeek هو المثال الواضح: لا تستطيع تشغيل النموذج الكامل بحجم 671B في البيت، لكن DeepSeek-R1-Distill-32B يتسع في نحو 18GB بتكميم Q4، ونسخة 14B في نحو 9GB، ونسخة 7B المُقطّرة في نحو 5GB على بطاقة 8GB. العائلة نفسها، النكهة نفسها من الإخراج، جزء يسير من الذاكرة.

هذا هو الحل الذي تلجأ إليه حين يفي نموذج 7B أو 14B بالعمل وكنت تشغّل 70B بحكم العادة فقط. لا يكلّف شيئاً، ويُحمَّل على البطاقة التي تملكها أصلاً، والإنتاجية أفضل بكثير لأن النموذج أصغر. ولاختيار نموذج يناسب عتادك عن قصد، راجع النماذج اللغوية الصغيرة لفئة ما دون 10B وفئة الأوزان المفتوحة الآن لمعرفة موقع كل عائلة.

8GB

7B مُقطّر ~5GB عند Q4

16GB

14B ~9GB عند Q4

24GB

32B ~18GB عند Q4

48GB

70B ~40GB عند Q4

الحل 3: استخدم API مستضافاً

إن كنت لا تهتم فعلاً بتشغيل الأوزان بنفسك، فالجواب الأقل جهداً هو ألا تشغّلها أبداً. يخدم الـ API المستضاف النموذج من عتاد شخص آخر ويحاسبك لكل رمز، بلا أي إعداد ولا VRAM تفكّر فيها. ولنموذج DeepSeek الكامل، يكون هذا غالباً القرار الحكيم: تتجاوز مشكلة العتاد بحجم 130 إلى 250GB كلياً وتدفع فقط مقابل ما ترسله. المقايضة أن بياناتك تغادر جهازك وأن التكلفة تتدرّج مع الاستخدام بدل أن تبقى ثابتة.

هذا المسار منطقي حين يكون النموذج أكبر من أن يُستضاف، أو حين تحتاجه أحياناً، أو حين لا يستحق شراء العتاد وصيانته لحجمك. ولمقارنة الأسعار لكل رمز عبر المجال المفتوح والمغلق، يسرد ترتيب النماذج كلّاً منها، وتحوّل حاسبة التكلفة حجم رموزك إلى رقم شهري فتوازنه بالحلول الأخرى.

الحل 4: استأجر GPU سحابياً بالساعة

إليك الخيار الذي يحلّ الحالة التي لا تحلّها الثلاثة الأخرى: تريد النموذج بحجمه الكامل، على GPU حقيقي تتحكّم فيه، دون إنفاق آلاف الدولارات على بطاقة. تستأجر الـ GPU بالساعة. تحصل على صلاحية الجذر على جهاز فيه A100 أو H100، تحمّل ما تشاء من الأوزان، تشغّل مهمتك، وتطفئه حين تنتهي. لا شراء، ولا تبديل نموذج، ولا محاسبة لكل رمز بشروط شخص آخر.

هذا هو الحل الصحيح حين تحتاج VRAM جادّة بين الحين والآخر فقط: تشغيلة ضبط دقيق في عطلة نهاية أسبوع، أو مهمة دفعة لمرة واحدة، أو اختبار نموذج 70B قبل أن تقرّر شراء العتاد أصلاً. البطاقة التي تستخدمها بضع ساعات في الأسبوع هي غالباً نفقة معطّلة، والاستئجار يحوّل تلك التكلفة الثابتة إلى تكلفة متغيّرة صغيرة. المحاذير أنك تدفع ما دامت الحجيرة تعمل، فتشغّلها للعمل وتطفئها بعده، بدل أن تتركها تعمل.

التسعير هو الجزء الذي يجعله مجدياً للمهام العَرَضية. حتى يونيو 2026، يسرد RunPod بطاقة RTX 4090 24GB بنحو 0.69 دولار للساعة، وA100 80GB بنحو 1.39 دولار، وH100 80GB بنحو 2.89 دولار، مع حجيرات عند الطلب تنهض في نحو 30 ثانية. وقوالب vLLM وOllama بضغطة واحدة تشغّل أي نموذج من Hugging Face توجّهها إليه، بما فيها Llama وQwen وDeepSeek وGemma وPhi، فلا بيئة تبنيها من الصفر.

أجرِ المقارنة لحالتك أنت. بطاقة A100 بـ 1.39 دولار للساعة تكلّف نحو 33 دولاراً ليوم كامل، أو نحو 1.39 دولار للساعة الواحدة التي احتجتها فعلاً. أمام بطاقة بأكثر من 2,000 دولار تجلس معطّلة معظم الأسبوع، يفوز الاستئجار في كل شيء عدا الاستخدام المتواصل طوال اليوم. وإن كنت تشغّل الاستدلال على مدار الساعة، فتلك هي النقطة التي يبدأ عندها امتلاك العتاد بالتسديد، ويبيّن حساب التكلفة في تشغيل النماذج على جهازك أين يقع الخطّ الفاصل.

1. احسب VRAM النموذج

المعاملات بالمليارات × بايتات لكل وزن، زائد 1–2GB.

↓

2. يتسع على بطاقتك؟

نعم: كمّم إلى Q4 وشغّله محلياً.

↓

3. قريب لكنه أكبر؟

انزل إلى نموذج أصغر أو مُقطّر يتسع.

↓

4. أكبر بكثير؟

API مستضاف بلا إعداد، أو استأجر GPU للتحكّم الكامل.

فأي حلّ هو حلّك

طابِق الحل مع الفجوة. إن كان النموذج أكبر قليلاً فقط، فكمّمه إلى Q4 وشغّله على البطاقة التي تملكها. وإن كان فئة أو فئتين فوق بطاقتك، فانزل إلى نموذج أصغر أو مُقطّر يتسع، فنموذج 14B عند Q4 يتفوّق على 70B لا تستطيع تحميله أصلاً. وإن كان النموذج أبعد بكثير من أي جهاز واحد، مثل DeepSeek-V3 أو R1 الكامل، فالسؤال هو التحكّم: الجأ إلى API مستضاف حين تريد صفر إعداد ومحاسبة لكل رمز، واستأجر GPU سحابياً حين تريد الأوزان الفعلية على عتاد حقيقي دون شرائه.

الشيء الوحيد الذي يجب ألا تفعله هو الاستمرار في محاولة حشر نموذج على بطاقة لا تستطيع حمله. قاعدة الـ VRAM لا تنحني. لكن كل نموذج سمعت به له طريق إلى التشغيل، سواء كان تنزيلاً مُكمَّماً، أو شقيقاً أصغر، أو نداء API، أو ساعة بـ 1.39 دولار على A100 مستأجَرة، والآن تعرف أيّها يناسب وضعك.

أسئلة شائعة

هل أستطيع تشغيل Llama 70B على بطاقة بذاكرة 24GB؟

لا. نموذج بحجم 70B بتكميم Q4_K_M يحتاج نحو 40GB من VRAM زائد هامش إضافي، فلن يتسع على بطاقة واحدة بذاكرة 24GB مثل RTX 3090 أو 4090. بطاقة 24GB تتوقف عند حدود نموذج بحجم 32B بتكميم Q4. ولتشغيل 70B محلياً تحتاج نحو 48GB، أي بطاقتي 4090 أو شريحة Apple Silicon من فئة Max بذاكرة موحّدة 48GB أو أكثر.

هل استئجار GPU أرخص من شرائه؟

للاستخدام العَرَضي، نعم. يؤجّر RunPod بطاقة A100 80GB بنحو 1.39 دولار للساعة، وH100 80GB بنحو 2.89 دولار للساعة حتى يونيو 2026، مع محاسبة بالثانية. إن كنت تحتاج البطاقة الكبيرة لبضع ساعات في الأسبوع فقط، فالاستئجار يكلّف جزءاً يسيراً من بطاقة بآلاف الدولارات ستتركها معطّلة معظم الوقت. وإن كنت تشغّل الاستدلال طوال اليوم كل يوم، فامتلاك العتاد يفوز مع الوقت.

ما أرخص طريقة لتشغيل DeepSeek؟

نموذج DeepSeek-V3 أو R1 الكامل يبلغ نحو 671B معاملاً ويحتاج 130 إلى 250GB أو أكثر من VRAM، فهو من فئة المؤسسات متعددة البطاقات، لا مهمة جهاز واحد. المسار الرخيص للأفراد نسخة مُقطّرة: يعمل DeepSeek-R1-Distill-32B في نحو 18GB بتكميم Q4، وتتسع نسخة 7B المُقطّرة في نحو 5GB. وإن احتجت النموذج الكامل، فإن API مستضاف أو حجيرة مستأجَرة متعددة البطاقات هي المسار الواقعي.

هل يضرّ التكميم بالجودة؟

قليلاً، وأقل مما يتوقّع الناس عند المستوى الصحيح. يرفع Q4_K_M الحَيْرة (perplexity) بأقل من نحو 1% مقابل FP16 الكامل في معظم المهام بينما يقلّص الذاكرة إلى النصف تقريباً، ولهذا هو نقطة التوازن الشائعة. وQ8 شبه عديم الفقد. تحت Q4، عند Q3 وأقل، تبدأ جودة الاستدلال بالتدهور بوضوح، فهذا هو الحدّ الأدنى للعمل الجاد.

سجل التغييرات

19 يونيو 2026 — نُشر أول مرة.

المراجع

RunPod, "GPU instance pricing," runpod.io/gpu-instance/pricing، اطُّلع عليه في يونيو 2026.
RunPod, "Get started with the vLLM worker," docs.runpod.io، اطُّلع عليه في يونيو 2026.
Hugging Face, "Model cards," huggingface.co، اطُّلع عليه في يونيو 2026.
Database Mart, "How much VRAM do you need for 7B–70B LLMs," databasemart.com، اطُّلع عليه في يونيو 2026.