إليك الموقف الذي يقود معظم الناس إلى طريق مسدود. عندك بضعة آلاف من الأمثلة لكيف تريد أن يجيب النموذج: ردود دعم بنبرة بيتك، استخراجات مُهيكلة وفق مخطّطك، ولهجة لا يصيبها النموذج الجاهز تماماً. تريد أن تبني ذلك داخل النموذج بضبط دقيق. ثم تتفحّص ما يحتاجه الضبط فتجد الـGPU الذي تملكه يقصّر بمسافة شاسعة. الخلاصة المعتادة أن عليك إنفاق آلاف الدولارات على العتاد أولاً. لا. الإجابة الصادقة أنك تستأجر GPU قادراً لساعات قليلة، تدفع حفنة دولارات، وتُطفئه حين تنتهي المهمة.
ما يعيقك هو الذاكرة، وتحديداً الـVRAM. فيستحق الأمر دقّةً في سبب عجز جهازك عن المهمة، لأن الدقّة نفسها تخبرك تماماً كم من الـGPU المستأجر يحتاجه العمل.
لماذا يعجز جهازك عادةً عن المهمة
الضبط الكامل يحدّث كل وزن في النموذج، وهذا يكلّف ذاكرة أكثر بكثير من مجرّد تشغيله. أنت تحمل الأوزان، زائد التدرّجات لكل وزن، زائد حالات المُحسِّن. مُحسِّن Adam وحده يحتفظ برقمين إضافيين لكل وزن. اجمعها فيطلب الضبط الكامل نحو أربعة أضعاف الذاكرة التي يطلبها الاستدلال. نموذج 7B تحادثه في نحو 14GB يحتاج في حدود 60GB كي يُضبط ضبطاً كاملاً. ونموذج 70B يتجاوز 480GB، أي رفّاً من بطاقات GPU، لا محطة عمل.
الآن انظر إلى ما يمكنك شراؤه. تتوقّف بطاقات المستهلك عند 24GB من الـVRAM. تلك الفجوة، 24GB في اليد مقابل 60GB يطلبها أصغر نموذج جادّ، هي المشكلة كلها. ولا يصلحها أي قدر من الصبر، لأن الجلسة ببساطة لن تتّسع في الذاكرة وتنهار قبل أن تبدأ. هذا هو الجدار نفسه الموصوف في تشغيل النماذج على جهازك، إلا أن التدريب يجعله أعلى، فالاستدلال هو الجزء الرخيص والضبط الدقيق هو الجزء الباهظ.
LoRA وQLoRA يقلبان الحساب
الحلّ ليس جهازاً أكبر. الحلّ تدريب أقلّ من النموذج. يجمّد LoRA، اختصار التكيّف منخفض الرتبة، النموذج الأساس بكامله ويدرّب فقط طبقات محوّل صغيرة مثبّتة عليه. تحدّث جزءاً ضئيلاً من المعاملات، فتتقلّص التدرّجات وحالات المُحسِّن إلى لا شيء تقريباً. ويذهب QLoRA خطوة أبعد: يكمّم الأساس المجمّد إلى 4-بت ويدرّب تلك المحوّلات بدقة 16-بت فوقه. الأساس بالكاد يشغل حيّزاً لأنه مضغوط، والجزء القابل للتدريب صغير أصلاً.
أرقام الـVRAM تروي القصة. جلسة QLoRA لـ 7B تتّسع في نحو 5–6GB، وهو ما تحمله بطاقة مستهلك دون عناء. وجلسة 13B تحتاج نحو 10–12GB. وجلسة QLoRA لـ 70B تقع نحو 48GB، وهو ما يتّسع على A100 80GB واحدة بهامش مريح. ذلك الرقم الأخير هو المهم: النموذج الذي تحتاج 480GB لضبطه ضبطاً كاملاً يتدرّب على GPU مستأجر واحد بمجرّد أن تنتقل إلى QLoRA.
هناك ثمن لضغط الأساس، ومن الإنصاف تسميته. يقع QLoRA نحو 80 إلى 90% من جودة ضبط كامل على البيانات نفسها. وLoRA بدقة 16-بت، الذي يتجاوز خطوة الـ 4-بت، يقترب أكثر، نحو 90 إلى 95%، بثمن مزيد من الـVRAM. لمعظم المهام، حيث تعلّم النموذج صياغةً أو نبرةً أو مجالاً بدل مطاردة معيار، QLoRA هو نقطة البداية الصحيحة. ارتقِ إلى LoRA بـ 16-بت فقط إن شغّلت تمريرة QLoRA وقرّرت أنك تحتاج النقاط القليلة الأخيرة. والتقنية الأساسية موثّقة في ورقة QLoRA وفي مكتبة PEFT من Hugging Face، وهي العُدّة التي تستدعيها معظم سكربتات التدريب هذه تحت الغطاء.
| الطريقة | VRAM، 7B | VRAM، 70B | واقعي على GPU مستأجر؟ |
|---|---|---|---|
| ضبط كامل | ~60 GB | 480 GB+ | 7B نعم على بطاقة كبيرة؛ 70B يحتاج رفّ GPU متعدّد |
| LoRA بـ 16-بت | ~16 GB | ~130 GB | 7B بسهولة؛ 70B يحتاج بطاقتي 80GB |
| QLoRA (أساس 4-بت) | 5–6 GB | ~48 GB | نعم، كلاهما يتّسع على A100 80GB |
النموذج الذي تحتاج رفّاً بسعة 480GB لضبطه ضبطاً كاملاً يتدرّب على GPU مستأجر واحد بمجرّد أن تنتقل إلى QLoRA. تلك الحقيقة وحدها هي ما يحوّل "اشترِ خادماً" إلى "استأجر بطاقة لظهيرة واحدة"، وهي السبب في أن سؤال العتاد يتلاشى غالباً.
استأجر GPU للتدريب
بمجرّد أن تتّسع الجلسة في 48GB، لا تحتاج لامتلاك أي شيء. تؤجّر عدة جهات سحابية بطاقات GPU بالساعة، تشغّل واحدة فقط لجلسة التدريب، وتفكّكها لحظة انتهائها. التكلفة مجرّد الساعات في سعر الساعة، وللضبط الدقيق هذا رقم صغير.
أرقام محدّدة، حالية بتاريخ يونيو 2026. جلسة QLoRA لـ 7B على نحو 5,000 عيّنة لثلاث حِقَب تستغرق نحو ثلاثة أرباع الساعة إلى ساعة ونصف، أي 1 إلى 3 دولارات على A100. ادفع النموذج 7B نفسه على 50,000 عيّنة فأنت أمام 4 إلى 6 ساعات، أي نحو 6 إلى 12 دولاراً. جلسة QLoRA لـ 70B على 5,000 عيّنة تستغرق 2 إلى 4 ساعات، نحو 7 إلى 12 دولاراً على A100 80GB. والكبرى، نموذج 70B على 50,000 عيّنة، تجري 12 إلى 20 ساعة وتقع نحو 25 إلى 60 دولاراً. تتحرّك تلك الأوقات بطول التسلسل وحجم البيانات، فعاملها كشكلٍ للتكلفة، لا كعرض سعر.
7B · 5K
$1–$3 ~0.75–1.5 ساعة، A1007B · 50K
$6–$12 ~4–6 ساعات، A10070B · 5K
$7–$12 ~2–4 ساعات، A100 80GB70B · 50K
$25–$60 ~12–20 ساعة، A100 80GBوكم يكلّف الـGPU نفسه في الساعة؟ على RunPod، أحد الخيارات لهذا، تُستأجر A100 80GB عند الطلب بنحو 1.39 دولار في الساعة وH100 بنحو 2.89 دولار. لضبط QLoRA تكفي A100 بأريحية: الجلسة تتّسع، والسرعة الإضافية لـ H100 نادراً ما تردّ سعرها الأعلى على جلسة بهذا القِصَر. كما توثّق الجهة مسار ضبط دقيق مبنياً على Axolotl، وهو مدرّب مفتوح المصدر يأتي بإعدادات QLoRA جاهزة، منها مثال QLoRA لنموذج 8B يمكنك تكييفه. توجّهه إلى بياناتك بصيغة قياسية (chat أو alpaca أو sharegpt)، تتركه يجري، وتدفع المحوّل الجاهز إلى Hugging Face حين ينتهي. تحصل الحسابات الجديدة على 5 دولارات رصيد تسجيل، تغطّي جلسة 7B صغيرة بالكامل.
الخطوات من البداية إلى النهاية
شكل المهمة واحد مهما كانت الجهة التي تستأجر منها. خمس خطوات، ولا واحدة منها تحتاج عتاداً تملكه.
بضعة آلاف من الأمثلة بصيغة chat أو alpaca أو sharegpt.
A100 80GB واحدة بالساعة. اختر قالب QLoRA.
Axolotl بإعداد جاهز. ساعات قليلة لمعظم المهام.
احفظ المحوّل في Hugging Face، ثم أوقف النسخة.
الخطوة الأولى هي حيث تُكسب النتيجة أو تُخسر. بضعة آلاف من الأمثلة النظيفة المتّسقة تتفوّق على عشرات الآلاف من الفوضوية، والصيغة تحتاج فقط أن تطابق ما يتوقّعه المدرّب. الخطوتان الثانية والثالثة آليتان بمجرّد اختيار إعداد QLoRA، فمعظم العمل انتظار. الخطوة الرابعة تهم محفظتك: GPU مستأجر خامل لا يزال يحاسبك بالساعة، فادفع المحوّل المدرّب إلى Hugging Face وفكّك النسخة لحظة انتهاء الجلسة. نسيان إطفائه هو الطريقة الوحيدة التي يتحوّل بها ضبط رخيص إلى ضبط باهظ.
والضبط الدقيق ليس مجرّد خطوة جودة أيضاً. نموذج تعلّم صيغتك وقواعد بيتك يحتاج تعليمات أقل بكثير محشورة في كل أمر، ما يقلّص الرموز التي ترسلها في كل نداء. وإن كانت تكاليفك في الأمر نفسه، فذلك توفير حقيقي، والآليات في تقليص فاتورة الرموز.
متى تتجاوز الـGPU المستأجر كلياً
استئجار بطاقة هو القرار الصحيح حين تريد تحكّماً في البيانات والطريقة والأوزان الناتجة، وحين تكون مرتاحاً لتشغيل سكربت تدريب. لكنه ليس المسار الوحيد. تقدّم بعض الجهات واجهات ضبط دقيق مُدارة: ترفع بياناتك، تتولّى هي العتاد وحلقة التدريب، وتسترجع نموذجاً مضبوطاً عبر واجهتها. هذا يتجاوز البنية التحتية كلياً، وهو لطيف فعلاً إن كنت لا تريد لمس GPU أبداً. المقايضة أنه يكلّف أكثر من استئجار حوسبة خام، وأنك محصور في النماذج التي تدعمها تلك الجهة، وأنك تتخلّى عن التحكّم الدقيق والأوزان المفتوحة المنقولة التي يمنحك إياها QLoRA على بطاقتك المستأجرة.
فالقرار مباشر. إن أردت نموذجاً مفتوحاً، وأوزانك الخاصة، وأقل تكلفة، استأجر GPU وشغّل QLoRA. وإن فضّلت دفع علاوة كي لا ترى طرفيّةً أبداً، فواجهة مُدارة تؤدّي المهمة. في كلتا الحالتين، الافتراض القديم بأن عليك شراء GPU قبل ضبط أي شيء خطأ ببساطة. ولاختيار النموذج المفتوح الذي تبدأ منه، راجع فئة الأوزان المفتوحة الآن، والتشكيلة الكاملة بأسعارها ومعاييرها على فهرس النماذج.