كيف تدرّب نموذجاً مفتوحاً على بياناتك دون امتلاك GPU

يضع QLoRA نماذج مخصّصة من 7B إلى 70B في متناولك مقابل دولارات قليلة من وقت GPU مستأجر — وهذا تماماً ما يتطلّبه الأمر.

من فريق benchr · · عرض سجل التغييرات

جلسة QLoRA لـ 7B ~$1–$12 A100 مستأجرة، حسب حجم البيانات
VRAM لـ QLoRA 70B ~48GB هبوطاً من 480GB+ لضبط كامل
العتاد المطلوب 1×A100 80GB، مستأجرة بالساعة
هل تشتري GPU؟ لا استأجر للجلسة فقط

إليك الموقف الذي يقود معظم الناس إلى طريق مسدود. عندك بضعة آلاف من الأمثلة لكيف تريد أن يجيب النموذج: ردود دعم بنبرة بيتك، استخراجات مُهيكلة وفق مخطّطك، ولهجة لا يصيبها النموذج الجاهز تماماً. تريد أن تبني ذلك داخل النموذج بضبط دقيق. ثم تتفحّص ما يحتاجه الضبط فتجد الـGPU الذي تملكه يقصّر بمسافة شاسعة. الخلاصة المعتادة أن عليك إنفاق آلاف الدولارات على العتاد أولاً. لا. الإجابة الصادقة أنك تستأجر GPU قادراً لساعات قليلة، تدفع حفنة دولارات، وتُطفئه حين تنتهي المهمة.

ما يعيقك هو الذاكرة، وتحديداً الـVRAM. فيستحق الأمر دقّةً في سبب عجز جهازك عن المهمة، لأن الدقّة نفسها تخبرك تماماً كم من الـGPU المستأجر يحتاجه العمل.

لماذا يعجز جهازك عادةً عن المهمة

الضبط الكامل يحدّث كل وزن في النموذج، وهذا يكلّف ذاكرة أكثر بكثير من مجرّد تشغيله. أنت تحمل الأوزان، زائد التدرّجات لكل وزن، زائد حالات المُحسِّن. مُحسِّن Adam وحده يحتفظ برقمين إضافيين لكل وزن. اجمعها فيطلب الضبط الكامل نحو أربعة أضعاف الذاكرة التي يطلبها الاستدلال. نموذج 7B تحادثه في نحو 14GB يحتاج في حدود 60GB كي يُضبط ضبطاً كاملاً. ونموذج 70B يتجاوز 480GB، أي رفّاً من بطاقات GPU، لا محطة عمل.

الآن انظر إلى ما يمكنك شراؤه. تتوقّف بطاقات المستهلك عند 24GB من الـVRAM. تلك الفجوة، 24GB في اليد مقابل 60GB يطلبها أصغر نموذج جادّ، هي المشكلة كلها. ولا يصلحها أي قدر من الصبر، لأن الجلسة ببساطة لن تتّسع في الذاكرة وتنهار قبل أن تبدأ. هذا هو الجدار نفسه الموصوف في تشغيل النماذج على جهازك، إلا أن التدريب يجعله أعلى، فالاستدلال هو الجزء الرخيص والضبط الدقيق هو الجزء الباهظ.

LoRA وQLoRA يقلبان الحساب

الحلّ ليس جهازاً أكبر. الحلّ تدريب أقلّ من النموذج. يجمّد LoRA، اختصار التكيّف منخفض الرتبة، النموذج الأساس بكامله ويدرّب فقط طبقات محوّل صغيرة مثبّتة عليه. تحدّث جزءاً ضئيلاً من المعاملات، فتتقلّص التدرّجات وحالات المُحسِّن إلى لا شيء تقريباً. ويذهب QLoRA خطوة أبعد: يكمّم الأساس المجمّد إلى 4-بت ويدرّب تلك المحوّلات بدقة 16-بت فوقه. الأساس بالكاد يشغل حيّزاً لأنه مضغوط، والجزء القابل للتدريب صغير أصلاً.

أرقام الـVRAM تروي القصة. جلسة QLoRA لـ 7B تتّسع في نحو 5–6GB، وهو ما تحمله بطاقة مستهلك دون عناء. وجلسة 13B تحتاج نحو 10–12GB. وجلسة QLoRA لـ 70B تقع نحو 48GB، وهو ما يتّسع على A100 80GB واحدة بهامش مريح. ذلك الرقم الأخير هو المهم: النموذج الذي تحتاج 480GB لضبطه ضبطاً كاملاً يتدرّب على GPU مستأجر واحد بمجرّد أن تنتقل إلى QLoRA.

~48GB الـVRAM لضبط QLoRA لنموذج 70B. يتّسع على A100 80GB واحدة، مقابل 480GB+ لضبط كامل

هناك ثمن لضغط الأساس، ومن الإنصاف تسميته. يقع QLoRA نحو 80 إلى 90% من جودة ضبط كامل على البيانات نفسها. وLoRA بدقة 16-بت، الذي يتجاوز خطوة الـ 4-بت، يقترب أكثر، نحو 90 إلى 95%، بثمن مزيد من الـVRAM. لمعظم المهام، حيث تعلّم النموذج صياغةً أو نبرةً أو مجالاً بدل مطاردة معيار، QLoRA هو نقطة البداية الصحيحة. ارتقِ إلى LoRA بـ 16-بت فقط إن شغّلت تمريرة QLoRA وقرّرت أنك تحتاج النقاط القليلة الأخيرة. والتقنية الأساسية موثّقة في ورقة QLoRA وفي مكتبة PEFT من Hugging Face، وهي العُدّة التي تستدعيها معظم سكربتات التدريب هذه تحت الغطاء.

طرق الضبط الدقيق والـVRAM التي يحتاجها كلٌّ منها، بحسب حجم النموذج. "واقعي على GPU مستأجر؟" يفترض A100 80GB واحدة
الطريقةVRAM، 7BVRAM، 70Bواقعي على GPU مستأجر؟
ضبط كامل~60 GB480 GB+7B نعم على بطاقة كبيرة؛ 70B يحتاج رفّ GPU متعدّد
LoRA بـ 16-بت~16 GB~130 GB7B بسهولة؛ 70B يحتاج بطاقتي 80GB
QLoRA (أساس 4-بت)5–6 GB~48 GBنعم، كلاهما يتّسع على A100 80GB

النموذج الذي تحتاج رفّاً بسعة 480GB لضبطه ضبطاً كاملاً يتدرّب على GPU مستأجر واحد بمجرّد أن تنتقل إلى QLoRA. تلك الحقيقة وحدها هي ما يحوّل "اشترِ خادماً" إلى "استأجر بطاقة لظهيرة واحدة"، وهي السبب في أن سؤال العتاد يتلاشى غالباً.

استأجر GPU للتدريب

بمجرّد أن تتّسع الجلسة في 48GB، لا تحتاج لامتلاك أي شيء. تؤجّر عدة جهات سحابية بطاقات GPU بالساعة، تشغّل واحدة فقط لجلسة التدريب، وتفكّكها لحظة انتهائها. التكلفة مجرّد الساعات في سعر الساعة، وللضبط الدقيق هذا رقم صغير.

أرقام محدّدة، حالية بتاريخ يونيو 2026. جلسة QLoRA لـ 7B على نحو 5,000 عيّنة لثلاث حِقَب تستغرق نحو ثلاثة أرباع الساعة إلى ساعة ونصف، أي 1 إلى 3 دولارات على A100. ادفع النموذج 7B نفسه على 50,000 عيّنة فأنت أمام 4 إلى 6 ساعات، أي نحو 6 إلى 12 دولاراً. جلسة QLoRA لـ 70B على 5,000 عيّنة تستغرق 2 إلى 4 ساعات، نحو 7 إلى 12 دولاراً على A100 80GB. والكبرى، نموذج 70B على 50,000 عيّنة، تجري 12 إلى 20 ساعة وتقع نحو 25 إلى 60 دولاراً. تتحرّك تلك الأوقات بطول التسلسل وحجم البيانات، فعاملها كشكلٍ للتكلفة، لا كعرض سعر.

7B · 5K

$1–$3 ~0.75–1.5 ساعة، A100

7B · 50K

$6–$12 ~4–6 ساعات، A100

70B · 5K

$7–$12 ~2–4 ساعات، A100 80GB

70B · 50K

$25–$60 ~12–20 ساعة، A100 80GB

وكم يكلّف الـGPU نفسه في الساعة؟ على RunPod، أحد الخيارات لهذا، تُستأجر A100 80GB عند الطلب بنحو 1.39 دولار في الساعة وH100 بنحو 2.89 دولار. لضبط QLoRA تكفي A100 بأريحية: الجلسة تتّسع، والسرعة الإضافية لـ H100 نادراً ما تردّ سعرها الأعلى على جلسة بهذا القِصَر. كما توثّق الجهة مسار ضبط دقيق مبنياً على Axolotl، وهو مدرّب مفتوح المصدر يأتي بإعدادات QLoRA جاهزة، منها مثال QLoRA لنموذج 8B يمكنك تكييفه. توجّهه إلى بياناتك بصيغة قياسية (chat أو alpaca أو sharegpt)، تتركه يجري، وتدفع المحوّل الجاهز إلى Hugging Face حين ينتهي. تحصل الحسابات الجديدة على 5 دولارات رصيد تسجيل، تغطّي جلسة 7B صغيرة بالكامل.

الخطوات من البداية إلى النهاية

شكل المهمة واحد مهما كانت الجهة التي تستأجر منها. خمس خطوات، ولا واحدة منها تحتاج عتاداً تملكه.

1. جهّز بياناتك

بضعة آلاف من الأمثلة بصيغة chat أو alpaca أو sharegpt.

2. استأجر GPU

A100 80GB واحدة بالساعة. اختر قالب QLoRA.

3. شغّل QLoRA

Axolotl بإعداد جاهز. ساعات قليلة لمعظم المهام.

4. ادفع المحوّل وأطفئ

احفظ المحوّل في Hugging Face، ثم أوقف النسخة.

الخطوة الأولى هي حيث تُكسب النتيجة أو تُخسر. بضعة آلاف من الأمثلة النظيفة المتّسقة تتفوّق على عشرات الآلاف من الفوضوية، والصيغة تحتاج فقط أن تطابق ما يتوقّعه المدرّب. الخطوتان الثانية والثالثة آليتان بمجرّد اختيار إعداد QLoRA، فمعظم العمل انتظار. الخطوة الرابعة تهم محفظتك: GPU مستأجر خامل لا يزال يحاسبك بالساعة، فادفع المحوّل المدرّب إلى Hugging Face وفكّك النسخة لحظة انتهاء الجلسة. نسيان إطفائه هو الطريقة الوحيدة التي يتحوّل بها ضبط رخيص إلى ضبط باهظ.

والضبط الدقيق ليس مجرّد خطوة جودة أيضاً. نموذج تعلّم صيغتك وقواعد بيتك يحتاج تعليمات أقل بكثير محشورة في كل أمر، ما يقلّص الرموز التي ترسلها في كل نداء. وإن كانت تكاليفك في الأمر نفسه، فذلك توفير حقيقي، والآليات في تقليص فاتورة الرموز.

متى تتجاوز الـGPU المستأجر كلياً

استئجار بطاقة هو القرار الصحيح حين تريد تحكّماً في البيانات والطريقة والأوزان الناتجة، وحين تكون مرتاحاً لتشغيل سكربت تدريب. لكنه ليس المسار الوحيد. تقدّم بعض الجهات واجهات ضبط دقيق مُدارة: ترفع بياناتك، تتولّى هي العتاد وحلقة التدريب، وتسترجع نموذجاً مضبوطاً عبر واجهتها. هذا يتجاوز البنية التحتية كلياً، وهو لطيف فعلاً إن كنت لا تريد لمس GPU أبداً. المقايضة أنه يكلّف أكثر من استئجار حوسبة خام، وأنك محصور في النماذج التي تدعمها تلك الجهة، وأنك تتخلّى عن التحكّم الدقيق والأوزان المفتوحة المنقولة التي يمنحك إياها QLoRA على بطاقتك المستأجرة.

فالقرار مباشر. إن أردت نموذجاً مفتوحاً، وأوزانك الخاصة، وأقل تكلفة، استأجر GPU وشغّل QLoRA. وإن فضّلت دفع علاوة كي لا ترى طرفيّةً أبداً، فواجهة مُدارة تؤدّي المهمة. في كلتا الحالتين، الافتراض القديم بأن عليك شراء GPU قبل ضبط أي شيء خطأ ببساطة. ولاختيار النموذج المفتوح الذي تبدأ منه، راجع فئة الأوزان المفتوحة الآن، والتشكيلة الكاملة بأسعارها ومعاييرها على فهرس النماذج.

أسئلة شائعة

هل أستطيع ضبط نموذج على حاسوبي المحمول؟

نادراً، وللنماذج الأصغر فقط. تتوقّف بطاقة المستهلك عند 24GB، والضبط الكامل لنموذج 7B يحتاج نحو 60GB. يخفض QLoRA جلسة 7B إلى نحو 5–6GB، وهو ما تستوعبه بطاقة 24GB، فتجربة QLoRA صغيرة ممكنة على عتاد مستهلك قوي. أما أي شيء من 13B فأعلى، وأي ضبط كامل، فلن يتّسع. واستئجار GPU سحابي لساعات قليلة عادةً أرخص وأقل عناءً بكثير من شراء واحد.

كم يكلّف ضبط نموذج 70B؟

تتّسع جلسة QLoRA لنموذج 70B على بطاقة A100 80GB واحدة، تُستأجر بنحو 1.39 دولار في الساعة. على نحو 5,000 عيّنة تستغرق المهمة نحو 2–4 ساعات، أي قُل من 7 إلى 12 دولاراً. وجلسة أكبر بـ 50,000 عيّنة تستغرق 12–20 ساعة وتقع نحو 25 إلى 60 دولاراً. تتغيّر الأوقات بطول التسلسل وحجم البيانات، لكن رتبة المقدار عشرات الدولارات، لا الآلاف.

ما الفرق بين LoRA وQLoRA؟

كلاهما يجمّد النموذج الأساس ويدرّب طبقات محوّل صغيرة فقط، فتحدّث جزءاً ضئيلاً من الأوزان. يُبقي LoRA الأساس المجمّد بدقة 16-بت؛ ويكمّمه QLoRA إلى 4-بت، ما يقلّص الـVRAM بشدّة ويُتيح لنموذج 70B أن يتّسع على GPU واحد بسعة 80GB. المقايضة هي الجودة: LoRA بـ 16-بت يبلغ نحو 90–95% من ضبط كامل، وQLoRA نحو 80–90%. ابدأ بـ QLoRA، وانتقل إلى LoRA فقط إن احتجت النقاط القليلة الأخيرة.

هل أحتاج لشراء GPU كي أضبط نموذجاً مفتوحاً؟

لا. جوهر الاستئجار أنك تدفع فقط مقابل ساعات جلسة التدريب وتُطفئ الجهاز حين تنتهي. جلسة QLoRA لنموذج 7B تكلّف دولارات قليلة؛ وجلسة 70B تكلّف عشرات. شراء GPU قادر يُجدي فقط إن كنت تدرّب باستمرار. وإن فضّلت تجاوز البنية التحتية كلياً، تقدّم بعض الجهات واجهات ضبط دقيق مُدارة تتولّى العتاد عنك مقابل سعر أعلى وتحكّم أقل.

سجل التغييرات

  • 19 يونيو 2026 — نُشر أول مرة.

المراجع

  1. RunPod, "Fine-tuning documentation," docs.runpod.io/fine-tune، اطُّلع عليه في يونيو 2026.
  2. RunPod, "Maximizing efficiency: fine-tuning LLMs with LoRA and QLoRA on RunPod," runpod.io/articles/guides، اطُّلع عليه في يونيو 2026.
  3. Hugging Face, "PEFT (Parameter-Efficient Fine-Tuning) — LoRA and QLoRA," huggingface.co/docs/peft، اطُّلع عليه في يونيو 2026.
  4. RunPod, "GPU instance pricing," runpod.io/gpu-instance/pricing، اطُّلع عليه في يونيو 2026.