السياق الطويل مفيد. هذا هو الإقرار، وسعات المليون رمز مهمة فعلاً لمجموعة ضيقة من سير العمل. المشكلة أن معظم الفرق التي تنشر السياق الطويل في 2026 تدفع أضعاف تكلفة RAG للحصول على الإجابة نفسها، لأن أعباء العمل التي توجهه إليها لم تكن تحتاج إلى تركيب عبر المستند كاملاً أصلاً.
تخيل مستنداً من 280,000 رمز، أي نحو 200 صفحة من نص سياسات، وثلاثة أسئلة تتدرج في التحديد: سؤال عام، وسؤال دقيق، وسؤال يحتاج إلى تركيب عبر أقسام. يفوز السياق الطويل في السؤال العام وسؤال التركيب، ويعادله الاسترجاع في السؤال الدقيق. بأسعار القائمة، يكلف استعلام السياق الطويل نحو دولار واحد من رموز الإدخال، بينما يكلف استعلام الاسترجاع، مع جلب 4K رمز مناسبة، نحو 0.06 دولار. الحساب يفرض المعمارية: الاسترجاع لمعظم الحجم، والسياق الطويل للأسئلة التي تعتمد على تركيب عبر أجزاء بعيدة من المصدر.
سعة سياق المليون رمز قدرة مفيدة لكنها ضيقة. تسترد قيمتها في مجموعة صغيرة من سير العمل ذات خصائص محددة، وتُهدر في معظم أعباء الإنتاج حيث يكون الاسترجاع أرخص وأكثر دقة. باع التسويق السعة الطويلة كبديل شامل، بينما هي في الحقيقة أداة مكملة، وهذا المقال يشرح هذا الفرق. للمقارنة المباشرة بين النماذج، راجع مقارنة سعات السياق.
كان التأطير المبكر في تسويق المختبرات أن الاسترجاع داخل السياق الطويل حُل إلى حد كبير في النماذج المغلقة الرائدة. تدعم اختبارات needle-in-haystack ذلك، لكن معايير الجيل الثاني وتقارير أعباء العمل على مستوى المستندات تروي قصة مختلفة، إذ تهبط جودة التركيب أبكر مما توحي به اختبارات الإبرة. حتى وثائق المختبرات نفسها صارت تعامل السياق الطويل كشيء تستعلم عنه لا كمخزن تلخصه دفعة واحدة، وهذا هو التأطير الصحيح.
ما الذي قاسَته المعايير وما الذي فاتها
المعايير التي استخدمتها المختبرات لإظهار قدرة السياق الطويل كانت تقريباً كلها اختبارات needle-in-haystack. ضع جملة داخل مستند طويل، واطلب من النموذج العثور عليها. بحلول 2025، اجتازت النماذج الرائدة هذه الاختبارات عند حدود سعات السياق لديها باسترجاع شبه مثالي. بدت الرسوم الرئيسية وكأن المشكلة حُلّت.
لم تُحل. يقيس معيار needle-in-haystack ما إذا كان النموذج يستطيع العثور على حقيقة واحدة داخل كتلة نصية كبيرة. ما يتركه خارج القياس هو العمل الأصعب: التركيب عبر أجزاء بعيدة من الكتلة، والحفاظ على حجة متماسكة أثناء الاستدلال من أدلة متناثرة، وإنتاج ملخص لا يسطّح الادعاءات المختلفة في متوسط واحد. بدأت معايير السياق الطويل من الجيل الثاني (مجموعة RULER من NVIDIA, the مجموعة بيانات BABILong, وLongBench v3) تقيس هذه الخصائص الأصعب، وأظهرت شيئاً أقل إطراءً. تهبط جودة التركيب بوضوح مع نمو السياق، حتى عندما يبقى الاسترجاع عالياً. أما أحجام السعات المعلنة فتأتي مباشرة من المزودين: 1M في Claude وفق وثائق API من Anthropic, و2M في Gemini وفق صفحة نماذج Google. للمزيد عن سبب توقف المعايير نفسها عن إخبارك بشيء، راجع تلك المقالة.
ما إذا كان الهبوط فوق 400K قابلاً للإصلاح بسقالات انتباه أفضل، أو أنه حد صلب للمعمارية الحالية، سؤال بحثي مفتوح. المختبرات لا تلتزم علناً بإجابة.
الصورة النظيفة لقدرة السياق الطويل: الاسترجاع يصمد جيداً عبر السعة، بينما يتدهور التركيب. سيجد النموذج الشيء الذي دفنته في سياق طويل، لكن الاستدلال عبر ذلك السياق يخرج أضعف مما يحققه النموذج نفسه على مدخلات أقصر.
تستخدم أرقام التكلفة في هذا المقال أسعار مايو 2026 وفق أسعار Anthropic المنشورة. في وقت سابق من 2026 كانت نسبة السياق الطويل إلى RAG أقرب إلى 50 مرة. ضيّق تعديل أسعار Anthropic في أبريل 2026 النسبة إلى نحو 17 مرة لـ Opus عند أعداد رموز استرجاع نموذجية. ما زالت فجوة واسعة، لكنها أضيق من حسابات فترة الإطلاق.
أين تستحق السعة الطويلة كلفتها
سيرا عمل يكون فيهما السياق الطويل الأداة الصحيحة، وواقعياً الأداة الوحيدة التي تعمل.
تحليل المستندات الاستكشافي. حمّل مستنداً، مثل ورقة بحثية أو إفصاح تنظيمي أو تقرير طويل، واسأل أسئلة متتابعة. ماذا يقول المستند عن X؟ حسناً، أين يجادل حول Y، وما الأدلة التي يستشهد بها؟ هل يوجد توتر بين افتراضات الفصل الثالث واستنتاجات الفصل الثاني عشر؟ هذه المحادثة مستحيلة مع نظام استرجاع مقطّع بشكل صحيح، لأن الاسترجاع يرفع المقاطع بشكل مستقل ولا يملك طريقة تجعل النموذج يلاحظ أن الفصل الثالث والفصل الثاني عشر يتحاوران معاً.
فهم الكود عبر قاعدة كود متوسطة الحجم. ضع مجلداً من 50 إلى 200 ملف داخل السياق، واسأل أين المكان الصحيح لإضافة ميزة تفعل X، فيقرأ النموذج البنية وينتج إجابة مثبتة على الكود الفعلي. هذا هو سير العمل الذي يجعل مساعدات البرمجة الحديثة مفيدة. من دون سياق طويل، يحتاج العمل إلى اختيار ملفات يدوياً، وهذا يتطلب منك أن تعرف تقريباً عما تبحث أصلاً.
يشترك سيرا العمل في خاصية واحدة: السؤال يحتاج إلى تركيب عبر أجزاء بعيدة من جسم نصي واحد متماسك. لأن الاسترجاع يكسر هذا الجسم إلى مقاطع مستقلة، لا يستطيع رؤية العلاقة بينها، بينما يستطيع السياق الطويل ذلك بكلفة يبررها سير العمل.
السعة الكبيرة بما يكفي لاحتواء المستند ليست هي نفسها نموذجاً يستطيع الاستدلال عبره. الفاتورة نفسها في الحالتين.
أين تكون السعة الطويلة مجرد استرجاع مكلف منفذ بشكل سيئ
للبحث الدقيق (اعثر لي على القسم عن X، واقتبس لي الفقرة التي تقول Y) يفوز الاسترجاع في كل بُعد. يكلف أقل بنحو مرتبتين عشريتين ويعود أسرع، ودقته في البحث المحدد مساوية على الأقل، وغالباً أفضل، لأن النموذج يعمل ضمن سياق محكم بدلاً من سياق طويل. يستطيع السياق الطويل خدمة هذه الاستعلامات أيضاً، لكن بسعر يزيد عشرين إلى مئة مرة عن تشغيلها على مخزن متجهات.
للأسئلة والأجوبة عالية الحجم على مجموعة ثابتة، مثل قواعد معرفة دعم العملاء واستعلامات الوثائق الداخلية وأي شيء يخدم آلاف الطلبات يومياً، السياق الطويل هو المعمارية الخطأ. تتراكم تكلفة الاستعلام بسرعة إلى منطقة غير مستدامة، والتخزين المؤقت يخفف ذلك فقط ولا يصلحه. هذه وظيفة الاسترجاع.
للمجموعات التي تتجاوز سعة سياق أكبر نموذج متاح، أي ما بعد 1M إلى 2M رمز بحسب النموذج، يكون الاسترجاع إلزامياً. السعة الطويلة لا تمتد إلى الأبد. عندما تكون المجموعة أكبر من السعة، لا يبقى لديك خيار.
قرار الإنتاج
ينبغي أن تجعل معظم أنظمة الذكاء الاصطناعي الإنتاجية اليوم الاسترجاع هو الافتراضي. ديناميكيات التكلفة تفرض ذلك على أي عبء عمل بحجم ذي معنى. البساطة المعمارية تجعله أسهل تصحيحاً وتدقيقاً وتحسيناً بمرور الوقت. ودقته في البحث المحدد جيدة على الأقل مثل بديل السياق الطويل. للحساب الجانبي للتكلفة، راجع RAG مقابل الضبط الدقيق.
الجأ إلى السياق الطويل ثانياً، تحديداً للأسئلة الاستكشافية والعابرة للأقسام التي لا يجيب عنها الاسترجاع جيداً. قاعدة القرار التي تصمد: إذا استطعت كتابة السؤال في جملة واحدة، فاستخدم الاسترجاع؛ وإذا كنت تحتاج إلى القراءة عبر المستند حتى تعرف ما السؤال التالي، فهناك يستحق السياق الطويل مكانه.
الخطأ المتكرر في النقاش هو التعامل مع الاثنين كمعماريتين متنافستين يجب أن تختار بينهما، بينما هما في الحقيقة أداتان متكاملتان تتعاملان مع أنواع مختلفة من الأسئلة. أفضل منتجات الذكاء الاصطناعي تستخدمهما معاً في نقاط مختلفة من المعمارية نفسها، للأعباء التي تناسب كل واحدة.
سؤال المستخدم الفعلي، وغالباً قصير.
يعيد مخزن المتجهات أكثر المقاطع صلة.
السؤال مع السياق المسترجع، نحو 6K رمز إجمالاً.
مثبتة على مصدر، قابلة للاستشهاد، $0.06 لكل استعلام.
ليس جميلاً، لكنه يشرح كيف صيغ التسويق.
قيد واحد على هذه الحجة. تستند الحالة إلى الأشكال الغالبة لأعباء الإنتاج التي يصفها المجتمع علناً: أسئلة وأجوبة قواعد معرفة مواجهة للعملاء، وتحليل المستندات، وفهم الكود. في الأعباء الأكثر تخصصاً، مثل استخراج الإشارات عالي التكرار أو أي شيء يتغير فيه المستند أسرع من الأمر، تتحرك الحسابات وقد تتحرك معها المعمارية الصحيحة. احسب أرقامك لحالة استخدامك.
لماذا قال التسويق غير ذلك
كان لدى المختبرات أسباب بنيوية للمبالغة في بيع السعة الطويلة. الاسترجاع معقد تشغيلياً. تحتاج إلى قاعدة بيانات متجهات، ونموذج تضمين، وتمرير إعادة ترتيب، واستراتيجية تقسيم محتوى، وانضباط صيانة. وعدت السعة الطويلة بإزالة كل ذلك. التصق العرض لأنه خاطب كل من لا يريد بناء أنابيب الاسترجاع.
كان لدى المختبرات أيضاً أسباب تجارية. استعلامات السياق الطويل مكلفة. العميل الذي يستبدل مسار RAG بحلقة سياق طويل يدفع للمختبر أكثر بكثير لكل استعلام. نجحت الحسابات للمختبرات حتى عندما لم تنجح للعملاء.
لا شيء من هذا مؤامرة. إنه النمط الطبيعي لقدرة جديدة يُبالغ في بيعها خلال موجتها التسويقية الأولى، ثم يأتي التصحيح لاحقاً عندما يحاول الناس استخدامها كما أُعلن عنها ويجدونها مكلفة بطرق لم ينبه إليها التسويق.
سعة سياق المليون رمز قدرة مفيدة، لكنها تكمل الاسترجاع بدلاً من أن تستبدله، وتعالج نوعاً مختلفاً من الأسئلة بكلفة يجب أن يبررها سير العمل. التعامل مع السعة الطويلة كبديل شامل هو أكثر خطأ معماري شائع في مطلع 2026، وهو الخطأ الذي ينتج أكثر فواتير الذكاء الاصطناعي مفاجأة.
لنظامك الإنتاجي: اجعل الاسترجاع هو الافتراضي، ولا تلجأ إلى السياق الطويل إلا عندما يكون السؤال عابراً للأقسام حقاً بطريقة لا يستطيع الاسترجاع خدمتها. عند حجم ذي معنى تجعل ديناميكيات التكلفة هذا الخيار الوحيد المعقول، وحتى عندما يكون الحجم منخفضاً يظل الخيار المعماري الصحيح.
ستصحح المختبرات رسائلها العامة حول هذا في النهاية. تتحرك المعايير بالفعل نحو قياس خاصية جودة التركيب المهمة عملياً، والمجتمع بدأ بالفعل يصوغ إطار الأدوات المتكاملة. سيلحق التسويق ببطء. إلى أن يحدث ذلك، الخطوة الصحيحة لكل من يبني على هذه الأدوات هي تجاهل أرقام السعة الرئيسية وتصميم النظام حول سير العمل الذي يخدمه السياق الطويل جيداً.