مقالة·مايو 2026

سياق المليون رمز كان دائماً رقماً تسويقياً

معظم أعباء السياق الطويل ما زالت مكانها في نظام استرجاع. والحالات الضيقة التي تستحق فيها السعة الطويلة الفاتورة.

من فريق benchr · حُدّثت في 25 مايو 2026 · عرض سجل التغييرات

السياق الطويل مفيد، وسعات المليون رمز مهمة لبعض أعباء العمل. لكن تحميل corpus كامل قد يكلف أكثر من استرجاع مجموعة أدلة صغيرة، في حين قد يفوّت مسار استرجاع ضعيف علاقات يحافظ عليها السياق الطويل. المقارنة الصحيحة ليست نسبة عامة؛ بل التكلفة والكمون وجودة الإجابة المقاسة للمعماريتين على عبء العمل نفسه.

استعلام 200K، Opus $1.00 لكل طلب، بلا تخزين مؤقت

الاستعلام نفسه، RAG $0.06 استرجاع 4K رمز

نسبة التكلفة 17× RAG مقابل السياق الطويل

هبوط الاسترجاع 40% فوق 500K رمز

تخيل مستنداً من 280,000 رمز، أي نحو 200 صفحة من نص سياسات، وثلاثة أسئلة تتدرج في التحديد: سؤال عام، وسؤال دقيق، وسؤال يحتاج إلى تركيب عبر أقسام. يفوز السياق الطويل في السؤال العام وسؤال التركيب، ويعادله الاسترجاع في السؤال الدقيق. بأسعار القائمة، يكلف استعلام السياق الطويل نحو دولار واحد من رموز الإدخال، بينما يكلف استعلام الاسترجاع، مع جلب 4K رمز مناسبة، نحو 0.06 دولار. الحساب يفرض المعمارية: الاسترجاع لمعظم الحجم، والسياق الطويل للأسئلة التي تعتمد على تركيب عبر أجزاء بعيدة من المصدر.

سعة المليون رمز قدرة مكملة وليست بديلاً شاملاً للاسترجاع. تعتمد قيمتها على توزيع الأدلة وموثوقية الاسترجاع وإمكان تخزين البادئة مؤقتاً وحد الجودة المطلوب وعدد مرات تشغيل السؤال. للمقارنة المباشرة بين النماذج، راجع مقارنة سعات السياق.

كان التأطير المبكر في تسويق المختبرات أن الاسترجاع داخل السياق الطويل حُل إلى حد كبير في النماذج المغلقة الرائدة. تدعم اختبارات needle-in-haystack ذلك، لكن معايير الجيل الثاني وتقارير أعباء العمل على مستوى المستندات تروي قصة مختلفة، إذ تهبط جودة التركيب أبكر مما توحي به اختبارات الإبرة. حتى وثائق المختبرات نفسها صارت تعامل السياق الطويل كشيء تستعلم عنه لا كمخزن تلخصه دفعة واحدة، وهذا هو التأطير الصحيح.

ما الذي قاسَته المعايير وما الذي فاتها

المعايير التي استخدمتها المختبرات لإظهار قدرة السياق الطويل كانت تقريباً كلها اختبارات needle-in-haystack. ضع جملة داخل مستند طويل، واطلب من النموذج العثور عليها. بحلول 2025، اجتازت النماذج الرائدة هذه الاختبارات عند حدود سعات السياق لديها باسترجاع شبه مثالي. بدت الرسوم الرئيسية وكأن المشكلة حُلّت.

لم تُحل. يقيس معيار needle-in-haystack ما إذا كان النموذج يستطيع العثور على حقيقة واحدة داخل كتلة نصية كبيرة. ما يتركه خارج القياس هو العمل الأصعب: التركيب عبر أجزاء بعيدة من الكتلة، والحفاظ على حجة متماسكة أثناء الاستدلال من أدلة متناثرة، وإنتاج ملخص لا يسطّح الادعاءات المختلفة في متوسط واحد. بدأت معايير السياق الطويل من الجيل الثاني (مجموعة RULER من NVIDIA, the مجموعة بيانات BABILong, وLongBench v3) تقيس هذه الخصائص الأصعب، وأظهرت شيئاً أقل إطراءً. تهبط جودة التركيب بوضوح مع نمو السياق، حتى عندما يبقى الاسترجاع عالياً. أما أحجام السعات المعلنة فتأتي مباشرة من المزودين: 1M في Claude وفق وثائق API من Anthropic, و2M في Gemini وفق صفحة نماذج Google. للمزيد عن سبب توقف المعايير نفسها عن إخبارك بشيء، راجع تلك المقالة.

ما إذا كان الهبوط فوق 400K قابلاً للإصلاح بسقالات انتباه أفضل، أو أنه حد صلب للمعمارية الحالية، سؤال بحثي مفتوح. المختبرات لا تلتزم علناً بإجابة.

الصورة النظيفة لقدرة السياق الطويل: الاسترجاع يصمد جيداً عبر السعة، بينما يتدهور التركيب. سيجد النموذج الشيء الذي دفنته في سياق طويل، لكن الاستدلال عبر ذلك السياق يخرج أضعف مما يحققه النموذج نفسه على مدخلات أقصر.

17× نسبة التكلفة: السياق الطويل مقابل الاسترجاع في البحث الدقيق

تستخدم أرقام التكلفة في هذا المقال أسعار مايو 2026 وفق أسعار Anthropic المنشورة. في وقت سابق من 2026 كانت نسبة السياق الطويل إلى RAG أقرب إلى 50 مرة. ضيّق تعديل أسعار Anthropic في أبريل 2026 النسبة إلى نحو 17 مرة لـ Opus عند أعداد رموز استرجاع نموذجية. ما زالت فجوة واسعة، لكنها أضيق من حسابات فترة الإطلاق.

أين تستحق السعة الطويلة كلفتها

سيرا عمل يكون فيهما السياق الطويل الأداة الصحيحة، وواقعياً الأداة الوحيدة التي تعمل.

تحليل المستندات الاستكشافي. حمّل مستنداً، مثل ورقة بحثية أو إفصاح تنظيمي أو تقرير طويل، واسأل أسئلة متتابعة. ماذا يقول المستند عن X؟ حسناً، أين يجادل حول Y، وما الأدلة التي يستشهد بها؟ هل يوجد توتر بين افتراضات الفصل الثالث واستنتاجات الفصل الثاني عشر؟ هذه المحادثة مستحيلة مع نظام استرجاع مقطّع بشكل صحيح، لأن الاسترجاع يرفع المقاطع بشكل مستقل ولا يملك طريقة تجعل النموذج يلاحظ أن الفصل الثالث والفصل الثاني عشر يتحاوران معاً.

فهم الكود عبر قاعدة كود متوسطة الحجم. ضع مجلداً من 50 إلى 200 ملف داخل السياق، واسأل أين المكان الصحيح لإضافة ميزة تفعل X، فيقرأ النموذج البنية وينتج إجابة مثبتة على الكود الفعلي. هذا هو سير العمل الذي يجعل مساعدات البرمجة الحديثة مفيدة. من دون سياق طويل، يحتاج العمل إلى اختيار ملفات يدوياً، وهذا يتطلب منك أن تعرف تقريباً عما تبحث أصلاً.

يشترك سيرا العمل في خاصية واحدة: السؤال يحتاج إلى تركيب عبر أجزاء بعيدة من جسم نصي واحد متماسك. لأن الاسترجاع يكسر هذا الجسم إلى مقاطع مستقلة، لا يستطيع رؤية العلاقة بينها، بينما يستطيع السياق الطويل ذلك بكلفة يبررها سير العمل.

السعة الكبيرة بما يكفي لاحتواء المستند ليست هي نفسها نموذجاً يستطيع الاستدلال عبره. الفاتورة نفسها في الحالتين.

أين تكون السعة الطويلة مجرد استرجاع مكلف منفذ بشكل سيئ

للبحث الدقيق (اعثر لي على القسم عن X، واقتبس لي الفقرة التي تقول Y) يكون الاسترجاع مرشحاً قوياً عندما يعثر على المقطع الصحيح باستمرار. وقد يناسب السياق الطويل سؤالاً يعتمد على أدلة تفصلها التجزئة أو الفهرسة. قِس استدعاء الاسترجاع وصحة الإحالات والكمون من طرف إلى طرف والتكلفة مع التخزين المؤقت وبدونه وجودة الإجابة، ولا تفترض أن تصميماً يفوز في كل بُعد.

للأسئلة والأجوبة عالية الحجم على مجموعة ثابتة، مثل قواعد معرفة دعم العملاء واستعلامات الوثائق الداخلية وأي شيء يخدم آلاف الطلبات يومياً، السياق الطويل هو المعمارية الخطأ. تتراكم تكلفة الاستعلام بسرعة إلى منطقة غير مستدامة، والتخزين المؤقت يخفف ذلك فقط ولا يصلحه. هذه وظيفة الاسترجاع.

للمجموعات التي تتجاوز سعة سياق أكبر نموذج متاح، أي ما بعد 1M إلى 2M رمز بحسب النموذج، يكون الاسترجاع إلزامياً. السعة الطويلة لا تمتد إلى الأبد. عندما تكون المجموعة أكبر من السعة، لا يبقى لديك خيار.

قرار الإنتاج

تبدأ مراجعة المعمارية السليمة من نوع السؤال وcorpus. اختبر الاسترجاع للأدلة الموضعية والسياق الطويل للتركيب العابر للأقسام، وضمّنهما في تصميم هجين عندما يظهر النوعان. قارن عتبة الجودة وقابلية التتبع وسلوك التخزين المؤقت وكلفة الصيانة والحجم المتوقع قبل اختيار الافتراضي. للحساب الجانبي للتكلفة، راجع RAG مقابل الضبط الدقيق.

الجأ إلى السياق الطويل ثانياً، تحديداً للأسئلة الاستكشافية والعابرة للأقسام التي لا يجيب عنها الاسترجاع جيداً. قاعدة القرار التي تصمد: إذا استطعت كتابة السؤال في جملة واحدة، فاستخدم الاسترجاع؛ وإذا كنت تحتاج إلى القراءة عبر المستند حتى تعرف ما السؤال التالي، فهناك يستحق السياق الطويل مكانه.

الخطأ المتكرر في النقاش هو التعامل مع الاثنين كمعماريتين متنافستين يجب أن تختار بينهما، بينما هما في الحقيقة أداتان متكاملتان تتعاملان مع أنواع مختلفة من الأسئلة. أفضل منتجات الذكاء الاصطناعي تستخدمهما معاً في نقاط مختلفة من المعمارية نفسها، للأعباء التي تناسب كل واحدة.

1. الاستعلام

سؤال المستخدم الفعلي، وغالباً قصير.

↓

2. استرجاع 4K ذات صلة

يعيد مخزن المتجهات أكثر المقاطع صلة.

↓

3. الإرسال إلى النموذج

السؤال مع السياق المسترجع، نحو 6K رمز إجمالاً.

↓

4. الإجابة

مثبتة على مصدر، قابلة للاستشهاد، $0.06 لكل استعلام.

أنواع المستندات حسب تكلفة التحميل وكثافة المعلومات. البرتقالي = مناسب للاسترجاع. الأسود = منطقة السياق الطويل.

ليس جميلاً، لكنه يشرح كيف صيغ التسويق.

قيد واحد على هذه الحجة. تستند الحالة إلى الأشكال الغالبة لأعباء الإنتاج التي يصفها المجتمع علناً: أسئلة وأجوبة قواعد معرفة مواجهة للعملاء، وتحليل المستندات، وفهم الكود. في الأعباء الأكثر تخصصاً، مثل استخراج الإشارات عالي التكرار أو أي شيء يتغير فيه المستند أسرع من الأمر، تتحرك الحسابات وقد تتحرك معها المعمارية الصحيحة. احسب أرقامك لحالة استخدامك.

لماذا قال التسويق غير ذلك

كان لدى المختبرات أسباب بنيوية للمبالغة في بيع السعة الطويلة. الاسترجاع معقد تشغيلياً. تحتاج إلى قاعدة بيانات متجهات، ونموذج تضمين، وتمرير إعادة ترتيب، واستراتيجية تقسيم محتوى، وانضباط صيانة. وعدت السعة الطويلة بإزالة كل ذلك. التصق العرض لأنه خاطب كل من لا يريد بناء أنابيب الاسترجاع.

كان لدى المختبرات أيضاً أسباب تجارية. استعلامات السياق الطويل مكلفة. العميل الذي يستبدل مسار RAG بحلقة سياق طويل يدفع للمختبر أكثر بكثير لكل استعلام. نجحت الحسابات للمختبرات حتى عندما لم تنجح للعملاء.

لا شيء من هذا مؤامرة. إنه النمط الطبيعي لقدرة جديدة يُبالغ في بيعها خلال موجتها التسويقية الأولى، ثم يأتي التصحيح لاحقاً عندما يحاول الناس استخدامها كما أُعلن عنها ويجدونها مكلفة بطرق لم ينبه إليها التسويق.

سعة سياق المليون رمز قدرة مفيدة، لكنها تكمل الاسترجاع بدلاً من أن تستبدله، وتعالج نوعاً مختلفاً من الأسئلة بكلفة يجب أن يبررها سير العمل. التعامل مع السعة الطويلة كبديل شامل هو أكثر خطأ معماري شائع في مطلع 2026، وهو الخطأ الذي ينتج أكثر فواتير الذكاء الاصطناعي مفاجأة.

لنظامك الإنتاجي: اجعل الاسترجاع هو الافتراضي، ولا تلجأ إلى السياق الطويل إلا عندما يكون السؤال عابراً للأقسام حقاً بطريقة لا يستطيع الاسترجاع خدمتها. عند حجم ذي معنى تجعل ديناميكيات التكلفة هذا الخيار الوحيد المعقول، وحتى عندما يكون الحجم منخفضاً يظل الخيار المعماري الصحيح.

ستصحح المختبرات رسائلها العامة حول هذا في النهاية. تتحرك المعايير بالفعل نحو قياس خاصية جودة التركيب المهمة عملياً، والمجتمع بدأ بالفعل يصوغ إطار الأدوات المتكاملة. سيلحق التسويق ببطء. إلى أن يحدث ذلك، الخطوة الصحيحة لكل من يبني على هذه الأدوات هي تجاهل أرقام السعة الرئيسية وتصميم النظام حول سير العمل الذي يخدمه السياق الطويل جيداً.

الأسئلة الشائعة

هل سعة سياق المليون رمز مفيدة؟

نعم للأعباء التي تحتاج إلى تركيب أدلة متباعدة. في البحث الدقيق قد يكون RAG مرشحاً مناسباً، لكن النتيجة تعتمد على بنية corpus وجودة الاسترجاع والتخزين المؤقت ومتطلبات جودة الإجابة وحجم التشغيل. اختبر المعماريتين محلياً.

لماذا السياق الطويل مكلف جداً؟

كل استعلام يدفع ثمن كل رمز في السياق، كل مرة. مستند من 200K رمز بأسعار Opus، 5 دولارات لكل مليون رمز إدخال، يكلف دولاراً واحداً لكل سؤال. عند 100 سؤال يومياً، هذا 100 دولار يومياً مقابل 6 دولارات تقريباً مع الاسترجاع.

متى أستخدم RAG بدلاً من السياق الطويل؟

استخدم RAG عندما يستطيع الاسترجاع عزل الأدلة بموثوقية وتناسب تكاليف الفهرسة والصيانة عبء العمل. فضّل السياق الطويل عندما يعتمد السؤال على علاقات قد تفصلها عملية الاسترجاع. قارن الجودة والكمون والتكلفة مع التخزين المؤقت وبدونه وقابلية التدقيق وحجم التشغيل على مجموعة محلية ممثلة.

هل يجعل التخزين المؤقت السياق الطويل أرخص؟

قد يغير التخزين المؤقت اقتصاديات السياق الطويل بوضوح عند تكرار البادئات، لكن الأثر يعتمد على قواعد المزود ونسبة إصابة الذاكرة وتغير المستند وحجم التشغيل. قِس الرموز المفوترة والكمون وجودة الإجابة مع التخزين وبدونه بدلاً من افتراض نقطة تعادل ثابتة مع RAG.

ما نمط فشل السياق الطويل عند التوسع؟

تنخفض جودة التركيب كلما زاد طول السياق، حتى عندما يبقى استرجاع الحقائق عالياً. تقيس معايير مثل RULER وBABILong هذا الأمر. تفقد النماذج الرائدة 20-40% من جودة الاستدلال بعد 500K رمز.

سجل التغييرات

25 مايو 2026 — تم التحقق من الأسعار مقابل وثائق المزودين الحالية. حُدّثت أرقام التكلفة في كامل المقال لتعكس تعديلات أسعار Anthropic وطرح Gemini 3.1 Pro Preview من Google.
16 مايو 2026 — نُشر أول مرة.

المراجع

Anthropic، "توثيق Claude API"، docs.claude.com, اطُّلع عليه في مايو 2026.
Anthropic, "Pricing," anthropic.com/pricing, اطُّلع عليه في مايو 2026.
Google, "Gemini API models," ai.google.dev/gemini-api/docs/models, اطُّلع عليه في مايو 2026.
NVIDIA, "RULER benchmark," github.com/NVIDIA/RULER, اطُّلع عليه في مايو 2026.
"BABILong dataset," Hugging Face, huggingface.co/datasets/RMT-team/babilong, اطُّلع عليه في مايو 2026.