خط أنابيب الاستيعاب الذي لا يتحدث عنه أحد

نجح العرض التوضيحي مع ملفات markdown نظيفة. الإنتاج يستوعب 40,000 تقرير PDF ووثائق Word بتغييرات متعقبة وعروض PowerPoint بجداول مضمّنة وصور ممسوحة رقمياً في 2011. النموذج هو نفسه. النتائج ليست كذلك.

نموذج أفضل مُطبَّق على وثائق سيئة التحليل يُنتج إجابات خاطئة تبدو أكثر احترافاً. هذا ليس مصدر قلق نظري. إنه نمط الفشل الأكثر شيوعاً في عمليات نشر RAG المؤسسية، وغير مرئي حتى استخدام النظام.

الواقع المزعج لوثائق المؤسسات

المعرفة المؤسسية لا تعيش في ملفات نصية نظيفة. تعيش في ملفات PDF ذات تخطيطات متعددة الأعمدة تُحلَّل كنص متشابك، وفي وثائق Word حيث تظهر التغييرات المتعقبة كمحتوى محذوف في الاستخراج الخام، وفي عروض PowerPoint حيث لا تحمل ترتيب قراءة عناصر الشريحة أي صلة بالبنية المرئية، وفي صور ممسوحة حيث تتراكم أخطاء التعرف الضوئي على الحروف (OCR)، وفي ملفات Excel حيث تُجرَّد الصيغ أثناء الاستخراج ولا تظهر القيم التي تنتجها.

تتعامل مكتبات تحليل PDF المعيارية مع الوثائق البسيطة بشكل مقبول. تُدمر بنية الجدول في الوثائق المعقدة: تفقد الأعمدة محاذاتها، وتندمج الرؤوس المتعددة الصفوف مع خلايا البيانات، والجداول الممتدة على صفحات تُنتج أجزاء غير متسقة. وثيقة امتثال تنظيمي حيث يُشوَّه جدول المتطلبات أثناء التحليل تُنتج نموذجاً لغوياً يقرأ المتطلبات بشكل واثق لكن غير صحيح.

النتيجة على مستوى القطعة: جداول جزئية بخلايا مفقودة، وإجراءات مقسومة عند نقاط اعتباطية بلا سياق حول الإجراء الذي تنتمي إليه، وبيانات وصفية كانت مضمّنة في بنية الوثيقة (عناوين الأقسام وأرقام الصفحات ومعرّفات الوثائق) مُجرَّدة أو منسوبة بشكل خاطئ.

جودة النموذج لا تعوّض جودة الاستيعاب. خط أنابيب الاستيعاب هو حيث تُحدَّد جودة RAG، لا في وقت الاستدلال.

مجموعة تحليل الوثائق التي تحافظ على البنية

ثلاثة محللات تستحق التقييم الجاد لعمليات النشر المؤسسية:

Docling (مفتوح المصدر من IBM [تقدير: تحقق من الحالة الحالية على GitHub لـ IBM Research]): استخراج PDF مُدرك للتخطيط يحافظ على بنية الجدول ويتعامل مع التخطيطات متعددة الأعمدة ويُنتج مخرجات هرمية نظيفة. مصمم للوثائق المصفوفة لا الممسوحة. قابل للاستضافة الذاتية، وهو مهم لموقع البيانات.

LlamaParse: تحليل يستند إلى API يتعامل مع ملفات PDF المعقدة بما فيها الجداول والأشكال وتخطيطات المحتوى المختلطة. يُنتج مخرجات هرمية تُناسب مباشرة استراتيجيات التقسيم الهرمي. المقايضة: API سحابي يعني أن الوثائق تغادر محيط المنظمة. غير مناسب لمجموعات الوثائق السرية أو الحساسة لـ GDPR دون اتفاقيات معالجة بيانات صريحة.

Unstructured.io: دعم أكثر من 20 تنسيق ملف واستخراج بيانات وصفية غنية وإمكانية الاستضافة الذاتية عبر التوزيع مفتوح المصدر. يتعامل مع حديقة حيوانات وثائق المؤسسات الكاملة: Word وPowerPoint وHTML وExcel والبريد الإلكتروني. النسخة المستضافة ذاتياً تحتفظ بالبيانات في الحدود وتلبي متطلبات موقع البيانات.

قرار الاختيار ليس عن أي محلل يُنتج أفضل مخرجات بشكل معزول. بل عن قيدين: موقع البيانات وتوزيع نوع الوثيقة.

للبيئات المنظمة والبيانات في نطاق GDPR أو الوثائق التي تحتوي على أسرار تجارية، التحليل المستضاف ذاتياً إلزامي. تُدخل APIs التحليل السحابية مخاطر موقع البيانات في مرحلة التحليل، قبل أن يلمس أي نموذج لغوي المحتوى. إذا كان موقع البيانات متطلباً، استبعد أولاً المحللات السحابية الحصرية.

لتوزيع نوع الوثيقة: شغّل أسوأ عشر وثائق تنسيقاً لديك عبر كل محلل مرشح، ثم افحص يدوياً ما إذا كانت الجداول متسقة والإجراءات سليمة. المعايير العلنية على ملفات PDF النظيفة لا تخبرك شيئاً عن مجموعة وثائقك المحددة.

استراتيجية التقسيم ليست تفصيلاً

التقسيم يُحدد دقة الأدلة المتاحة للنموذج. الدقة الخاطئة في أي اتجاه تُدهور الاسترجاع.

التقسيم بحجم ثابت (الافتراضي في الدروس التعليمية): قسّم النص كل 512 رمزاً مع تداخل 50 رمزاً. سريع التطبيق. يكسر الوحدات الدلالية عند حدود القطع. إجراء موصوف على صفحتين يهبط في قطعتين؛ لا تحتوي أي منهما على الإجراء الكامل. فقدان السياق منهجي وقابل للتنبؤ.

التقسيم القائم على الجمل: يحترم حدود اللغة الطبيعية. مناسب للنص السردي ووثائق السياسات والتقارير. ضعيف الملاءمة للتوثيق التقني حيث قد تكون جملة واحدة بلا معنى دون الجدول أو الرسم البياني التالي لها.

التقسيم الدلالي: يُقسّم حيث تتغير المواضيع، بناءً على تشابه embedding بين المقاطع المتجاورة. مناسب للوثائق التقنية ذات الأقسام المتمايزة. يتطلب مكالمة embedding لكل قرار تقسيم مما يُضيف تكلفة الاستيعاب.

التقسيم الهرمي (أب-ابن): يخزن ملخصات الوثائق على المستوى الأبوي والمحتوى الكامل في قطع ابنة. يُحدد الاسترجاع الأقسام ذات الصلة على مستوى الملخص ثم يجلب المحتوى الابن. يُتيح نمط “استرجع الملخص، اجلب التفصيل عند الطلب”. مناسب للوثائق التنظيمية الطويلة والأدلة التقنية حيث تختلف صلة مستوى القسم عن صلة مستوى المقطع.

التقسيم القائم على الاقتراحات: يحلل النص إلى ادعاءات حقيقية ذرية. أعلى دقة في الاسترجاع. أعلى تكلفة استيعاب. مناسب لقواعد المعرفة حيث تهم دقة الحقائق: متطلبات الامتثال وبنود العقود ومواصفات المنتج.

القاعدة: طابق استراتيجية التقسيم مع الهيكل المعرفي لنوع الوثيقة. دليل المستخدم ووثيقة تنظيمية وتقرير أرباح لها هياكل معرفية مختلفة وتستحق مناهج تقسيم مختلفة. تطبيق استراتيجية تقسيم واحدة عبر مجموعة وثائق متباينة لأنها الافتراضي في الإطار هو قرار معماري اتُخذ بالتقاعس.

البيانات الوصفية كمضاعف الاسترجاع الخفي

يجب أن تحمل كل قطعة في المخزن المتجهي: مصدر الوثيقة وعنوان القسم وتاريخ آخر تعديل والمؤلف أو مالك الوثيقة واللغة ومستوى التصنيف والولاية القضائية ونوع الوثيقة. هذا ليس إثراءً اختيارياً. إنه البنية التحتية التي تجعل الاسترجاع قابلاً للتحكم.

تصفية البيانات الوصفية قبل البحث المتجهي تُزيل النتائج غير ذات الصلة بشكل أسرع وأكثر موثوقية من إعادة الترتيب بعد الاسترجاع. المستخدم في فريق العمليات الألماني يستعلم مجموعة وثائق متعددة اللغات لا يجب أن يسترجع وثائق من الفرع البرازيلي باللغة البرتغالية. هذه التصفية عملية بيانات وصفية. ليست شيئاً يستطيع مُعيد الترتيب تصحيحه بعد وقوعه، لأنه يعمل على وثائق موجودة بالفعل في مجموعة المرشحين.

غياب البيانات الوصفية يجعل التحكم في الوصول القائم على الأذونات مستحيلاً. لا يمكنك تقييد الاسترجاع حسب القسم أو مستوى الإذن أو الولاية القضائية الجغرافية دون بيانات وصفية متسقة على كل قطعة. التحكم في الأذونات المُطبَّق على طبقة واجهة المستخدم دون إنفاذ على طبقة الاسترجاع لا يوفر حماية حقيقية. الوثيقة استُرجعت. ما يحدث لتلك الاسترجاع محدد بالتنفيذ.

خط أنابيب الاستيعاب هو حيث تُحقن البيانات الوصفية. إضافة بيانات وصفية رجعية إلى مخزن متجهي موجود تتطلب إعادة استيعاب المجموعة بالكامل: تحليل وإعادة تقسيم وإعادة تضمين وإعادة فهرسة. التكلفة تتناسب مع حجم المجموعة. تصميم البيانات الوصفية في مرحلة بنية الاستيعاب أرخص بكثير من ترحيل البيانات الوصفية بعد النشر.

قرار نموذج التضمين (embedding)

تلجأ معظم الفرق المؤسسية افتراضياً إلى OpenAI text-embedding-3-small أو text-embedding-ada-002 لأن لديها حساب OpenAI بالفعل والدروس التعليمية تستخدمه. الافتراضي يعمل لمجموعات الوثائق الإنجليزية فقط حيث قبول استخدام API السحابي مقبول.

لعمليات النشر المؤسسية الأوروبية أو الشرق أوسطية مع مجموعات وثائق متعددة اللغات: يدعم BGE-M3 (BAAI) أكثر من 100 لغة في نموذج واحد ويُنتج متجهات كثيفة ومتجهات متفرقة وتمثيلات متجهية متعددة بأسلوب ColBERT في وقت واحد. تضمين BGE-M3 الواحد يدعم البحث الهجين دون تعقيد تشغيل نماذج كثيفة ومتفرقة منفصلة. يستضيف ذاتياً على أجهزتك التي تتحكم فيها بالفعل.

القيد الذي يجعل اختيار نموذج التضمين قراراً طويل الأمد: إعادة تضمين مجموعة بالكامل بعد تغيير النماذج تتطلب إعادة استيعاب كل شيء. مجموعة من 50,000 وثيقة معاد تضمينها بنموذج مختلف تمثل أسابيع من الحوسبة وعمل البنية التحتية. احصل على قرار نموذج التضمين بشكل صحيح في مرحلة البنية، حين يستغرق تغييره ساعات لا أسابيع.

قيّم على مجموعتك لا على المعايير العلنية من مجالات مختلفة. نموذج يؤدي أداءً جيداً على معيار BEIR قد يؤدي أداءً أدنى على أنواع وثائقك المحددة. إجراء التقييم: خذ 200 وثيقة تمثيلية من مجموعتك، وأنشئ 50 استعلاماً تمثيلياً، وقارن دقة الاسترجاع واستدعاءه بين النماذج المرشحة. افعل هذا قبل الالتزام.

بنية خط أنابيب الاستيعاب للإنتاج

A seven-stage ingestion pipeline from source trigger through extraction, chunking, metadata, embedding, indexing, and quality monitoring.

لخط أنابيب الاستيعاب للإنتاج سبع مراحل، وكل المراحل السبع مهمة:

المشغّل: وثيقة مضافة أو معدَّلة في نظام مصدر (SharePoint أو Google Drive أو Confluence أو نظام إدارة وثائق) يُطلق حدثاً يبدأ الاستيعاب. تُستوعب الوثائق الجديدة؛ تُعاد استيعاب الوثائق المحدَّثة؛ تُزال الوثائق المحذوفة من المخزن المتجهي.

الاستخراج: تُسترجع الوثيقة وتُحلَّل باستخدام المحلل الحافظ للبنية المختار. الناتج محتوى منظم مع معلومات التخطيط وبنية الجدول والتسلسل الهرمي للأقسام.

التقسيم: تُطبَّق استراتيجية التقسيم حسب نوع الوثيقة. وثائق السياسات تستخدم التقسيم الدلالي. الأدلة التقنية تستخدم التقسيم الهرمي. العقود تستخدم التقسيم القائم على الاقتراحات. يُضبط الربط بين نوع الوثيقة واستراتيجية التقسيم في إعدادات قابلة للتغيير، لا مُدمجة في الكود، حتى يمكن تحديثها مع تطور مجموعة الوثائق.

الإثراء: تُحقن البيانات الوصفية من خصائص الوثيقة وبيانات نظام المصدر الوصفية وقواعد التصنيف. المصدر والتاريخ والمالك والتصنيف واللغة والولاية القضائية. كل قطعة تتلقى بيانات وصفية كاملة قبل التضمين.

التضمين: يُطبَّق نموذج التضمين، وتُحسب المتجهات وتُخزَّن في قاعدة البيانات المتجهية جنباً إلى جنب مع البيانات الوصفية. تضمين دفعي للاستيعاب الأولي وتضمين تزايدي لتحديثات الوثائق.

تحديث الفهرس: تُفهرس المتجهات الجديدة، وتحل المتجهات المحدَّثة محل الإصدارات السابقة، وتُزال متجهات الوثائق المحذوفة. إدارة الحداثة ليست تلقائية في معظم قواعد البيانات المتجهية؛ تتطلب حذفاً صريحاً للسجلات القديمة.

سجل التدقيق: كل حدث استيعاب مُسجَّل مع الطابع الزمني ومعرّف الوثيقة المصدر وهاش الوثيقة وعدد القطع وإصدار نموذج التضمين وإصدار خط أنابيب الاستيعاب. هذا هو السجل الذي يجيب على “أي نسخة من أي وثيقة كانت مصدر هذه الاستجابة؟” هذا الجواب متطلب امتثال في القطاعات المنظمة، لا مساعدة في التصحيح.

بدون سجل التدقيق، لا تستطيع الإجابة على هذا السؤال. في القطاعات حيث لهذا السؤال ثقل تنظيمي، عدم القدرة على الإجابة عليه مسؤولية، لا إزعاج.

جودة الاستيعاب تحدد ما تملكه طبقة الاسترجاع للعمل عليه. البنية المعمارية للاسترجاع التي تحوّل الوثائق جيدة الاستيعاب إلى استجابات قليلة الهلوسة مُغطاة في RAG يُهلوس أقل حين تتوقف عن التعامل معه كمحرك بحث.

للفرق المؤسسية التي تُقيّم ما إذا كان خط أنابيب استيعابها الحالي هو عنق الزجاجة، رحلة فرصة AI تُشخّص ذلك في أيام لا أرباع.