RAG و LangChain: دليل شامل للتوليد المعزز بالاسترجاع

spinny:~/writing $ less rag-langchain-deep-dive.md

1 
2النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 و Claude قوية بشكل استثنائي، لكنها تعاني من قيد أساسي: معرفتها مجمدة في وقت التدريب. لا يمكنها الوصول إلى مستنداتك الداخلية أو قاعدة بياناتك أو المعلومات في الوقت الفعلي. **التوليد المعزز بالاسترجاع (RAG)** يحل هذه المشكلة تحديداً من خلال الجمع بين القوة التوليدية لنماذج LLM والقدرة على استرجاع المعلومات من مصادر خارجية.
3 
4## المشكلة: حدود نماذج LLM
5 
6قبل الحديث عن RAG، من المهم فهم لماذا نحتاجها.
7 
81.  **المعرفة الثابتة**: نموذج LLM يعرف فقط ما رآه أثناء التدريب. إذا سألته عن حدث وقع بعد تاريخ قطعه، لا يمكنه الإجابة.
92.  **الهلوسات**: عندما لا يعرف نموذج LLM الإجابة، يميل إلى اختلاقها، مولداً معلومات تبدو معقولة لكنها خاطئة تماماً.
103.  **عدم الوصول للبيانات الخاصة**: نموذج LLM العام لا يمكنه الوصول إلى وثائق شركتك الداخلية أو التذاكر أو قاعدة الكود.
11 
12يعالج RAG هذه المشاكل الثلاث من خلال تزويد النموذج بـ**سياق ذي صلة** مسترجع من مصادر خارجية في وقت الاستعلام.
13 
14## ما هو RAG؟
15 
16التوليد المعزز بالاسترجاع هو بنية تثري الموجه المرسل إلى LLM بمعلومات مسترجعة من قاعدة معرفة خارجية. بدلاً من الاعتماد فقط على المعرفة البارامترية للنموذج، يقوم RAG أولاً بـ**البحث** عن المعلومات ذات الصلة ثم **حقنها** في الموجه، مما يمكّن النموذج من توليد إجابات دقيقة ومؤسسة.
17 
18```mermaid
19graph LR
20    User["المستخدم"] -- "سؤال" --> Retriever
21    Retriever -- "بحث عن مستندات\nذات صلة" --> VectorStore["مخزن المتجهات"]
22    VectorStore -- "مستندات\nذات صلة" --> Retriever
23    Retriever -- "سياق + سؤال" --> LLM
24    LLM -- "إجابة\nمؤسسة" --> User
25```
26 
27## كيف يعمل RAG بالتفصيل
28 
29تتكون بنية RAG من مرحلتين رئيسيتين: **الفهرسة** (غير متصلة) و**الاسترجاع + التوليد** (متصلة).
30 
31### المرحلة 1: الفهرسة (استيعاب المستندات)
32 
33تُعد مرحلة الفهرسة مستنداتك للبحث الدلالي. تتكون من أربع خطوات.
34 
35```mermaid
36graph TD
37    A["المستندات\n(PDF, HTML, MD, DB)"] --> B["محمّل المستندات"]
38    B --> C["مقسّم النصوص"]
39    C --> D["أجزاء نصية"]
40    D --> E["نموذج التضمين"]
41    E --> F["متجهات رقمية"]
42    F --> G["مخزن المتجهات\n(ChromaDB, Pinecone, FAISS)"]
43```
44 
45#### 1. تحميل المستندات
46 
47يمكن أن تأتي المستندات من أي مصدر: ملفات PDF، صفحات ويب، قواعد بيانات، ملفات Markdown، واجهات برمجة التطبيقات. يقوم **محمّل المستندات** بقراءة هذه المستندات وتحويلها إلى نص منظم.
48 
49#### 2. تقسيم النص (Chunking)
50 
51نماذج LLM لديها نافذة سياق محدودة، والمستندات يمكن أن تكون طويلة جداً. يقسم **مقسّم النصوص** المستندات إلى أجزاء أصغر تسمى *chunks*. جودة التقسيم حاسمة: الأجزاء الصغيرة جداً تفقد السياق، والأجزاء الكبيرة جداً تخفف الصلة.
52 
53الاستراتيجيات الأكثر شيوعاً هي:
54-   **التقسيم التكراري بالأحرف**: يقسم النص بشكل تكراري باستخدام فواصل مثل `\n\n`، `\n`، `. `، مع احترام بنية المستند.
55-   **التقسيم الدلالي**: يستخدم التضمينات لإيجاد نقاط الانقطاع الطبيعية في النص.
56-   **تداخل الأجزاء**: يتضمن تداخلاً بين الأجزاء المتتالية للحفاظ على السياق عند الحدود.
57 
58#### 3. التضمين
59 
60يتم تحويل كل جزء إلى **متجه رقمي** (تضمين) عبر نموذج تضمين (مثل `text-embedding-3-small` من OpenAI). تلتقط هذه المتجهات المعنى الدلالي للنص: الجمل ذات المعاني المتشابهة سيكون لها متجهات قريبة في الفضاء متعدد الأبعاد.
61 
62#### 4. مخزن المتجهات
63 
64تُحفظ المتجهات في **مخزن متجهات** (أو قاعدة بيانات متجهية)، مثل ChromaDB أو Pinecone أو Weaviate أو FAISS. قاعدة البيانات هذه محسّنة لـ**البحث بالتشابه**: بإعطاء استعلام، تجد المتجهات الأكثر تشابهاً (وبالتالي أجزاء النص الأكثر صلة).
65 
66### المرحلة 2: الاسترجاع + التوليد
67 
68عندما يطرح المستخدم سؤالاً:
69 
701.  يتم تحويل السؤال إلى تضمين باستخدام نفس نموذج التضمين.
712.  يجد مخزن المتجهات الأجزاء الأكثر تشابهاً عبر **البحث بالتشابه** (عادةً تشابه جيب التمام أو المسافة الإقليدية).
723.  يتم إدراج الأجزاء المسترجعة في الموجه كسياق.
734.  يولد نموذج LLM الإجابة بناءً على السياق المقدم.
74 
75## بناء أنبوب RAG باستخدام LangChain
76 
77**LangChain** هو إطار عمل Python (و JavaScript) الأكثر شعبية لبناء تطبيقات تعتمد على LLM. يوفر تجريدات عالية المستوى لكل مكون من مكونات أنبوب RAG.
78 
79### التثبيت
80 
81```bash
82pip install langchain langchain-openai langchain-community chromadb
83```
84 
85### الخطوة 1: تحميل المستندات
86 
87يوفر LangChain عشرات محمّلات المستندات لمصادر بيانات مختلفة.
88 
89```python
90from langchain_community.document_loaders import (
91    PyPDFLoader,
92    WebBaseLoader,
93    DirectoryLoader,
94    TextLoader,
95)
96 
97# تحميل ملف PDF
98pdf_loader = PyPDFLoader("docs/manual.pdf")
99pdf_docs = pdf_loader.load()
100 
101# تحميل صفحة ويب
102web_loader = WebBaseLoader("https://docs.example.com/guide")
103web_docs = web_loader.load()
104 
105# تحميل جميع ملفات .md من مجلد
106dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)
107md_docs = dir_loader.load()
108 
109all_docs = pdf_docs + web_docs + md_docs
110```
111 
112### الخطوة 2: تقسيم المستندات إلى أجزاء
113 
114```python
115from langchain.text_splitter import RecursiveCharacterTextSplitter
116 
117text_splitter = RecursiveCharacterTextSplitter(
118    chunk_size=1000,
119    chunk_overlap=200,
120    separators=["\n\n", "\n", ". ", " ", ""],
121)
122 
123chunks = text_splitter.split_documents(all_docs)
124print(f"المستندات الأصلية: {len(all_docs)}, الأجزاء: {len(chunks)}")
125```
126 
127معامل `chunk_overlap` حاسم: يُنشئ تداخلاً بين الأجزاء المتتالية حتى لا يُفقد السياق عند الحدود.
128 
129### الخطوة 3: إنشاء التضمينات ومخزن المتجهات
130 
131```python
132from langchain_openai import OpenAIEmbeddings
133from langchain_community.vectorstores import Chroma
134 
135embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
136 
137vectorstore = Chroma.from_documents(
138    documents=chunks,
139    embedding=embedding_model,
140    persist_directory="./chroma_db",
141)
142```
143 
144### الخطوة 4: إنشاء المسترجع
145 
146المسترجع هو المكون الذي، بإعطاء استعلام، يسترجع الأجزاء الأكثر صلة من مخزن المتجهات.
147 
148```python
149retriever = vectorstore.as_retriever(
150    search_type="similarity",
151    search_kwargs={"k": 4},
152)
153 
154relevant_docs = retriever.invoke("كيف يعمل المصادقة؟")
155for doc in relevant_docs:
156    print(doc.page_content[:200])
157    print("---")
158```
159 
160### الخطوة 5: بناء سلسلة RAG
161 
162الآن نجمع كل شيء مع LLM وقالب موجه.
163 
164```python
165from langchain_openai import ChatOpenAI
166from langchain_core.prompts import ChatPromptTemplate
167from langchain_core.runnables import RunnablePassthrough
168from langchain_core.output_parsers import StrOutputParser
169 
170llm = ChatOpenAI(model="gpt-4o", temperature=0)
171 
172prompt = ChatPromptTemplate.from_template("""
173أجب على السؤال بناءً على السياق المقدم فقط.
174إذا لم يحتوِ السياق على معلومات كافية، قل أنك لا تعرف.
175 
176السياق:
177{context}
178 
179السؤال: {question}
180 
181الإجابة:
182""")
183 
184def format_docs(docs):
185    return "\n\n".join(doc.page_content for doc in docs)
186 
187rag_chain = (
188    {"context": retriever | format_docs, "question": RunnablePassthrough()}
189    | prompt
190    | llm
191    | StrOutputParser()
192)
193 
194response = rag_chain.invoke("كيف تعمل المصادقة في النظام؟")
195print(response)
196```
197 
198## تقنيات RAG المتقدمة
199 
200يعمل الأنبوب الأساسي بشكل جيد، لكن هناك عدة تقنيات لتحسين جودة الإجابات بشكل كبير.
201 
202### الاسترجاع متعدد الاستعلامات
203 
204أحياناً يكون استعلام المستخدم غامضاً أو غير متوافق مع اللغة المستخدمة في المستندات. **المسترجع متعدد الاستعلامات** يولد تلقائياً متغيرات من السؤال الأصلي لالتقاط وجهات نظر متعددة.
205 
206```python
207from langchain.retrievers import MultiQueryRetriever
208 
209multi_retriever = MultiQueryRetriever.from_llm(
210    retriever=vectorstore.as_retriever(),
211    llm=llm,
212)
213 
214docs = multi_retriever.invoke("ما هي أفضل الممارسات الأمنية؟")
215```
216 
217### الضغط السياقي
218 
219ليس كل محتوى الجزء ذا صلة بالاستعلام. **مسترجع الضغط السياقي** يستخدم LLM لاستخراج الأجزاء ذات الصلة فقط من كل جزء مسترجع.
220 
221```python
222from langchain.retrievers import ContextualCompressionRetriever
223from langchain.retrievers.document_compressors import LLMChainExtractor
224 
225compressor = LLMChainExtractor.from_llm(llm)
226compression_retriever = ContextualCompressionRetriever(
227    base_compressor=compressor,
228    base_retriever=retriever,
229)
230```
231 
232### البحث الهجين
233 
234البحث الدلالي البحت ليس دائماً الأمثل. **البحث الهجين** يجمع بين البحث الدلالي (التضمينات) والبحث المعجمي (BM25، مطابقة الكلمات المفتاحية) للحصول على نتائج أفضل.
235 
236```python
237from langchain.retrievers import EnsembleRetriever
238from langchain_community.retrievers import BM25Retriever
239 
240bm25_retriever = BM25Retriever.from_documents(chunks)
241bm25_retriever.k = 4
242 
243semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})
244 
245hybrid_retriever = EnsembleRetriever(
246    retrievers=[bm25_retriever, semantic_retriever],
247    weights=[0.4, 0.6],
248)
249```
250 
251### RAG المحادثي (مع الذاكرة)
252 
253لبناء روبوت محادثة RAG يتذكر سياق المحادثة، تحتاج إلى إضافة ذاكرة تعيد صياغة أسئلة المستخدم مع مراعاة سجل المحادثة.
254 
255```python
256from langchain.chains import create_history_aware_retriever
257from langchain_core.prompts import MessagesPlaceholder
258 
259contextualize_prompt = ChatPromptTemplate.from_messages([
260    ("system", "بالنظر إلى سجل المحادثة وآخر سؤال للمستخدم، "
261               "أعد صياغة السؤال بحيث يكون مفهوماً بدون السجل."),
262    MessagesPlaceholder("chat_history"),
263    ("human", "{input}"),
264])
265 
266history_aware_retriever = create_history_aware_retriever(
267    llm, retriever, contextualize_prompt
268)
269```
270 
271## أفضل الممارسات
272 
2731.  **اختر حجم الجزء المناسب**: جرب أحجاماً مختلفة (500-1500 رمز). أجزاء أصغر للإجابات الدقيقة، أكبر للسياق الواسع.
2742.  **استخدم بيانات وصفية للمستندات**: أضف المصدر والتاريخ والفئة كبيانات وصفية للأجزاء. هذا يسمح بتصفية النتائج أثناء الاسترجاع.
2753.  **قيّم الجودة**: استخدم أطر عمل مثل [RAGAS](https://docs.ragas.io/) لقياس مقاييس مثل *الأمانة*، *الصلة* و*دقة السياق*.
2764.  **أدر تحديثات المستندات**: نفّذ أنبوب إعادة استيعاب للحفاظ على مخزن المتجهات متزامناً مع مصادر بياناتك.
2775.  **أضف مُعيد ترتيب**: بعد الاسترجاع الأولي، استخدم نموذج إعادة ترتيب (مثل Cohere Rerank) لإعادة ترتيب النتائج بناءً على الصلة الفعلية.
278 
279## الخلاصة
280 
281أصبح RAG البنية المعيارية لبناء تطبيقات الذكاء الاصطناعي التي تحتاج إلى الوصول لمعرفة محددة ومحدثة. يُبسط LangChain التنفيذ بشكل كبير من خلال توفير تجريدات لكل مكون من مكونات الأنبوب.
282 
283**الخطوات التالية:**
284- **جرب محلياً**: ابدأ مع ChromaDB وبضعة مستندات للتعرف على الأنبوب.
285- **استكشف LangSmith**: استخدم [LangSmith](https://smith.langchain.com/) لمراقبة وتصحيح سلاسلك في الإنتاج.
286- **جرب نماذج تضمين مختلفة**: قارن نماذج مثل `text-embedding-3-small` و `text-embedding-3-large` ونماذج مفتوحة المصدر من Sentence Transformers.
287- **راجع التوثيق**: [توثيق LangChain](https://python.langchain.com/docs/) مورد ممتاز ومحدث باستمرار.
288

:RAG و LangChain: دليل شامل للتوليد المعزز بالاسترجاعlines 1-288 (END) — press q to close

2النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 و Claude قوية بشكل استثنائي، لكنها تعاني من قيد أساسي: معرفتها مجمدة في وقت التدريب. لا يمكنها الوصول إلى مستنداتك الداخلية أو قاعدة بياناتك أو المعلومات في الوقت الفعلي. **التوليد المعزز بالاسترجاع (RAG)** يحل هذه المشكلة تحديداً من خلال الجمع بين القوة التوليدية لنماذج LLM والقدرة على استرجاع المعلومات من مصادر خارجية.

4## المشكلة: حدود نماذج LLM

6قبل الحديث عن RAG، من المهم فهم لماذا نحتاجها.

81. **المعرفة الثابتة**: نموذج LLM يعرف فقط ما رآه أثناء التدريب. إذا سألته عن حدث وقع بعد تاريخ قطعه، لا يمكنه الإجابة.

92. **الهلوسات**: عندما لا يعرف نموذج LLM الإجابة، يميل إلى اختلاقها، مولداً معلومات تبدو معقولة لكنها خاطئة تماماً.

103. **عدم الوصول للبيانات الخاصة**: نموذج LLM العام لا يمكنه الوصول إلى وثائق شركتك الداخلية أو التذاكر أو قاعدة الكود.

12يعالج RAG هذه المشاكل الثلاث من خلال تزويد النموذج بـ**سياق ذي صلة** مسترجع من مصادر خارجية في وقت الاستعلام.

14## ما هو RAG؟

16التوليد المعزز بالاسترجاع هو بنية تثري الموجه المرسل إلى LLM بمعلومات مسترجعة من قاعدة معرفة خارجية. بدلاً من الاعتماد فقط على المعرفة البارامترية للنموذج، يقوم RAG أولاً بـ**البحث** عن المعلومات ذات الصلة ثم **حقنها** في الموجه، مما يمكّن النموذج من توليد إجابات دقيقة ومؤسسة.

18```mermaid

19graph LR

20 User["المستخدم"] -- "سؤال" --> Retriever

21 Retriever -- "بحث عن مستندات\nذات صلة" --> VectorStore["مخزن المتجهات"]

22 VectorStore -- "مستندات\nذات صلة" --> Retriever

23 Retriever -- "سياق + سؤال" --> LLM

24 LLM -- "إجابة\nمؤسسة" --> User

25```

27## كيف يعمل RAG بالتفصيل

29تتكون بنية RAG من مرحلتين رئيسيتين: **الفهرسة** (غير متصلة) و**الاسترجاع + التوليد** (متصلة).

31### المرحلة 1: الفهرسة (استيعاب المستندات)

33تُعد مرحلة الفهرسة مستنداتك للبحث الدلالي. تتكون من أربع خطوات.

35```mermaid

36graph TD

37 A["المستندات\n(PDF, HTML, MD, DB)"] --> B["محمّل المستندات"]

38 B --> C["مقسّم النصوص"]

39 C --> D["أجزاء نصية"]

40 D --> E["نموذج التضمين"]

41 E --> F["متجهات رقمية"]

42 F --> G["مخزن المتجهات\n(ChromaDB, Pinecone, FAISS)"]

43```

45#### 1. تحميل المستندات

47يمكن أن تأتي المستندات من أي مصدر: ملفات PDF، صفحات ويب، قواعد بيانات، ملفات Markdown، واجهات برمجة التطبيقات. يقوم **محمّل المستندات** بقراءة هذه المستندات وتحويلها إلى نص منظم.

49#### 2. تقسيم النص (Chunking)

51نماذج LLM لديها نافذة سياق محدودة، والمستندات يمكن أن تكون طويلة جداً. يقسم **مقسّم النصوص** المستندات إلى أجزاء أصغر تسمى *chunks*. جودة التقسيم حاسمة: الأجزاء الصغيرة جداً تفقد السياق، والأجزاء الكبيرة جداً تخفف الصلة.

53الاستراتيجيات الأكثر شيوعاً هي:

54- **التقسيم التكراري بالأحرف**: يقسم النص بشكل تكراري باستخدام فواصل مثل `\n\n`، `\n`، `. `، مع احترام بنية المستند.

55- **التقسيم الدلالي**: يستخدم التضمينات لإيجاد نقاط الانقطاع الطبيعية في النص.

56- **تداخل الأجزاء**: يتضمن تداخلاً بين الأجزاء المتتالية للحفاظ على السياق عند الحدود.

58#### 3. التضمين

60يتم تحويل كل جزء إلى **متجه رقمي** (تضمين) عبر نموذج تضمين (مثل `text-embedding-3-small` من OpenAI). تلتقط هذه المتجهات المعنى الدلالي للنص: الجمل ذات المعاني المتشابهة سيكون لها متجهات قريبة في الفضاء متعدد الأبعاد.

62#### 4. مخزن المتجهات

64تُحفظ المتجهات في **مخزن متجهات** (أو قاعدة بيانات متجهية)، مثل ChromaDB أو Pinecone أو Weaviate أو FAISS. قاعدة البيانات هذه محسّنة لـ**البحث بالتشابه**: بإعطاء استعلام، تجد المتجهات الأكثر تشابهاً (وبالتالي أجزاء النص الأكثر صلة).

66### المرحلة 2: الاسترجاع + التوليد

68عندما يطرح المستخدم سؤالاً:

701. يتم تحويل السؤال إلى تضمين باستخدام نفس نموذج التضمين.

712. يجد مخزن المتجهات الأجزاء الأكثر تشابهاً عبر **البحث بالتشابه** (عادةً تشابه جيب التمام أو المسافة الإقليدية).

723. يتم إدراج الأجزاء المسترجعة في الموجه كسياق.

734. يولد نموذج LLM الإجابة بناءً على السياق المقدم.

75## بناء أنبوب RAG باستخدام LangChain

77**LangChain** هو إطار عمل Python (و JavaScript) الأكثر شعبية لبناء تطبيقات تعتمد على LLM. يوفر تجريدات عالية المستوى لكل مكون من مكونات أنبوب RAG.

79### التثبيت

81```bash

82pip install langchain langchain-openai langchain-community chromadb

83```

85### الخطوة 1: تحميل المستندات

87يوفر LangChain عشرات محمّلات المستندات لمصادر بيانات مختلفة.

89```python

90from langchain_community.document_loaders import (

91 PyPDFLoader,

92 WebBaseLoader,

93 DirectoryLoader,

94 TextLoader,

95)

97# تحميل ملف PDF

98pdf_loader = PyPDFLoader("docs/manual.pdf")

99pdf_docs = pdf_loader.load()

100

101# تحميل صفحة ويب

102web_loader = WebBaseLoader("https://docs.example.com/guide")

103web_docs = web_loader.load()

104

105# تحميل جميع ملفات .md من مجلد

106dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)

107md_docs = dir_loader.load()

108

109all_docs = pdf_docs + web_docs + md_docs

110```

111

112### الخطوة 2: تقسيم المستندات إلى أجزاء

113

114```python

115from langchain.text_splitter import RecursiveCharacterTextSplitter

116

117text_splitter = RecursiveCharacterTextSplitter(

118 chunk_size=1000,

119 chunk_overlap=200,

120 separators=["\n\n", "\n", ". ", " ", ""],

121)

122

123chunks = text_splitter.split_documents(all_docs)

124print(f"المستندات الأصلية: {len(all_docs)}, الأجزاء: {len(chunks)}")

125```

126

127معامل `chunk_overlap` حاسم: يُنشئ تداخلاً بين الأجزاء المتتالية حتى لا يُفقد السياق عند الحدود.

128

129### الخطوة 3: إنشاء التضمينات ومخزن المتجهات

130

131```python

132from langchain_openai import OpenAIEmbeddings

133from langchain_community.vectorstores import Chroma

134

135embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

136

137vectorstore = Chroma.from_documents(

138 documents=chunks,

139 embedding=embedding_model,

140 persist_directory="./chroma_db",

141)

142```

143

144### الخطوة 4: إنشاء المسترجع

145

146المسترجع هو المكون الذي، بإعطاء استعلام، يسترجع الأجزاء الأكثر صلة من مخزن المتجهات.

147

148```python

149retriever = vectorstore.as_retriever(

150 search_type="similarity",

151 search_kwargs={"k": 4},

152)

153

154relevant_docs = retriever.invoke("كيف يعمل المصادقة؟")

155for doc in relevant_docs:

156 print(doc.page_content[:200])

157 print("---")

158```

159

160### الخطوة 5: بناء سلسلة RAG

161

162الآن نجمع كل شيء مع LLM وقالب موجه.

163

164```python

165from langchain_openai import ChatOpenAI

166from langchain_core.prompts import ChatPromptTemplate

167from langchain_core.runnables import RunnablePassthrough

168from langchain_core.output_parsers import StrOutputParser

169

170llm = ChatOpenAI(model="gpt-4o", temperature=0)

171

172prompt = ChatPromptTemplate.from_template("""

173أجب على السؤال بناءً على السياق المقدم فقط.

174إذا لم يحتوِ السياق على معلومات كافية، قل أنك لا تعرف.

175

176السياق:

177{context}

178

179السؤال: {question}

180

181الإجابة:

182""")

183

184def format_docs(docs):

185 return "\n\n".join(doc.page_content for doc in docs)

186

187rag_chain = (

188 {"context": retriever | format_docs, "question": RunnablePassthrough()}

189 | prompt

190 | llm

191 | StrOutputParser()

192)

193

194response = rag_chain.invoke("كيف تعمل المصادقة في النظام؟")

195print(response)

196```

197

198## تقنيات RAG المتقدمة

199

200يعمل الأنبوب الأساسي بشكل جيد، لكن هناك عدة تقنيات لتحسين جودة الإجابات بشكل كبير.

201

202### الاسترجاع متعدد الاستعلامات

203

204أحياناً يكون استعلام المستخدم غامضاً أو غير متوافق مع اللغة المستخدمة في المستندات. **المسترجع متعدد الاستعلامات** يولد تلقائياً متغيرات من السؤال الأصلي لالتقاط وجهات نظر متعددة.

205

206```python

207from langchain.retrievers import MultiQueryRetriever

208

209multi_retriever = MultiQueryRetriever.from_llm(

210 retriever=vectorstore.as_retriever(),

211 llm=llm,

212)

213

214docs = multi_retriever.invoke("ما هي أفضل الممارسات الأمنية؟")

215```

216

217### الضغط السياقي

218

219ليس كل محتوى الجزء ذا صلة بالاستعلام. **مسترجع الضغط السياقي** يستخدم LLM لاستخراج الأجزاء ذات الصلة فقط من كل جزء مسترجع.

220

221```python

222from langchain.retrievers import ContextualCompressionRetriever

223from langchain.retrievers.document_compressors import LLMChainExtractor

224

225compressor = LLMChainExtractor.from_llm(llm)

226compression_retriever = ContextualCompressionRetriever(

227 base_compressor=compressor,

228 base_retriever=retriever,

229)

230```

231

232### البحث الهجين

233

234البحث الدلالي البحت ليس دائماً الأمثل. **البحث الهجين** يجمع بين البحث الدلالي (التضمينات) والبحث المعجمي (BM25، مطابقة الكلمات المفتاحية) للحصول على نتائج أفضل.

235

236```python

237from langchain.retrievers import EnsembleRetriever

238from langchain_community.retrievers import BM25Retriever

239

240bm25_retriever = BM25Retriever.from_documents(chunks)

241bm25_retriever.k = 4

242

243semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

244

245hybrid_retriever = EnsembleRetriever(

246 retrievers=[bm25_retriever, semantic_retriever],

247 weights=[0.4, 0.6],

248)

249```

250

251### RAG المحادثي (مع الذاكرة)

252

253لبناء روبوت محادثة RAG يتذكر سياق المحادثة، تحتاج إلى إضافة ذاكرة تعيد صياغة أسئلة المستخدم مع مراعاة سجل المحادثة.

254

255```python

256from langchain.chains import create_history_aware_retriever

257from langchain_core.prompts import MessagesPlaceholder

258

259contextualize_prompt = ChatPromptTemplate.from_messages([

260 ("system", "بالنظر إلى سجل المحادثة وآخر سؤال للمستخدم، "

261 "أعد صياغة السؤال بحيث يكون مفهوماً بدون السجل."),

262 MessagesPlaceholder("chat_history"),

263 ("human", "{input}"),

264])

265

266history_aware_retriever = create_history_aware_retriever(

267 llm, retriever, contextualize_prompt

268)

269```

270

271## أفضل الممارسات

272

2731. **اختر حجم الجزء المناسب**: جرب أحجاماً مختلفة (500-1500 رمز). أجزاء أصغر للإجابات الدقيقة، أكبر للسياق الواسع.

2742. **استخدم بيانات وصفية للمستندات**: أضف المصدر والتاريخ والفئة كبيانات وصفية للأجزاء. هذا يسمح بتصفية النتائج أثناء الاسترجاع.

2753. **قيّم الجودة**: استخدم أطر عمل مثل [RAGAS](https://docs.ragas.io/) لقياس مقاييس مثل *الأمانة*، *الصلة* و*دقة السياق*.

2764. **أدر تحديثات المستندات**: نفّذ أنبوب إعادة استيعاب للحفاظ على مخزن المتجهات متزامناً مع مصادر بياناتك.

2775. **أضف مُعيد ترتيب**: بعد الاسترجاع الأولي، استخدم نموذج إعادة ترتيب (مثل Cohere Rerank) لإعادة ترتيب النتائج بناءً على الصلة الفعلية.

278

279## الخلاصة

280

281أصبح RAG البنية المعيارية لبناء تطبيقات الذكاء الاصطناعي التي تحتاج إلى الوصول لمعرفة محددة ومحدثة. يُبسط LangChain التنفيذ بشكل كبير من خلال توفير تجريدات لكل مكون من مكونات الأنبوب.

282

283**الخطوات التالية:**

284- **جرب محلياً**: ابدأ مع ChromaDB وبضعة مستندات للتعرف على الأنبوب.

285- **استكشف LangSmith**: استخدم [LangSmith](https://smith.langchain.com/) لمراقبة وتصحيح سلاسلك في الإنتاج.

286- **جرب نماذج تضمين مختلفة**: قارن نماذج مثل `text-embedding-3-small` و `text-embedding-3-large` ونماذج مفتوحة المصدر من Sentence Transformers.

287- **راجع التوثيق**: [توثيق LangChain](https://python.langchain.com/docs/) مورد ممتاز ومحدث باستمرار.

288