spinny:~/writing $ cat rag-langchain-deep-dive.md

RAG و LangChain: راهنمای کامل Retrieval-Augmented Generation

2026-03-02 · 3 min read · Filippo Spinella · AI, LangChain, LLM, Python

مدل‌های زبانی بزرگ (LLMs) مانند GPT-4 و Claude فوق‌العاده قدرتمند هستند، اما از یک محدودیت بنیادین رنج می‌برند: دانش آنها در زمان آموزش منجمد است. Retrieval-Augmented Generation (RAG) دقیقاً این مشکل را حل می‌کند.

مشکل: محدودیت‌های LLM

دانش ایستا: یک LLM فقط آنچه در طول آموزش دیده را می‌داند.
توهمات: وقتی LLM پاسخ را نمی‌داند، تمایل به ساختن یکی دارد.
عدم دسترسی به داده‌های خصوصی.

RAG چیست؟

نحوه کار RAG

فاز ۱: ایندکس‌گذاری

فاز ۲: بازیابی + تولید

ساخت پایپ‌لاین RAG با LangChain

نصب

pip install langchain langchain-openai langchain-community chromadb

مرحله ۱: بارگذاری اسناد

from langchain_community.document_loaders import (
    PyPDFLoader,
    WebBaseLoader,
    DirectoryLoader,
    TextLoader,
)

pdf_loader = PyPDFLoader("docs/manual.pdf")
pdf_docs = pdf_loader.load()

web_loader = WebBaseLoader("https://docs.example.com/guide")
web_docs = web_loader.load()

dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)
md_docs = dir_loader.load()

all_docs = pdf_docs + web_docs + md_docs

مرحله ۲: تقسیم اسناد به chunks

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    separators=["\n\n", "\n", ". ", " ", ""],
)

chunks = text_splitter.split_documents(all_docs)
print(f"Original documents: {len(all_docs)}, Chunks: {len(chunks)}")

مرحله ۳: ایجاد embeddings و Vector Store

from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embedding_model,
    persist_directory="./chroma_db",
)

مرحله ۴: ایجاد Retriever

retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 4},
)

relevant_docs = retriever.invoke("How does authentication work?")
for doc in relevant_docs:
    print(doc.page_content[:200])
    print("---")

مرحله ۵: ساخت زنجیره RAG

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

llm = ChatOpenAI(model="gpt-4o", temperature=0)

prompt = ChatPromptTemplate.from_template("""
Answer the question based only on the provided context.
If the context does not contain enough information, say you don't know.

Context:
{context}

Question: {question}

Answer:
""")

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

response = rag_chain.invoke("How does authentication work in the system?")
print(response)

تکنیک‌های پیشرفته RAG

Multi-Query Retrieval

from langchain.retrievers import MultiQueryRetriever

multi_retriever = MultiQueryRetriever.from_llm(
    retriever=vectorstore.as_retriever(),
    llm=llm,
)

docs = multi_retriever.invoke("What are the security best practices?")

فشرده‌سازی زمینه‌ای

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

compressor = LLMChainExtractor.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=retriever,
)

جستجوی ترکیبی

from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever

bm25_retriever = BM25Retriever.from_documents(chunks)
bm25_retriever.k = 4

semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

hybrid_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, semantic_retriever],
    weights=[0.4, 0.6],
)

RAG مکالمه‌ای (با حافظه)

from langchain.chains import create_history_aware_retriever
from langchain_core.prompts import MessagesPlaceholder

contextualize_prompt = ChatPromptTemplate.from_messages([
    ("system", "Given the chat history and the user's latest question, "
               "reformulate the question so it is understandable without the history."),
    MessagesPlaceholder("chat_history"),
    ("human", "{input}"),
])

history_aware_retriever = create_history_aware_retriever(
    llm, retriever, contextualize_prompt
)

بهترین شیوه‌ها

اندازه chunk مناسب انتخاب کنید: با اندازه‌های مختلف (۵۰۰-۱۵۰۰ توکن) آزمایش کنید.
از متادیتای اسناد استفاده کنید.
کیفیت را ارزیابی کنید: از فریم‌ورک‌هایی مانند RAGAS استفاده کنید.
به‌روزرسانی اسناد را مدیریت کنید.
یک re-ranker اضافه کنید.

نتیجه‌گیری

RAG به معماری استاندارد برای ساخت برنامه‌های هوش مصنوعی تبدیل شده است. LangChain پیاده‌سازی را بسیار ساده می‌کند.

مراحل بعدی:

به صورت محلی آزمایش کنید: با ChromaDB و چند سند شروع کنید.
LangSmith را کاوش کنید: از LangSmith برای نظارت استفاده کنید.
مدل‌های embedding مختلف را امتحان کنید.
مستندات را بررسی کنید: مستندات LangChain.