RAG та LangChain: Повний Посібник з Retrieval-Augmented Generation

spinny:~/writing $ less rag-langchain-deep-dive.md

1 
2Великі мовні моделі (LLM) такі як GPT-4 та Claude надзвичайно потужні, але мають фундаментальне обмеження: їхні знання заморожені на момент навчання. **Retrieval-Augmented Generation (RAG)** вирішує саме цю проблему, поєднуючи генеративну потужність LLM з можливістю отримувати інформацію з зовнішніх джерел.
3 
4## Проблема: Обмеження LLM
5 
61.  **Статичні знання**: LLM знає лише те, що бачив під час навчання.
72.  **Галюцинації**: Коли LLM не знає відповіді, він має тенденцію вигадувати.
83.  **Немає доступу до приватних даних**: Загальний LLM не має доступу до вашої внутрішньої документації.
9 
10## Що таке RAG?
11 
12RAG  -  це архітектура, яка збагачує промпт інформацією, отриманою з зовнішньої бази знань.
13 
14```mermaid
15graph LR
16    User["User"] -- "Question" --> Retriever
17    Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]
18    VectorStore -- "Relevant\ndocuments" --> Retriever
19    Retriever -- "Context + Question" --> LLM
20    LLM -- "Grounded\nresponse" --> User
21```
22 
23## Як Працює RAG
24 
25### Фаза 1: Індексація
26 
27```mermaid
28graph TD
29    A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]
30    B --> C["Text Splitter"]
31    C --> D["Text Chunks"]
32    D --> E["Embedding Model"]
33    E --> F["Numerical Vectors"]
34    F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]
35```
36 
37### Фаза 2: Retrieval + Generation
38 
391.  Запитання перетворюється на embedding.
402.  Vector Store знаходить найбільш схожі чанки.
413.  Отримані чанки вставляються у промпт як контекст.
424.  LLM генерує відповідь на основі контексту.
43 
44## Побудова RAG Pipeline з LangChain
45 
46```bash
47pip install langchain langchain-openai langchain-community chromadb
48```
49 
50```python
51from langchain_community.document_loaders import PyPDFLoader, WebBaseLoader, DirectoryLoader, TextLoader
52 
53pdf_loader = PyPDFLoader("docs/manual.pdf")
54pdf_docs = pdf_loader.load()
55web_loader = WebBaseLoader("https://docs.example.com/guide")
56web_docs = web_loader.load()
57dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)
58md_docs = dir_loader.load()
59all_docs = pdf_docs + web_docs + md_docs
60```
61 
62```python
63from langchain.text_splitter import RecursiveCharacterTextSplitter
64 
65text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200, separators=["\n\n", "\n", ". ", " ", ""])
66chunks = text_splitter.split_documents(all_docs)
67```
68 
69```python
70from langchain_openai import OpenAIEmbeddings
71from langchain_community.vectorstores import Chroma
72 
73embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
74vectorstore = Chroma.from_documents(documents=chunks, embedding=embedding_model, persist_directory="./chroma_db")
75retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 4})
76```
77 
78```python
79from langchain_openai import ChatOpenAI
80from langchain_core.prompts import ChatPromptTemplate
81from langchain_core.runnables import RunnablePassthrough
82from langchain_core.output_parsers import StrOutputParser
83 
84llm = ChatOpenAI(model="gpt-4o", temperature=0)
85prompt = ChatPromptTemplate.from_template("""
86Answer the question based only on the provided context.
87If the context does not contain enough information, say you don't know.
88 
89Context:
90{context}
91 
92Question: {question}
93 
94Answer:
95""")
96 
97def format_docs(docs):
98    return "\n\n".join(doc.page_content for doc in docs)
99 
100rag_chain = (
101    {"context": retriever | format_docs, "question": RunnablePassthrough()}
102    | prompt | llm | StrOutputParser()
103)
104 
105response = rag_chain.invoke("How does authentication work in the system?")
106```
107 
108## Просунуті Техніки RAG
109 
110Multi-Query Retrieval, Contextual Compression, Hybrid Search та Conversational RAG.
111 
112```python
113from langchain.retrievers import MultiQueryRetriever
114multi_retriever = MultiQueryRetriever.from_llm(retriever=vectorstore.as_retriever(), llm=llm)
115```
116 
117```python
118from langchain.retrievers import EnsembleRetriever
119from langchain_community.retrievers import BM25Retriever
120 
121bm25_retriever = BM25Retriever.from_documents(chunks)
122bm25_retriever.k = 4
123semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})
124hybrid_retriever = EnsembleRetriever(retrievers=[bm25_retriever, semantic_retriever], weights=[0.4, 0.6])
125```
126 
127## Найкращі Практики
128 
1291.  **Обирайте правильний розмір чанка**: Експериментуйте з 500-1500 токенами.
1302.  **Використовуйте метадані документів**: Додавайте джерело, дату та категорію.
1313.  **Оцінюйте якість**: Використовуйте фреймворки як [RAGAS](https://docs.ragas.io/).
1324.  **Керуйте оновленнями документів**: Реалізуйте пайплайн повторної інгестії.
1335.  **Додайте re-ranker**: Використовуйте модель re-ranking після початкового пошуку.
134 
135## Висновок
136 
137RAG став стандартною архітектурою для AI-додатків, що потребують доступу до специфічних, актуальних знань. LangChain значно спрощує реалізацію.
138

:RAG та LangChain: Повний Посібник з Retrieval-Augmented Generationlines 1-138 (END) — press q to close

2Великі мовні моделі (LLM) такі як GPT-4 та Claude надзвичайно потужні, але мають фундаментальне обмеження: їхні знання заморожені на момент навчання. **Retrieval-Augmented Generation (RAG)** вирішує саме цю проблему, поєднуючи генеративну потужність LLM з можливістю отримувати інформацію з зовнішніх джерел.

4## Проблема: Обмеження LLM

61. **Статичні знання**: LLM знає лише те, що бачив під час навчання.

72. **Галюцинації**: Коли LLM не знає відповіді, він має тенденцію вигадувати.

83. **Немає доступу до приватних даних**: Загальний LLM не має доступу до вашої внутрішньої документації.

10## Що таке RAG?

12RAG - це архітектура, яка збагачує промпт інформацією, отриманою з зовнішньої бази знань.

14```mermaid

15graph LR

16 User["User"] -- "Question" --> Retriever

17 Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]

18 VectorStore -- "Relevant\ndocuments" --> Retriever

19 Retriever -- "Context + Question" --> LLM

20 LLM -- "Grounded\nresponse" --> User

21```

23## Як Працює RAG

25### Фаза 1: Індексація

27```mermaid

28graph TD

29 A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]

30 B --> C["Text Splitter"]

31 C --> D["Text Chunks"]

32 D --> E["Embedding Model"]

33 E --> F["Numerical Vectors"]

34 F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]

35```

37### Фаза 2: Retrieval + Generation

391. Запитання перетворюється на embedding.

402. Vector Store знаходить найбільш схожі чанки.

413. Отримані чанки вставляються у промпт як контекст.

424. LLM генерує відповідь на основі контексту.

44## Побудова RAG Pipeline з LangChain

46```bash

47pip install langchain langchain-openai langchain-community chromadb

48```

50```python

51from langchain_community.document_loaders import PyPDFLoader, WebBaseLoader, DirectoryLoader, TextLoader

53pdf_loader = PyPDFLoader("docs/manual.pdf")

54pdf_docs = pdf_loader.load()

55web_loader = WebBaseLoader("https://docs.example.com/guide")

56web_docs = web_loader.load()

57dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)

58md_docs = dir_loader.load()

59all_docs = pdf_docs + web_docs + md_docs

60```

62```python

63from langchain.text_splitter import RecursiveCharacterTextSplitter

65text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200, separators=["\n\n", "\n", ". ", " ", ""])

66chunks = text_splitter.split_documents(all_docs)

67```

69```python

70from langchain_openai import OpenAIEmbeddings

71from langchain_community.vectorstores import Chroma

73embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

74vectorstore = Chroma.from_documents(documents=chunks, embedding=embedding_model, persist_directory="./chroma_db")

75retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 4})

76```

78```python

79from langchain_openai import ChatOpenAI

80from langchain_core.prompts import ChatPromptTemplate

81from langchain_core.runnables import RunnablePassthrough

82from langchain_core.output_parsers import StrOutputParser

84llm = ChatOpenAI(model="gpt-4o", temperature=0)

85prompt = ChatPromptTemplate.from_template("""

86Answer the question based only on the provided context.

87If the context does not contain enough information, say you don't know.

89Context:

90{context}

92Question: {question}

94Answer:

95""")

97def format_docs(docs):

98 return "\n\n".join(doc.page_content for doc in docs)

100rag_chain = (

101 {"context": retriever | format_docs, "question": RunnablePassthrough()}

102 | prompt | llm | StrOutputParser()

103)

104

105response = rag_chain.invoke("How does authentication work in the system?")

106```

107

108## Просунуті Техніки RAG

109

110Multi-Query Retrieval, Contextual Compression, Hybrid Search та Conversational RAG.

111

112```python

113from langchain.retrievers import MultiQueryRetriever

114multi_retriever = MultiQueryRetriever.from_llm(retriever=vectorstore.as_retriever(), llm=llm)

115```

116

117```python

118from langchain.retrievers import EnsembleRetriever

119from langchain_community.retrievers import BM25Retriever

120

121bm25_retriever = BM25Retriever.from_documents(chunks)

122bm25_retriever.k = 4

123semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

124hybrid_retriever = EnsembleRetriever(retrievers=[bm25_retriever, semantic_retriever], weights=[0.4, 0.6])

125```

126

127## Найкращі Практики

128

1291. **Обирайте правильний розмір чанка**: Експериментуйте з 500-1500 токенами.

1302. **Використовуйте метадані документів**: Додавайте джерело, дату та категорію.

1313. **Оцінюйте якість**: Використовуйте фреймворки як [RAGAS](https://docs.ragas.io/).

1324. **Керуйте оновленнями документів**: Реалізуйте пайплайн повторної інгестії.

1335. **Додайте re-ranker**: Використовуйте модель re-ranking після початкового пошуку.

134

135## Висновок

136

137RAG став стандартною архітектурою для AI-додатків, що потребують доступу до специфічних, актуальних знань. LangChain значно спрощує реалізацію.

138