RAG og LangChain: En komplet guide til Retrieval-Augmented Generation

spinny:~/writing $ less rag-langchain-deep-dive.md

1 
2Store sprogmodeller (LLMs) som GPT-4 og Claude er ekstraordinært kraftfulde, men lider af en fundamental begrænsning: deres viden er frosset på træningstidspunktet. **Retrieval-Augmented Generation (RAG)** løser præcis dette problem ved at kombinere den generative kraft i LLMs med evnen til at hente information fra eksterne kilder.
3 
4## Problemet: LLM-begrænsninger
5 
61.  **Statisk viden**: En LLM ved kun, hvad den så under træning.
72.  **Hallucinationer**: Når en LLM ikke kender svaret, har den tendens til at opfinde et.
83.  **Ingen adgang til private data**: En generisk LLM har ingen adgang til din virksomheds interne dokumentation.
9 
10## Hvad er RAG?
11 
12```mermaid
13graph LR
14    User["User"] -- "Question" --> Retriever
15    Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]
16    VectorStore -- "Relevant\ndocuments" --> Retriever
17    Retriever -- "Context + Question" --> LLM
18    LLM -- "Grounded\nresponse" --> User
19```
20 
21## Sådan fungerer RAG i detaljer
22 
23### Fase 1: Indeksering (Dokumentindtagelse)
24 
25```mermaid
26graph TD
27    A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]
28    B --> C["Text Splitter"]
29    C --> D["Text Chunks"]
30    D --> E["Embedding Model"]
31    E --> F["Numerical Vectors"]
32    F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]
33```
34 
35#### 1. Dokumentindlæsning
36Dokumenter kan komme fra enhver kilde: PDF-filer, websider, databaser, Markdown-filer, APIer.
37 
38#### 2. Tekstopdeling (Chunking)
39**Text Splitter** opdeler dokumenter i mindre fragmenter kaldet *chunks*.
40 
41#### 3. Embedding
42Hver chunk transformeres til en **numerisk vektor** (embedding) via en embedding-model.
43 
44#### 4. Vector Store
45Vektorerne gemmes i en **Vector Store**, optimeret til **lighedssøgning**.
46 
47### Fase 2: Retrieval + Generation
48 
491.  Spørgsmålet transformeres til et embedding.
502.  Vector Store finder de mest lignende chunks.
513.  De hentede chunks indsættes i prompten som kontekst.
524.  LLM genererer et svar baseret på den givne kontekst.
53 
54## Opbygning af en RAG-pipeline med LangChain
55 
56### Installation
57 
58```bash
59pip install langchain langchain-openai langchain-community chromadb
60```
61 
62### Trin 1: Indlæs dokumenter
63 
64```python
65from langchain_community.document_loaders import (
66    PyPDFLoader,
67    WebBaseLoader,
68    DirectoryLoader,
69    TextLoader,
70)
71 
72# Load a PDF
73pdf_loader = PyPDFLoader("docs/manual.pdf")
74pdf_docs = pdf_loader.load()
75 
76# Load a web page
77web_loader = WebBaseLoader("https://docs.example.com/guide")
78web_docs = web_loader.load()
79 
80# Load all .md files from a directory
81dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)
82md_docs = dir_loader.load()
83 
84all_docs = pdf_docs + web_docs + md_docs
85```
86 
87### Trin 2: Opdel dokumenter i chunks
88 
89```python
90from langchain.text_splitter import RecursiveCharacterTextSplitter
91 
92text_splitter = RecursiveCharacterTextSplitter(
93    chunk_size=1000,
94    chunk_overlap=200,
95    separators=["\n\n", "\n", ". ", " ", ""],
96)
97 
98chunks = text_splitter.split_documents(all_docs)
99print(f"Original documents: {len(all_docs)}, Chunks: {len(chunks)}")
100```
101 
102### Trin 3: Opret embeddings og Vector Store
103 
104```python
105from langchain_openai import OpenAIEmbeddings
106from langchain_community.vectorstores import Chroma
107 
108embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
109 
110vectorstore = Chroma.from_documents(
111    documents=chunks,
112    embedding=embedding_model,
113    persist_directory="./chroma_db",
114)
115```
116 
117### Trin 4: Opret Retriever
118 
119```python
120retriever = vectorstore.as_retriever(
121    search_type="similarity",
122    search_kwargs={"k": 4},
123)
124 
125relevant_docs = retriever.invoke("How does authentication work?")
126for doc in relevant_docs:
127    print(doc.page_content[:200])
128    print("---")
129```
130 
131### Trin 5: Byg RAG-kæden
132 
133```python
134from langchain_openai import ChatOpenAI
135from langchain_core.prompts import ChatPromptTemplate
136from langchain_core.runnables import RunnablePassthrough
137from langchain_core.output_parsers import StrOutputParser
138 
139llm = ChatOpenAI(model="gpt-4o", temperature=0)
140 
141prompt = ChatPromptTemplate.from_template("""
142Answer the question based only on the provided context.
143If the context does not contain enough information, say you don't know.
144 
145Context:
146{context}
147 
148Question: {question}
149 
150Answer:
151""")
152 
153def format_docs(docs):
154    return "\n\n".join(doc.page_content for doc in docs)
155 
156rag_chain = (
157    {"context": retriever | format_docs, "question": RunnablePassthrough()}
158    | prompt
159    | llm
160    | StrOutputParser()
161)
162 
163response = rag_chain.invoke("How does authentication work in the system?")
164print(response)
165```
166 
167## Avancerede RAG-teknikker
168 
169### Multi-Query Retrieval
170 
171```python
172from langchain.retrievers import MultiQueryRetriever
173 
174multi_retriever = MultiQueryRetriever.from_llm(
175    retriever=vectorstore.as_retriever(),
176    llm=llm,
177)
178 
179docs = multi_retriever.invoke("What are the security best practices?")
180```
181 
182### Kontekstuel komprimering
183 
184```python
185from langchain.retrievers import ContextualCompressionRetriever
186from langchain.retrievers.document_compressors import LLMChainExtractor
187 
188compressor = LLMChainExtractor.from_llm(llm)
189compression_retriever = ContextualCompressionRetriever(
190    base_compressor=compressor,
191    base_retriever=retriever,
192)
193```
194 
195### Hybrid søgning
196 
197```python
198from langchain.retrievers import EnsembleRetriever
199from langchain_community.retrievers import BM25Retriever
200 
201bm25_retriever = BM25Retriever.from_documents(chunks)
202bm25_retriever.k = 4
203 
204semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})
205 
206hybrid_retriever = EnsembleRetriever(
207    retrievers=[bm25_retriever, semantic_retriever],
208    weights=[0.4, 0.6],
209)
210```
211 
212### Konversationel RAG (med hukommelse)
213 
214```python
215from langchain.chains import create_history_aware_retriever
216from langchain_core.prompts import MessagesPlaceholder
217 
218contextualize_prompt = ChatPromptTemplate.from_messages([
219    ("system", "Given the chat history and the user's latest question, "
220               "reformulate the question so it is understandable without the history."),
221    MessagesPlaceholder("chat_history"),
222    ("human", "{input}"),
223])
224 
225history_aware_retriever = create_history_aware_retriever(
226    llm, retriever, contextualize_prompt
227)
228```
229 
230## Bedste praksis
231 
2321.  **Vælg den rigtige chunk-størrelse**: Eksperimenter med forskellige størrelser (500-1500 tokens).
2332.  **Brug dokumentmetadata**: Tilføj kilde, dato og kategori som metadata.
2343.  **Evaluer kvalitet**: Brug frameworks som [RAGAS](https://docs.ragas.io/).
2354.  **Håndter dokumentopdateringer**: Implementer en re-ingestion pipeline.
2365.  **Tilføj en re-ranker**: Brug en re-ranking model efter initial retrieval.
237 
238## Konklusion
239 
240RAG er blevet standardarkitekturen for at bygge AI-applikationer, der har brug for adgang til specifik, opdateret viden. LangChain forenkler implementeringen enormt.
241 
242**Næste trin:**
243- **Eksperimenter lokalt**: Start med ChromaDB og et par dokumenter.
244- **Udforsk LangSmith**: Brug [LangSmith](https://smith.langchain.com/) til at overvåge og fejlsøge dine kæder.
245- **Prøv forskellige embedding-modeller**.
246- **Tjek dokumentationen**: [LangChain-dokumentationen](https://python.langchain.com/docs/) er en fremragende ressource.
247

:RAG og LangChain: En komplet guide til Retrieval-Augmented Generationlines 1-247 (END) — press q to close

2Store sprogmodeller (LLMs) som GPT-4 og Claude er ekstraordinært kraftfulde, men lider af en fundamental begrænsning: deres viden er frosset på træningstidspunktet. **Retrieval-Augmented Generation (RAG)** løser præcis dette problem ved at kombinere den generative kraft i LLMs med evnen til at hente information fra eksterne kilder.

4## Problemet: LLM-begrænsninger

61. **Statisk viden**: En LLM ved kun, hvad den så under træning.

72. **Hallucinationer**: Når en LLM ikke kender svaret, har den tendens til at opfinde et.

83. **Ingen adgang til private data**: En generisk LLM har ingen adgang til din virksomheds interne dokumentation.

10## Hvad er RAG?

12```mermaid

13graph LR

14 User["User"] -- "Question" --> Retriever

15 Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]

16 VectorStore -- "Relevant\ndocuments" --> Retriever

17 Retriever -- "Context + Question" --> LLM

18 LLM -- "Grounded\nresponse" --> User

19```

21## Sådan fungerer RAG i detaljer

23### Fase 1: Indeksering (Dokumentindtagelse)

25```mermaid

26graph TD

27 A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]

28 B --> C["Text Splitter"]

29 C --> D["Text Chunks"]

30 D --> E["Embedding Model"]

31 E --> F["Numerical Vectors"]

32 F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]

33```

35#### 1. Dokumentindlæsning

36Dokumenter kan komme fra enhver kilde: PDF-filer, websider, databaser, Markdown-filer, APIer.

38#### 2. Tekstopdeling (Chunking)

39**Text Splitter** opdeler dokumenter i mindre fragmenter kaldet *chunks*.

41#### 3. Embedding

42Hver chunk transformeres til en **numerisk vektor** (embedding) via en embedding-model.

44#### 4. Vector Store

45Vektorerne gemmes i en **Vector Store**, optimeret til **lighedssøgning**.

47### Fase 2: Retrieval + Generation

491. Spørgsmålet transformeres til et embedding.

502. Vector Store finder de mest lignende chunks.

513. De hentede chunks indsættes i prompten som kontekst.

524. LLM genererer et svar baseret på den givne kontekst.

54## Opbygning af en RAG-pipeline med LangChain

56### Installation

58```bash

59pip install langchain langchain-openai langchain-community chromadb

60```

62### Trin 1: Indlæs dokumenter

64```python

65from langchain_community.document_loaders import (

66 PyPDFLoader,

67 WebBaseLoader,

68 DirectoryLoader,

69 TextLoader,

70)

72# Load a PDF

73pdf_loader = PyPDFLoader("docs/manual.pdf")

74pdf_docs = pdf_loader.load()

76# Load a web page

77web_loader = WebBaseLoader("https://docs.example.com/guide")

78web_docs = web_loader.load()

80# Load all .md files from a directory

81dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)

82md_docs = dir_loader.load()

84all_docs = pdf_docs + web_docs + md_docs

85```

87### Trin 2: Opdel dokumenter i chunks

89```python

90from langchain.text_splitter import RecursiveCharacterTextSplitter

92text_splitter = RecursiveCharacterTextSplitter(

93 chunk_size=1000,

94 chunk_overlap=200,

95 separators=["\n\n", "\n", ". ", " ", ""],

96)

98chunks = text_splitter.split_documents(all_docs)

99print(f"Original documents: {len(all_docs)}, Chunks: {len(chunks)}")

100```

101

102### Trin 3: Opret embeddings og Vector Store

103

104```python

105from langchain_openai import OpenAIEmbeddings

106from langchain_community.vectorstores import Chroma

107

108embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

109

110vectorstore = Chroma.from_documents(

111 documents=chunks,

112 embedding=embedding_model,

113 persist_directory="./chroma_db",

114)

115```

116

117### Trin 4: Opret Retriever

118

119```python

120retriever = vectorstore.as_retriever(

121 search_type="similarity",

122 search_kwargs={"k": 4},

123)

124

125relevant_docs = retriever.invoke("How does authentication work?")

126for doc in relevant_docs:

127 print(doc.page_content[:200])

128 print("---")

129```

130

131### Trin 5: Byg RAG-kæden

132

133```python

134from langchain_openai import ChatOpenAI

135from langchain_core.prompts import ChatPromptTemplate

136from langchain_core.runnables import RunnablePassthrough

137from langchain_core.output_parsers import StrOutputParser

138

139llm = ChatOpenAI(model="gpt-4o", temperature=0)

140

141prompt = ChatPromptTemplate.from_template("""

142Answer the question based only on the provided context.

143If the context does not contain enough information, say you don't know.

144

145Context:

146{context}

147

148Question: {question}

149

150Answer:

151""")

152

153def format_docs(docs):

154 return "\n\n".join(doc.page_content for doc in docs)

155

156rag_chain = (

157 {"context": retriever | format_docs, "question": RunnablePassthrough()}

158 | prompt

159 | llm

160 | StrOutputParser()

161)

162

163response = rag_chain.invoke("How does authentication work in the system?")

164print(response)

165```

166

167## Avancerede RAG-teknikker

168

169### Multi-Query Retrieval

170

171```python

172from langchain.retrievers import MultiQueryRetriever

173

174multi_retriever = MultiQueryRetriever.from_llm(

175 retriever=vectorstore.as_retriever(),

176 llm=llm,

177)

178

179docs = multi_retriever.invoke("What are the security best practices?")

180```

181

182### Kontekstuel komprimering

183

184```python

185from langchain.retrievers import ContextualCompressionRetriever

186from langchain.retrievers.document_compressors import LLMChainExtractor

187

188compressor = LLMChainExtractor.from_llm(llm)

189compression_retriever = ContextualCompressionRetriever(

190 base_compressor=compressor,

191 base_retriever=retriever,

192)

193```

194

195### Hybrid søgning

196

197```python

198from langchain.retrievers import EnsembleRetriever

199from langchain_community.retrievers import BM25Retriever

200

201bm25_retriever = BM25Retriever.from_documents(chunks)

202bm25_retriever.k = 4

203

204semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

205

206hybrid_retriever = EnsembleRetriever(

207 retrievers=[bm25_retriever, semantic_retriever],

208 weights=[0.4, 0.6],

209)

210```

211

212### Konversationel RAG (med hukommelse)

213

214```python

215from langchain.chains import create_history_aware_retriever

216from langchain_core.prompts import MessagesPlaceholder

217

218contextualize_prompt = ChatPromptTemplate.from_messages([

219 ("system", "Given the chat history and the user's latest question, "

220 "reformulate the question so it is understandable without the history."),

221 MessagesPlaceholder("chat_history"),

222 ("human", "{input}"),

223])

224

225history_aware_retriever = create_history_aware_retriever(

226 llm, retriever, contextualize_prompt

227)

228```

229

230## Bedste praksis

231

2321. **Vælg den rigtige chunk-størrelse**: Eksperimenter med forskellige størrelser (500-1500 tokens).

2332. **Brug dokumentmetadata**: Tilføj kilde, dato og kategori som metadata.

2343. **Evaluer kvalitet**: Brug frameworks som [RAGAS](https://docs.ragas.io/).

2354. **Håndter dokumentopdateringer**: Implementer en re-ingestion pipeline.

2365. **Tilføj en re-ranker**: Brug en re-ranking model efter initial retrieval.

237

238## Konklusion

239

240RAG er blevet standardarkitekturen for at bygge AI-applikationer, der har brug for adgang til specifik, opdateret viden. LangChain forenkler implementeringen enormt.

241

242**Næste trin:**

243- **Eksperimenter lokalt**: Start med ChromaDB og et par dokumenter.

244- **Udforsk LangSmith**: Brug [LangSmith](https://smith.langchain.com/) til at overvåge og fejlsøge dine kæder.

245- **Prøv forskellige embedding-modeller**.

246- **Tjek dokumentationen**: [LangChain-dokumentationen](https://python.langchain.com/docs/) er en fremragende ressource.

247