RAG dan LangChain: Panduan Lengkap tentang Retrieval-Augmented Generation

spinny:~/writing $ less rag-langchain-deep-dive.md

1 
2Model Bahasa Besar (LLM) seperti GPT-4 dan Claude sangat kuat, tetapi mereka memiliki keterbatasan mendasar: pengetahuan mereka terhenti pada saat pelatihan. Mereka tidak dapat mengakses dokumen internal Anda, database Anda, atau informasi real-time. **Retrieval-Augmented Generation (RAG)** memecahkan masalah ini dengan menggabungkan kekuatan generatif LLM dengan kemampuan untuk mengambil informasi dari sumber eksternal.
3 
4## Masalah: Keterbatasan LLM
5 
6Sebelum membahas RAG, penting untuk memahami mengapa kita membutuhkannya.
7 
81.  **Pengetahuan statis**: LLM hanya mengetahui apa yang dilihatnya selama pelatihan. Jika Anda bertanya tentang peristiwa yang terjadi setelah batas waktu pelatihannya, ia tidak dapat menjawab.
92.  **Halusinasi**: Ketika LLM tidak mengetahui jawabannya, ia cenderung mengarangnya, menghasilkan informasi yang masuk akal tetapi sepenuhnya salah.
103.  **Tidak ada akses ke data privat**: LLM generik tidak memiliki akses ke dokumentasi internal perusahaan Anda, tiket, atau basis kode.
11 
12RAG mengatasi ketiga masalah ini dengan menyediakan **konteks yang relevan** yang diambil dari sumber eksternal pada saat kueri.
13 
14## Apa itu RAG?
15 
16Retrieval-Augmented Generation adalah arsitektur yang memperkaya prompt yang dikirim ke LLM dengan informasi yang diambil dari basis pengetahuan eksternal. Alih-alih hanya mengandalkan pengetahuan parametrik model, RAG terlebih dahulu **mencari** informasi yang relevan kemudian **menyuntikkannya** ke dalam prompt, memungkinkan model menghasilkan respons yang akurat dan berdasar.
17 
18```mermaid
19graph LR
20    User["User"] -- "Question" --> Retriever
21    Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]
22    VectorStore -- "Relevant\ndocuments" --> Retriever
23    Retriever -- "Context + Question" --> LLM
24    LLM -- "Grounded\nresponse" --> User
25```
26 
27## Cara Kerja RAG secara Detail
28 
29Arsitektur RAG terdiri dari dua fase utama: **Pengindeksan** (offline) dan **Pengambilan + Pembuatan** (online).
30 
31### Fase 1: Pengindeksan (Ingesti Dokumen)
32 
33Fase pengindeksan mempersiapkan dokumen Anda untuk pencarian semantik. Terdiri dari empat langkah.
34 
35```mermaid
36graph TD
37    A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]
38    B --> C["Text Splitter"]
39    C --> D["Text Chunks"]
40    D --> E["Embedding Model"]
41    E --> F["Numerical Vectors"]
42    F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]
43```
44 
45#### 1. Pemuatan Dokumen
46 
47Dokumen dapat berasal dari sumber mana pun: file PDF, halaman web, database, file Markdown, API. **Document Loader** membaca dokumen-dokumen ini dan mengubahnya menjadi teks terstruktur.
48 
49#### 2. Pemisahan Teks (Chunking)
50 
51LLM memiliki jendela konteks yang terbatas, dan dokumen bisa sangat panjang. **Text Splitter** membagi dokumen menjadi fragmen-fragmen kecil yang disebut *chunks*. Kualitas chunking sangat penting: chunks yang terlalu kecil kehilangan konteks, sementara chunks yang terlalu besar mengencerkan relevansi.
52 
53Strategi yang paling umum adalah:
54-   **Recursive Character Splitting**: Memisahkan teks secara rekursif menggunakan pemisah seperti `\n\n`, `\n`, `. `, dengan menghormati struktur dokumen.
55-   **Semantic Splitting**: Menggunakan embeddings untuk menemukan titik pemisahan alami dalam teks.
56-   **Chunk Overlap**: Menyertakan tumpang tindih antara chunks berurutan untuk menjaga konteks di batas.
57 
58#### 3. Embedding
59 
60Setiap chunk diubah menjadi **vektor numerik** (embedding) melalui model embedding (seperti `text-embedding-3-small` dari OpenAI). Vektor-vektor ini menangkap makna semantik teks: kalimat dengan makna serupa akan memiliki vektor yang berdekatan dalam ruang multidimensi.
61 
62#### 4. Vector Store
63 
64Vektor-vektor disimpan dalam **Vector Store** (atau database vektor), seperti ChromaDB, Pinecone, Weaviate, atau FAISS. Database ini dioptimalkan untuk **pencarian kesamaan**: diberikan sebuah kueri, ia menemukan vektor-vektor yang paling mirip (dan karenanya chunks teks yang paling relevan).
65 
66### Fase 2: Pengambilan + Pembuatan
67 
68Ketika pengguna mengajukan pertanyaan:
69 
701.  Pertanyaan diubah menjadi embedding menggunakan model embedding yang sama.
712.  Vector Store menemukan chunks yang paling mirip melalui **pencarian kesamaan** (biasanya cosine similarity atau jarak Euclidean).
723.  Chunks yang diambil disisipkan ke dalam prompt sebagai konteks.
734.  LLM menghasilkan respons berdasarkan konteks yang diberikan.
74 
75## Membangun Pipeline RAG dengan LangChain
76 
77**LangChain** adalah framework Python (dan JavaScript) paling populer untuk membangun aplikasi berbasis LLM. Framework ini menyediakan abstraksi tingkat tinggi untuk setiap komponen pipeline RAG.
78 
79### Instalasi
80 
81```bash
82pip install langchain langchain-openai langchain-community chromadb
83```
84 
85### Langkah 1: Muat Dokumen
86 
87LangChain menyediakan puluhan Document Loader untuk berbagai sumber data.
88 
89```python
90from langchain_community.document_loaders import (
91    PyPDFLoader,
92    WebBaseLoader,
93    DirectoryLoader,
94    TextLoader,
95)
96 
97# Load a PDF
98pdf_loader = PyPDFLoader("docs/manual.pdf")
99pdf_docs = pdf_loader.load()
100 
101# Load a web page
102web_loader = WebBaseLoader("https://docs.example.com/guide")
103web_docs = web_loader.load()
104 
105# Load all .md files from a directory
106dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)
107md_docs = dir_loader.load()
108 
109all_docs = pdf_docs + web_docs + md_docs
110```
111 
112### Langkah 2: Pisahkan Dokumen menjadi Chunks
113 
114```python
115from langchain.text_splitter import RecursiveCharacterTextSplitter
116 
117text_splitter = RecursiveCharacterTextSplitter(
118    chunk_size=1000,
119    chunk_overlap=200,
120    separators=["\n\n", "\n", ". ", " ", ""],
121)
122 
123chunks = text_splitter.split_documents(all_docs)
124print(f"Original documents: {len(all_docs)}, Chunks: {len(chunks)}")
125```
126 
127Parameter `chunk_overlap` sangat penting: ia menciptakan tumpang tindih antara chunks berurutan sehingga konteks tidak hilang di batas.
128 
129### Langkah 3: Buat Embeddings dan Vector Store
130 
131```python
132from langchain_openai import OpenAIEmbeddings
133from langchain_community.vectorstores import Chroma
134 
135embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
136 
137vectorstore = Chroma.from_documents(
138    documents=chunks,
139    embedding=embedding_model,
140    persist_directory="./chroma_db",
141)
142```
143 
144### Langkah 4: Buat Retriever
145 
146Retriever adalah komponen yang, diberikan sebuah kueri, mengambil chunks yang paling relevan dari vector store.
147 
148```python
149retriever = vectorstore.as_retriever(
150    search_type="similarity",
151    search_kwargs={"k": 4},
152)
153 
154relevant_docs = retriever.invoke("How does authentication work?")
155for doc in relevant_docs:
156    print(doc.page_content[:200])
157    print("---")
158```
159 
160### Langkah 5: Bangun RAG Chain
161 
162Sekarang mari kita satukan semuanya dengan LLM dan template prompt.
163 
164```python
165from langchain_openai import ChatOpenAI
166from langchain_core.prompts import ChatPromptTemplate
167from langchain_core.runnables import RunnablePassthrough
168from langchain_core.output_parsers import StrOutputParser
169 
170llm = ChatOpenAI(model="gpt-4o", temperature=0)
171 
172prompt = ChatPromptTemplate.from_template("""
173Answer the question based only on the provided context.
174If the context does not contain enough information, say you don't know.
175 
176Context:
177{context}
178 
179Question: {question}
180 
181Answer:
182""")
183 
184def format_docs(docs):
185    return "\n\n".join(doc.page_content for doc in docs)
186 
187rag_chain = (
188    {"context": retriever | format_docs, "question": RunnablePassthrough()}
189    | prompt
190    | llm
191    | StrOutputParser()
192)
193 
194response = rag_chain.invoke("How does authentication work in the system?")
195print(response)
196```
197 
198## Teknik RAG Lanjutan
199 
200Pipeline dasar bekerja dengan baik, tetapi ada beberapa teknik untuk meningkatkan kualitas respons secara signifikan.
201 
202### Pengambilan Multi-Kueri
203 
204Terkadang kueri pengguna ambigu atau tidak selaras dengan bahasa yang digunakan dalam dokumen. **Multi-Query Retriever** secara otomatis menghasilkan varian dari pertanyaan asli untuk menangkap berbagai perspektif.
205 
206```python
207from langchain.retrievers import MultiQueryRetriever
208 
209multi_retriever = MultiQueryRetriever.from_llm(
210    retriever=vectorstore.as_retriever(),
211    llm=llm,
212)
213 
214docs = multi_retriever.invoke("What are the security best practices?")
215```
216 
217### Kompresi Kontekstual
218 
219Tidak semua konten dalam sebuah chunk relevan dengan kueri. **Contextual Compression Retriever** menggunakan LLM untuk mengekstrak hanya bagian yang relevan dari setiap chunk yang diambil.
220 
221```python
222from langchain.retrievers import ContextualCompressionRetriever
223from langchain.retrievers.document_compressors import LLMChainExtractor
224 
225compressor = LLMChainExtractor.from_llm(llm)
226compression_retriever = ContextualCompressionRetriever(
227    base_compressor=compressor,
228    base_retriever=retriever,
229)
230```
231 
232### Pencarian Hibrida
233 
234Pencarian murni semantik tidak selalu optimal. **Pencarian Hibrida** menggabungkan pencarian semantik (embeddings) dengan pencarian leksikal (BM25, pencocokan kata kunci) untuk mencapai hasil yang lebih baik.
235 
236```python
237from langchain.retrievers import EnsembleRetriever
238from langchain_community.retrievers import BM25Retriever
239 
240bm25_retriever = BM25Retriever.from_documents(chunks)
241bm25_retriever.k = 4
242 
243semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})
244 
245hybrid_retriever = EnsembleRetriever(
246    retrievers=[bm25_retriever, semantic_retriever],
247    weights=[0.4, 0.6],
248)
249```
250 
251### RAG Percakapan (dengan Memori)
252 
253Untuk membangun chatbot RAG yang mengingat konteks percakapan, Anda perlu menambahkan memori yang merumuskan ulang pertanyaan pengguna dengan mempertimbangkan riwayat percakapan.
254 
255```python
256from langchain.chains import create_history_aware_retriever
257from langchain_core.prompts import MessagesPlaceholder
258 
259contextualize_prompt = ChatPromptTemplate.from_messages([
260    ("system", "Given the chat history and the user's latest question, "
261               "reformulate the question so it is understandable without the history."),
262    MessagesPlaceholder("chat_history"),
263    ("human", "{input}"),
264])
265 
266history_aware_retriever = create_history_aware_retriever(
267    llm, retriever, contextualize_prompt
268)
269```
270 
271## Praktik Terbaik
272 
2731.  **Pilih ukuran chunk yang tepat**: Bereksperimen dengan berbagai ukuran (500-1500 token). Chunks lebih kecil untuk jawaban presisi, lebih besar untuk konteks yang lebih luas.
2742.  **Gunakan metadata dokumen**: Tambahkan sumber, tanggal, dan kategori sebagai metadata ke chunks. Ini memungkinkan pemfilteran hasil selama pengambilan.
2753.  **Evaluasi kualitas**: Gunakan framework seperti [RAGAS](https://docs.ragas.io/) untuk mengukur metrik seperti *faithfulness*, *relevancy*, dan *context precision*.
2764.  **Kelola pembaruan dokumen**: Implementasikan pipeline re-ingesti untuk menjaga vector store tetap tersinkronisasi dengan sumber data Anda.
2775.  **Tambahkan re-ranker**: Setelah pengambilan awal, gunakan model re-ranking (seperti Cohere Rerank) untuk mengurutkan ulang hasil berdasarkan relevansi aktual.
278 
279## Kesimpulan
280 
281RAG telah menjadi arsitektur standar untuk membangun aplikasi AI yang membutuhkan akses ke pengetahuan spesifik dan terkini. LangChain sangat menyederhanakan implementasi, menyediakan abstraksi untuk setiap komponen pipeline.
282 
283**Langkah selanjutnya:**
284- **Bereksperimen secara lokal**: Mulai dengan ChromaDB dan beberapa dokumen untuk membiasakan diri dengan pipeline.
285- **Jelajahi LangSmith**: Gunakan [LangSmith](https://smith.langchain.com/) untuk memantau dan men-debug chain Anda di produksi.
286- **Coba model embedding yang berbeda**: Bandingkan model seperti `text-embedding-3-small`, `text-embedding-3-large`, dan model open-source dari Sentence Transformers.
287- **Periksa dokumentasi**: [Dokumentasi LangChain](https://python.langchain.com/docs/) adalah sumber yang sangat baik dan terus diperbarui.
288

:RAG dan LangChain: Panduan Lengkap tentang Retrieval-Augmented Generationlines 1-288 (END) — press q to close

2Model Bahasa Besar (LLM) seperti GPT-4 dan Claude sangat kuat, tetapi mereka memiliki keterbatasan mendasar: pengetahuan mereka terhenti pada saat pelatihan. Mereka tidak dapat mengakses dokumen internal Anda, database Anda, atau informasi real-time. **Retrieval-Augmented Generation (RAG)** memecahkan masalah ini dengan menggabungkan kekuatan generatif LLM dengan kemampuan untuk mengambil informasi dari sumber eksternal.

4## Masalah: Keterbatasan LLM

6Sebelum membahas RAG, penting untuk memahami mengapa kita membutuhkannya.

81. **Pengetahuan statis**: LLM hanya mengetahui apa yang dilihatnya selama pelatihan. Jika Anda bertanya tentang peristiwa yang terjadi setelah batas waktu pelatihannya, ia tidak dapat menjawab.

92. **Halusinasi**: Ketika LLM tidak mengetahui jawabannya, ia cenderung mengarangnya, menghasilkan informasi yang masuk akal tetapi sepenuhnya salah.

103. **Tidak ada akses ke data privat**: LLM generik tidak memiliki akses ke dokumentasi internal perusahaan Anda, tiket, atau basis kode.

12RAG mengatasi ketiga masalah ini dengan menyediakan **konteks yang relevan** yang diambil dari sumber eksternal pada saat kueri.

14## Apa itu RAG?

16Retrieval-Augmented Generation adalah arsitektur yang memperkaya prompt yang dikirim ke LLM dengan informasi yang diambil dari basis pengetahuan eksternal. Alih-alih hanya mengandalkan pengetahuan parametrik model, RAG terlebih dahulu **mencari** informasi yang relevan kemudian **menyuntikkannya** ke dalam prompt, memungkinkan model menghasilkan respons yang akurat dan berdasar.

18```mermaid

19graph LR

20 User["User"] -- "Question" --> Retriever

21 Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]

22 VectorStore -- "Relevant\ndocuments" --> Retriever

23 Retriever -- "Context + Question" --> LLM

24 LLM -- "Grounded\nresponse" --> User

25```

27## Cara Kerja RAG secara Detail

29Arsitektur RAG terdiri dari dua fase utama: **Pengindeksan** (offline) dan **Pengambilan + Pembuatan** (online).

31### Fase 1: Pengindeksan (Ingesti Dokumen)

33Fase pengindeksan mempersiapkan dokumen Anda untuk pencarian semantik. Terdiri dari empat langkah.

35```mermaid

36graph TD

37 A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]

38 B --> C["Text Splitter"]

39 C --> D["Text Chunks"]

40 D --> E["Embedding Model"]

41 E --> F["Numerical Vectors"]

42 F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]

43```

45#### 1. Pemuatan Dokumen

47Dokumen dapat berasal dari sumber mana pun: file PDF, halaman web, database, file Markdown, API. **Document Loader** membaca dokumen-dokumen ini dan mengubahnya menjadi teks terstruktur.

49#### 2. Pemisahan Teks (Chunking)

51LLM memiliki jendela konteks yang terbatas, dan dokumen bisa sangat panjang. **Text Splitter** membagi dokumen menjadi fragmen-fragmen kecil yang disebut *chunks*. Kualitas chunking sangat penting: chunks yang terlalu kecil kehilangan konteks, sementara chunks yang terlalu besar mengencerkan relevansi.

53Strategi yang paling umum adalah:

54- **Recursive Character Splitting**: Memisahkan teks secara rekursif menggunakan pemisah seperti `\n\n`, `\n`, `. `, dengan menghormati struktur dokumen.

55- **Semantic Splitting**: Menggunakan embeddings untuk menemukan titik pemisahan alami dalam teks.

56- **Chunk Overlap**: Menyertakan tumpang tindih antara chunks berurutan untuk menjaga konteks di batas.

58#### 3. Embedding

60Setiap chunk diubah menjadi **vektor numerik** (embedding) melalui model embedding (seperti `text-embedding-3-small` dari OpenAI). Vektor-vektor ini menangkap makna semantik teks: kalimat dengan makna serupa akan memiliki vektor yang berdekatan dalam ruang multidimensi.

62#### 4. Vector Store

64Vektor-vektor disimpan dalam **Vector Store** (atau database vektor), seperti ChromaDB, Pinecone, Weaviate, atau FAISS. Database ini dioptimalkan untuk **pencarian kesamaan**: diberikan sebuah kueri, ia menemukan vektor-vektor yang paling mirip (dan karenanya chunks teks yang paling relevan).

66### Fase 2: Pengambilan + Pembuatan

68Ketika pengguna mengajukan pertanyaan:

701. Pertanyaan diubah menjadi embedding menggunakan model embedding yang sama.

712. Vector Store menemukan chunks yang paling mirip melalui **pencarian kesamaan** (biasanya cosine similarity atau jarak Euclidean).

723. Chunks yang diambil disisipkan ke dalam prompt sebagai konteks.

734. LLM menghasilkan respons berdasarkan konteks yang diberikan.

75## Membangun Pipeline RAG dengan LangChain

77**LangChain** adalah framework Python (dan JavaScript) paling populer untuk membangun aplikasi berbasis LLM. Framework ini menyediakan abstraksi tingkat tinggi untuk setiap komponen pipeline RAG.

79### Instalasi

81```bash

82pip install langchain langchain-openai langchain-community chromadb

83```

85### Langkah 1: Muat Dokumen

87LangChain menyediakan puluhan Document Loader untuk berbagai sumber data.

89```python

90from langchain_community.document_loaders import (

91 PyPDFLoader,

92 WebBaseLoader,

93 DirectoryLoader,

94 TextLoader,

95)

97# Load a PDF

98pdf_loader = PyPDFLoader("docs/manual.pdf")

99pdf_docs = pdf_loader.load()

100

101# Load a web page

102web_loader = WebBaseLoader("https://docs.example.com/guide")

103web_docs = web_loader.load()

104

105# Load all .md files from a directory

106dir_loader = DirectoryLoader("./knowledge_base", glob="**/*.md", loader_cls=TextLoader)

107md_docs = dir_loader.load()

108

109all_docs = pdf_docs + web_docs + md_docs

110```

111

112### Langkah 2: Pisahkan Dokumen menjadi Chunks

113

114```python

115from langchain.text_splitter import RecursiveCharacterTextSplitter

116

117text_splitter = RecursiveCharacterTextSplitter(

118 chunk_size=1000,

119 chunk_overlap=200,

120 separators=["\n\n", "\n", ". ", " ", ""],

121)

122

123chunks = text_splitter.split_documents(all_docs)

124print(f"Original documents: {len(all_docs)}, Chunks: {len(chunks)}")

125```

126

127Parameter `chunk_overlap` sangat penting: ia menciptakan tumpang tindih antara chunks berurutan sehingga konteks tidak hilang di batas.

128

129### Langkah 3: Buat Embeddings dan Vector Store

130

131```python

132from langchain_openai import OpenAIEmbeddings

133from langchain_community.vectorstores import Chroma

134

135embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

136

137vectorstore = Chroma.from_documents(

138 documents=chunks,

139 embedding=embedding_model,

140 persist_directory="./chroma_db",

141)

142```

143

144### Langkah 4: Buat Retriever

145

146Retriever adalah komponen yang, diberikan sebuah kueri, mengambil chunks yang paling relevan dari vector store.

147

148```python

149retriever = vectorstore.as_retriever(

150 search_type="similarity",

151 search_kwargs={"k": 4},

152)

153

154relevant_docs = retriever.invoke("How does authentication work?")

155for doc in relevant_docs:

156 print(doc.page_content[:200])

157 print("---")

158```

159

160### Langkah 5: Bangun RAG Chain

161

162Sekarang mari kita satukan semuanya dengan LLM dan template prompt.

163

164```python

165from langchain_openai import ChatOpenAI

166from langchain_core.prompts import ChatPromptTemplate

167from langchain_core.runnables import RunnablePassthrough

168from langchain_core.output_parsers import StrOutputParser

169

170llm = ChatOpenAI(model="gpt-4o", temperature=0)

171

172prompt = ChatPromptTemplate.from_template("""

173Answer the question based only on the provided context.

174If the context does not contain enough information, say you don't know.

175

176Context:

177{context}

178

179Question: {question}

180

181Answer:

182""")

183

184def format_docs(docs):

185 return "\n\n".join(doc.page_content for doc in docs)

186

187rag_chain = (

188 {"context": retriever | format_docs, "question": RunnablePassthrough()}

189 | prompt

190 | llm

191 | StrOutputParser()

192)

193

194response = rag_chain.invoke("How does authentication work in the system?")

195print(response)

196```

197

198## Teknik RAG Lanjutan

199

200Pipeline dasar bekerja dengan baik, tetapi ada beberapa teknik untuk meningkatkan kualitas respons secara signifikan.

201

202### Pengambilan Multi-Kueri

203

204Terkadang kueri pengguna ambigu atau tidak selaras dengan bahasa yang digunakan dalam dokumen. **Multi-Query Retriever** secara otomatis menghasilkan varian dari pertanyaan asli untuk menangkap berbagai perspektif.

205

206```python

207from langchain.retrievers import MultiQueryRetriever

208

209multi_retriever = MultiQueryRetriever.from_llm(

210 retriever=vectorstore.as_retriever(),

211 llm=llm,

212)

213

214docs = multi_retriever.invoke("What are the security best practices?")

215```

216

217### Kompresi Kontekstual

218

219Tidak semua konten dalam sebuah chunk relevan dengan kueri. **Contextual Compression Retriever** menggunakan LLM untuk mengekstrak hanya bagian yang relevan dari setiap chunk yang diambil.

220

221```python

222from langchain.retrievers import ContextualCompressionRetriever

223from langchain.retrievers.document_compressors import LLMChainExtractor

224

225compressor = LLMChainExtractor.from_llm(llm)

226compression_retriever = ContextualCompressionRetriever(

227 base_compressor=compressor,

228 base_retriever=retriever,

229)

230```

231

232### Pencarian Hibrida

233

234Pencarian murni semantik tidak selalu optimal. **Pencarian Hibrida** menggabungkan pencarian semantik (embeddings) dengan pencarian leksikal (BM25, pencocokan kata kunci) untuk mencapai hasil yang lebih baik.

235

236```python

237from langchain.retrievers import EnsembleRetriever

238from langchain_community.retrievers import BM25Retriever

239

240bm25_retriever = BM25Retriever.from_documents(chunks)

241bm25_retriever.k = 4

242

243semantic_retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

244

245hybrid_retriever = EnsembleRetriever(

246 retrievers=[bm25_retriever, semantic_retriever],

247 weights=[0.4, 0.6],

248)

249```

250

251### RAG Percakapan (dengan Memori)

252

253Untuk membangun chatbot RAG yang mengingat konteks percakapan, Anda perlu menambahkan memori yang merumuskan ulang pertanyaan pengguna dengan mempertimbangkan riwayat percakapan.

254

255```python

256from langchain.chains import create_history_aware_retriever

257from langchain_core.prompts import MessagesPlaceholder

258

259contextualize_prompt = ChatPromptTemplate.from_messages([

260 ("system", "Given the chat history and the user's latest question, "

261 "reformulate the question so it is understandable without the history."),

262 MessagesPlaceholder("chat_history"),

263 ("human", "{input}"),

264])

265

266history_aware_retriever = create_history_aware_retriever(

267 llm, retriever, contextualize_prompt

268)

269```

270

271## Praktik Terbaik

272

2731. **Pilih ukuran chunk yang tepat**: Bereksperimen dengan berbagai ukuran (500-1500 token). Chunks lebih kecil untuk jawaban presisi, lebih besar untuk konteks yang lebih luas.

2742. **Gunakan metadata dokumen**: Tambahkan sumber, tanggal, dan kategori sebagai metadata ke chunks. Ini memungkinkan pemfilteran hasil selama pengambilan.

2753. **Evaluasi kualitas**: Gunakan framework seperti [RAGAS](https://docs.ragas.io/) untuk mengukur metrik seperti *faithfulness*, *relevancy*, dan *context precision*.

2764. **Kelola pembaruan dokumen**: Implementasikan pipeline re-ingesti untuk menjaga vector store tetap tersinkronisasi dengan sumber data Anda.

2775. **Tambahkan re-ranker**: Setelah pengambilan awal, gunakan model re-ranking (seperti Cohere Rerank) untuk mengurutkan ulang hasil berdasarkan relevansi aktual.

278

279## Kesimpulan

280

281RAG telah menjadi arsitektur standar untuk membangun aplikasi AI yang membutuhkan akses ke pengetahuan spesifik dan terkini. LangChain sangat menyederhanakan implementasi, menyediakan abstraksi untuk setiap komponen pipeline.

282

283**Langkah selanjutnya:**

284- **Bereksperimen secara lokal**: Mulai dengan ChromaDB dan beberapa dokumen untuk membiasakan diri dengan pipeline.

285- **Jelajahi LangSmith**: Gunakan [LangSmith](https://smith.langchain.com/) untuk memantau dan men-debug chain Anda di produksi.

286- **Coba model embedding yang berbeda**: Bandingkan model seperti `text-embedding-3-small`, `text-embedding-3-large`, dan model open-source dari Sentence Transformers.

287- **Periksa dokumentasi**: [Dokumentasi LangChain](https://python.langchain.com/docs/) adalah sumber yang sangat baik dan terus diperbarui.

288