RAG a LangChain: Kompletni pruvodce Retrieval-Augmented Generation

spinny:~/writing $ vim rag-langchain-deep-dive.md

1~
2Velke jazykove modely (LLM) jako GPT-4 a Claude jsou mimoradne mocne, ale trpi zakladnim omezenim: jejich znalosti jsou zmrazeny v dobe treninku. **Retrieval-Augmented Generation (RAG)** resi presne tento problem kombinaci generativni sily LLM s moznosti ziskavat informace z externich zdroju.
3~
4## Problem: Omezeni LLM
5~
61.  **Staticke znalosti**: LLM vi pouze to, co videl behem treninku.
72.  **Halucinace**: Kdyz LLM nezna odpoved, ma tendenci si ji vymyslet.
83.  **Zadny pristup k soukromym datum**: Genericky LLM nema pristup k interni dokumentaci vasi spolecnosti.
9~
10## Co je RAG?
11~
12```mermaid
13graph LR
14    User["User"] -- "Question" --> Retriever
15    Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]
16    VectorStore -- "Relevant\ndocuments" --> Retriever
17    Retriever -- "Context + Question" --> LLM
18    LLM -- "Grounded\nresponse" --> User
19```
20~
21## Jak RAG funguje podrobne
22~
23### Faze 1: Indexace
24~
25```mermaid
26graph TD
27    A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]
28    B --> C["Text Splitter"]
29    C --> D["Text Chunks"]
30    D --> E["Embedding Model"]
31    E --> F["Numerical Vectors"]
32    F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]
33```
34~
35### Faze 2: Vyhledavani + Generovani
36~
37## Stavba RAG Pipeline s LangChain
38~
39```bash
40pip install langchain langchain-openai langchain-community chromadb
41```
42~
43```python
44from langchain_community.document_loaders import PyPDFLoader, WebBaseLoader, DirectoryLoader, TextLoader
45~
46pdf_loader = PyPDFLoader("docs/manual.pdf")
47pdf_docs = pdf_loader.load()
48all_docs = pdf_docs
49```
50~
51```python
52from langchain.text_splitter import RecursiveCharacterTextSplitter
53~
54text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
55chunks = text_splitter.split_documents(all_docs)
56```
57~
58```python
59from langchain_openai import OpenAIEmbeddings
60from langchain_community.vectorstores import Chroma
61~
62embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
63vectorstore = Chroma.from_documents(documents=chunks, embedding=embedding_model, persist_directory="./chroma_db")
64```
65~
66```python
67from langchain_openai import ChatOpenAI
68from langchain_core.prompts import ChatPromptTemplate
69from langchain_core.runnables import RunnablePassthrough
70from langchain_core.output_parsers import StrOutputParser
71~
72llm = ChatOpenAI(model="gpt-4o", temperature=0)
73retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 4})
74~
75prompt = ChatPromptTemplate.from_template("""
76Answer the question based only on the provided context.
77If the context does not contain enough information, say you don't know.
78~
79Context:
80{context}
81~
82Question: {question}
83~
84Answer:
85""")
86~
87def format_docs(docs):
88    return "\n\n".join(doc.page_content for doc in docs)
89~
90rag_chain = (
91    {"context": retriever | format_docs, "question": RunnablePassthrough()}
92    | prompt
93    | llm
94    | StrOutputParser()
95)
96```
97~
98## Pokrocile techniky RAG
99~
100Patri sem Multi-Query Retrieval, kontextualni komprese, hybridni vyhledavani a konverzacni RAG s pameti.
101~
102## Osvedcene postupy
103~
1041.  Experimentujte s velikosti fragmentu (500-1500 tokenu).
1052.  Pouzivejte metadata dokumentu.
1063.  Vyhodnocujte kvalitu pomoci frameworku jako [RAGAS](https://docs.ragas.io/).
1074.  Implementujte pipeline pro aktualizaci dokumentu.
1085.  Pridejte re-ranker po pocatecnim vyhledavani.
109~
110## Zaver
111~
112RAG se stal standardni architekturou pro stavbu AI aplikaci s pristupem ke specifickym znalostem. LangChain vyrazne zjednodusuje implementaci.
113~

NORMAL · rag-langchain-deep-dive.md [readonly]113 lines · :q to close

2Velke jazykove modely (LLM) jako GPT-4 a Claude jsou mimoradne mocne, ale trpi zakladnim omezenim: jejich znalosti jsou zmrazeny v dobe treninku. **Retrieval-Augmented Generation (RAG)** resi presne tento problem kombinaci generativni sily LLM s moznosti ziskavat informace z externich zdroju.

4## Problem: Omezeni LLM

61. **Staticke znalosti**: LLM vi pouze to, co videl behem treninku.

72. **Halucinace**: Kdyz LLM nezna odpoved, ma tendenci si ji vymyslet.

83. **Zadny pristup k soukromym datum**: Genericky LLM nema pristup k interni dokumentaci vasi spolecnosti.

10## Co je RAG?

11~

12```mermaid

13graph LR

14 User["User"] -- "Question" --> Retriever

15 Retriever -- "Search relevant\ndocuments" --> VectorStore["Vector Store"]

16 VectorStore -- "Relevant\ndocuments" --> Retriever

17 Retriever -- "Context + Question" --> LLM

18 LLM -- "Grounded\nresponse" --> User

19```

20~

21## Jak RAG funguje podrobne

22~

23### Faze 1: Indexace

24~

25```mermaid

26graph TD

27 A["Documents\n(PDF, HTML, MD, DB)"] --> B["Document Loader"]

28 B --> C["Text Splitter"]

29 C --> D["Text Chunks"]

30 D --> E["Embedding Model"]

31 E --> F["Numerical Vectors"]

32 F --> G["Vector Store\n(ChromaDB, Pinecone, FAISS)"]

33```

34~

35### Faze 2: Vyhledavani + Generovani

36~

37## Stavba RAG Pipeline s LangChain

38~

39```bash

40pip install langchain langchain-openai langchain-community chromadb

41```

42~

43```python

44from langchain_community.document_loaders import PyPDFLoader, WebBaseLoader, DirectoryLoader, TextLoader

45~

46pdf_loader = PyPDFLoader("docs/manual.pdf")

47pdf_docs = pdf_loader.load()

48all_docs = pdf_docs

49```

50~

51```python

52from langchain.text_splitter import RecursiveCharacterTextSplitter

53~

54text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)

55chunks = text_splitter.split_documents(all_docs)

56```

57~

58```python

59from langchain_openai import OpenAIEmbeddings

60from langchain_community.vectorstores import Chroma

61~

62embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

63vectorstore = Chroma.from_documents(documents=chunks, embedding=embedding_model, persist_directory="./chroma_db")

64```

65~

66```python

67from langchain_openai import ChatOpenAI

68from langchain_core.prompts import ChatPromptTemplate

69from langchain_core.runnables import RunnablePassthrough

70from langchain_core.output_parsers import StrOutputParser

71~

72llm = ChatOpenAI(model="gpt-4o", temperature=0)

73retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 4})

74~

75prompt = ChatPromptTemplate.from_template("""

76Answer the question based only on the provided context.

77If the context does not contain enough information, say you don't know.

78~

79Context:

80{context}

81~

82Question: {question}

83~

84Answer:

85""")

86~

87def format_docs(docs):

88 return "\n\n".join(doc.page_content for doc in docs)

89~

90rag_chain = (

91 {"context": retriever | format_docs, "question": RunnablePassthrough()}

92 | prompt

93 | llm

94 | StrOutputParser()

95)

96```

97~

98## Pokrocile techniky RAG

99~

100Patri sem Multi-Query Retrieval, kontextualni komprese, hybridni vyhledavani a konverzacni RAG s pameti.

101~

102## Osvedcene postupy

103~

1041. Experimentujte s velikosti fragmentu (500-1500 tokenu).

1052. Pouzivejte metadata dokumentu.

1063. Vyhodnocujte kvalitu pomoci frameworku jako [RAGAS](https://docs.ragas.io/).

1074. Implementujte pipeline pro aktualizaci dokumentu.

1085. Pridejte re-ranker po pocatecnim vyhledavani.

109~

110## Zaver

111~

112RAG se stal standardni architekturou pro stavbu AI aplikaci s pristupem ke specifickym znalostem. LangChain vyrazne zjednodusuje implementaci.

113~