โครงสร้างพื้นฐานเอเจนต์และแบ็กเอนด์ใหม่

spinny:~/writing $ less agentic-infrastructure-stack.md

1 
2เรามักจะพูดถึงเฟรมเวิร์กเอเจนต์ LangGraph, CrewAI, AutoGen, SDK ต่างๆ, ลูป, การเรียกใช้เครื่องมือ, หน่วยความจำ, ผู้วางแผน, นักวิจารณ์, หัวหน้างาน ถ้อยคำที่เป็นประโยชน์ทั้งสิ้นเพื่อความดี แต่ยิ่งฉันดูตัวแทนที่ใช้งานจริงมากเท่าไร สำหรับฉันก็ยิ่งดูเหมือนว่าส่วนที่น่าสนใจได้เคลื่อนไปต่ำกว่าระดับเฟรมเวิร์กมากขึ้นเท่านั้น
3 
4คำถามไม่ได้เป็นเพียงอีกต่อไป: ฉันต้องใช้ไลบรารีใดเพื่อทำให้โมเดลขั้นตอนคิด?
5 
6คำถามที่แท้จริงคือ: ตัวแทนรายนี้จะอาศัยอยู่ที่ไหนเมื่อเขาหยุดเป็นบัญชีทดลอง?
7 
8เนื่องจากเอเจนต์ที่จริงจังไม่ใช่ฟังก์ชันที่เรียกใช้โมเดลและส่งคืนข้อความ เป็นระบบกระจายขนาดเล็ก โดยจะต้องอ่านบริบท ใช้เครื่องมือ รันโค้ด ไฟล์สัมผัส จดจำการตัดสินใจ ขออนุญาต ล้มเหลว รีสตาร์ท ทิ้งบันทึก ไม่เปลืองงบประมาณ และไม่กลายเป็นรถปราบดินภายในพื้นที่เก็บข้อมูลการผลิต
9 
10โครงเป็นพวงมาลัย โครงสร้างพื้นฐานได้แก่ ถนน เบรก ที่จอดรถ ประกันภัย และบุคคลที่รู้ว่ากุญแจอยู่ที่ไหน
11 
12## เพราะตอนนี้มีคนพูดถึงกันเยอะมาก
13 
14ในปี 2023 และ 2024 การสนทนาเน้นโมเดลเป็นหลัก LLM ใด? มีบริบทมากแค่ไหน? มีค่าใช้จ่ายเท่าไร? เขาเก่งการเขียนโปรแกรมแค่ไหน?
15 
16ในปี 2568 และ 2569 การสนทนาได้เปลี่ยนไป โมเดลต่างๆ นั้นดีพอที่จะทำงานจริงได้ แต่นั่นเป็นเหตุผลว่าทำไมบิตที่น่าเบื่อจึงมองเห็นได้: รันไทม์ ความปลอดภัย ตัวเชื่อมต่อ ข้อมูลระบุตัวตน ความสามารถในการสังเกต การเรียกใช้โค้ด การปรับใช้ การย้อนกลับ
17 
18เป็นการเปลี่ยนแปลงตามธรรมชาติจากเวทมนตร์ไปสู่วิศวกรรม
19 
20เมื่อตัวแทนเพียงต้องการสร้างการตอบกลับ การแชทก็เพียงพอแล้ว เมื่อคุณต้องการเปิดคำขอดึง สืบค้นฐานข้อมูล เรียก CRM เริ่มงาน นำทางไซต์ อ่าน Slack คอมไพล์โค้ด และอัปเดตเอกสาร คุณต้องมีระบบปฏิบัติการล้อมรอบ
21 
22ไม่ใช่ในความหมายที่แท้จริง ในแง่องค์กร
23 
24## ชิ้นแรก: รันไทม์ที่ตัวแทนสามารถคงอยู่ได้
25 
26ตัวแทนมักจะทำงานเป็นขั้นตอน ดูสถานะ เลือกการกระทำ ใช้เครื่องมือ สังเกตผลลัพธ์ ปรับปรุงแผน ทำซ้ำ
27 
28หากการวนซ้ำนี้อยู่ในคำขอ HTTP เดียว คุณจะประสบปัญหาทันที การกระทำบางอย่างช้า บางส่วนกำลังรอข้อมูลจากมนุษย์ บางอย่างล้มเหลวและต้องลองอีกครั้ง บางส่วนต้องคงอยู่หลังจากการปรับใช้หรือการหมดเวลา
29 
30นี่คือจุดที่เวิร์กโฟลว์ คิว พื้นหลังงาน และสถานะแมชชีนที่คงทนเข้ามามีบทบาท พวกเขาไม่ได้มีเสน่ห์ แต่เป็นความแตกต่างระหว่างตัวแทนที่ดูฉลาดในการสาธิตกับตัวแทนที่คุณสามารถออกจากงานไปดื่มกาแฟได้
31 
32สำหรับฉันรันไทม์แบบตัวแทนต้องตอบคำถามที่เป็นรูปธรรมมาก:
33 
34- ฉันจะบันทึกสถานะระหว่างขั้นตอนหนึ่งไปอีกขั้นได้ที่ไหน
35- จะเกิดอะไรขึ้นหากกระบวนการนี้หยุดทำงานกลางคัน?
36- ฉันสามารถหยุดและขออนุมัติได้หรือไม่?
37- ฉันสามารถเล่นซ้ำการวิ่งเพื่อทำความเข้าใจว่าทำไมเขาถึงเลือกเช่นนั้นได้หรือไม่
38- ฉันสามารถจำกัดระยะเวลา หน่วยความจำ เครื่องมือ และค่าใช้จ่ายได้หรือไม่
39 
40Vercel ผลักดันอย่างหนักในด้านนี้ด้วย AI SDK, ฟังก์ชัน, เวิร์กโฟลว์ และเครื่องมือสำหรับการสร้างตัวแทนภายในเว็บแอปพลิเคชัน แต่ประเด็นไม่ใช่แค่ Vercel เท่านั้น ประเด็นก็คือตัวแทนจำเป็นต้องมีบ้านที่ปฏิบัติงาน ไม่ใช่จุดสิ้นสุดจุดเดียว
41 
42## ชิ้นที่สอง: กระบะทราย เพราะตัวแทนจะต้องสามารถสกปรกได้โดยไม่แตกหัก
43 
44ทันทีที่ตัวแทนเขียนโค้ดหรือดำเนินการคำสั่ง จำเป็นต้องมีแซนด์บ็อกซ์
45 
46ดูเหมือนเป็นคำศัพท์เชิงเทคนิค แต่แนวคิดนี้เป็นแนวคิดภายในประเทศ คุณให้โต๊ะทำงานแก่เขา สามารถเปิดไฟล์ ติดตั้งการขึ้นต่อกัน รันการทดสอบ ทำการทดลอง สร้างเอาต์พุต ถ้าเขาทำผิด คุณก็ควบคุมความเสียหายได้ หากได้ผลให้ส่งเสริมผลลัพธ์
47 
48แซนด์บ็อกซ์แบบตัวแทนควรมีคุณสมบัติบางประการ:
49 
50- ระบบไฟล์แบบแยกส่วน
51- CPU หน่วยความจำ และการจำกัดเวลา
52- เครือข่ายควบคุม
53- ความลับจะถูกติดตั้งเมื่อจำเป็นเท่านั้น
54- บันทึกที่สมบูรณ์
55- ความเป็นไปได้ในการส่งออกสิ่งประดิษฐ์
56- ล้างการรีเซ็ตระหว่างการรันเมื่อจำเป็น
57 
58Vercel Sandbox ดำเนินไปในทิศทางนี้ทุกประการ: สภาพแวดล้อมที่แยกออกมาเพื่อรันโค้ด ติดตั้งการขึ้นต่อกัน ทำงานกับไฟล์ และสร้างอาร์ติแฟกต์โดยไม่ต้องรันทุกอย่างในรันไทม์ของแอปพลิเคชันหลัก
59 
60สิ่งนี้สำคัญกว่าที่คิด ต้นแบบเอเจนต์จำนวนมากกระโดดจากแบบจำลองไปยังระบบจริงโดยตรง โมเดลสามารถเรียกเครื่องมือได้ เครื่องมือสามารถทำสิ่งต่างๆได้ ทุกอย่างดูสวยงามจนกระทั่งคำสั่งแรกผิด การขึ้นต่อกันครั้งแรกติดตั้งผิดที่ โทเค็นแรกที่จบลงในบันทึก
61 
62แซนด์บ็อกซ์เป็นวิธีสำหรับผู้ใหญ่ในการพูดว่า: เอาเลย แต่อยู่ตรงนี้
63 
64## ชิ้นที่สาม: ปัญหา MCP และตัวเชื่อมต่อ
65 
66Model Context Protocol ได้กลายเป็นหนึ่งในส่วนที่น่าสนใจที่สุดของระบบนิเวศ เนื่องจากพยายามสร้างมาตรฐานให้กับบางสิ่งที่ไม่สามารถจัดการได้อย่างรวดเร็ว: วิธีที่โมเดลค้นพบและใช้เครื่องมือภายนอก
67 
68หากไม่มีมาตรฐาน แต่ละการบูรณาการก็เป็นเพียงเกาะเล็กๆ ตัวเชื่อมต่อสำหรับ GitHub ทำได้อย่างหนึ่ง อย่างหนึ่งสำหรับ Slack อีกอย่างหนึ่ง อย่างหนึ่งสำหรับฐานข้อมูลที่มีความหมายต่างกัน อีกอย่างหนึ่งสำหรับเบราว์เซอร์อัตโนมัติที่ดูเหมือนไม่มีอะไรเลย
69 
70MCP เสนอภาษากลางระหว่างไคลเอนต์และเซิร์ฟเวอร์: เครื่องมือ ทรัพยากร ข้อความแจ้ง การอนุญาต การขนส่ง การค้นพบ มันไม่ได้แก้ปัญหาการกำกับดูแลและความปลอดภัยอย่างน่าอัศจรรย์ แต่ให้ไวยากรณ์
71 
72และเรื่องไวยากรณ์ เมื่อตัวแทนสามารถเชื่อมต่อกับเครื่องมือมากมายได้ คำถามไม่ใช่แค่ "เขาทำได้ไหม" ปัญหาคือ “เขาเข้าใจไหมว่าเขาทำอะไรได้บ้าง มีขอบเขตอะไร ในนามของใคร และทิ้งร่องรอยอะไรเอาไว้”
73 
74สำหรับฉัน MCP ไม่ใช่โฆษณาเกินจริงเพราะมัน "ทำการเรียกเครื่องมือ" เราทำอย่างนั้นแล้ว เป็นเรื่องฮือฮาเพราะมันเปลี่ยนจุดศูนย์ถ่วงจากการบูรณาการแบบเดี่ยวไปสู่แค็ตตาล็อกการปฏิบัติงานของเครื่องมือ
75 
76ในสถาปัตยกรรมเอเจนต์ที่ดี MCP จะกลายเป็นแผงแพทช์:
77 
78- GitHub สำหรับโค้ดและประเด็นต่างๆ
79- หย่อนบริบทการสนทนา
80- เชิงเส้นหรือจิราสำหรับงานตามแผน
81- ฐานข้อมูลแบบอ่านอย่างเดียวสำหรับการวิเคราะห์
82- เบราว์เซอร์หรือมีดโกนควบคุมสำหรับไซต์ภายนอก
83- การจัดเก็บเอกสาร
84- สภาพแวดล้อมการดำเนินการแบบแยกส่วน
85- ระบบภายในถูกเปิดเผยด้วยสิทธิ์ที่เข้มงวด
86 
87ส่วนที่ยุ่งยากก็คือแค็ตตาล็อกเครื่องมือที่ไม่มีนโยบายเป็นเพียงวิธีที่หรูหรากว่าในการสร้างความสับสนวุ่นวาย
88 
89## ชิ้นที่สี่: ข้อมูลประจำตัวและการอนุญาต
90 
91นี่คือพื้นที่ที่การสาธิตจำนวนมากเมินเฉย
92 
93ตัวแทนกระทำการในนามของบุคคลอื่น ดังนั้นจึงต้องชัดเจนว่าใครเป็นเป้าหมายของการดำเนินการ
94 
95มันใช้สิทธิ์ของผู้ใช้หรือไม่? ของบัญชีบริการ? ของพื้นที่ทำงาน? คุณมีสิทธิ์เข้าถึงชั่วคราวหรือถาวรหรือไม่? คุณสามารถอ่านทุกอย่างหรือเพียงแหล่งข้อมูลบางส่วนได้หรือไม่? คุณเขียนได้ไหม? ยกเลิกได้ไหม? เขาส่งข้อความหาคนจริงๆ ได้ไหม?
96 
97หากคุณตอบคำถามเหล่านี้ได้ไม่ดี ไม่ช้าก็เร็ว คุณจะสร้างผู้ช่วยที่มีกุญแจบ้านและไม่มีความทรงจำว่าใครเป็นคนมอบกุญแจให้เขา
98 
99กฎทั่วไปที่ฉันชอบคือ: เจ้าหน้าที่ต้องสามารถทำงานได้น้อยกว่ามนุษย์ ไม่เกินมนุษย์ และเมื่อเขาต้องทำอะไรที่เสี่ยงกว่านั้นเขาก็ต้องหยุดถาม
100 
101ซึ่งหมายความว่า OAuth, ขอบเขตโทเค็น, การจัดการข้อมูลลับ, บันทึกการตรวจสอบ, นโยบายเครื่องมือ, รายการที่อนุญาต, ขั้นตอนการอนุมัติ ไม่ค่อยโรแมนติกเท่าไหร่ สิ่งที่จำเป็น
102 
103## ชิ้นที่ห้า: ความทรงจำและบริบท แต่ไม่สะสมขยะ
104 
105เจ้าหน้าที่จำเป็นต้องมีความทรงจำ แต่ความทรงจำนั้นอันตรายเมื่อมันกลายเป็นห้องใต้หลังคา
106 
107หน่วยความจำมีอย่างน้อยสามประเภท:
108 
109- เรียกใช้หน่วยความจำ: เกิดอะไรขึ้นในการดำเนินการนี้
110- หน่วยความจำโครงการ: แบบแผน การตัดสินใจ ข้อจำกัด
111- หน่วยความจำส่วนบุคคลหรือทีม: การตั้งค่า น้ำเสียง พิธีกรรม กระบวนการ
112 
113การใส่ทุกอย่างลงในพรอมต์คือทางลัด มันทำงานจนไม่ทำงานอีกต่อไป หน่วยความจำที่เป็นประโยชน์จะต้องได้รับการดูแล: จัดทำดัชนี อัปเดต หมดอายุ ตรวจสอบแล้ว ทำให้สามารถอ้างอิงได้
114 
115ตัวแทนที่จำไม่ดี แย่กว่าตัวแทนที่จำไม่ได้ เพราะเขาพูดด้วยความมั่นใจ
116 
117ดังนั้นโครงสร้างพื้นฐานจึงต้องรวมถึงการดึงข้อมูล ไฟล์คำสั่ง ฐานความรู้ การฝังเมื่อจำเป็น แต่ยังรวมถึงการทำความสะอาดด้วย เราต้องการวัฒนธรรมแห่งความทรงจำ อะไรเข้ามา ใครเห็นชอบ เมื่อมันเสื่อมสลายไป ฉันจะแก้ไขมันได้อย่างไร
118 
119## ชิ้นที่หก: การสังเกต การประเมิน และการเล่นซ้ำ
120 
121หากตัวแทนทำผิดพลาด บันทึก "ที่เรียกว่าโมเดล" ยังไม่เพียงพอ
122 
123คุณต้องการดูเส้นทาง เขาได้รับบริบทอะไร? มีเครื่องมืออะไรบ้าง? คุณเลือกเครื่องมือใด ด้วยข้อโต้แย้งอะไร? คุณได้รับคำตอบอะไร? ค่าใช้จ่ายเท่าไหร่? มันติดตรงไหน? มนุษย์ยอมรับสิ่งใดหรือไม่? โมเดลข้อผิดพลาด เครื่องมือ พรอมต์ ข้อมูลหรือการอนุญาตมีข้อผิดพลาดหรือไม่
124 
125ในที่นี้ตัวแทนเป็นเหมือนระบบแบบกระจายมากกว่าแชทบอท
126 
127คุณต้องมีการติดตามที่อ่านได้ ไม่ใช่แค่บันทึกข้อความ คุณต้องสามารถเล่นซ้ำการวิ่งได้ จำเป็นต้องเปรียบเทียบเอเจนต์เดียวกันสองเวอร์ชันกับงานที่ทราบ เราจำเป็นต้องวัดการถดถอย ไม่เพียงแต่ "ตอบได้ดีขึ้น" เท่านั้น แต่ยัง "ปิดตั๋วที่ถูกต้องโดยไม่ต้องสัมผัสไฟล์ที่ไม่พึงประสงค์"
128 
129การประเมินแบบตัวแทนนั้นยากกว่าการประเมินแบบข้อความ เนื่องจากมีการดำเนินการด้วย การเปรียบเทียบสตริงที่คาดหวังนั้นไม่เพียงพอ คุณต้องดูลำดับ ผลข้างเคียง คุณภาพของสิ่งประดิษฐ์ เวลา ต้นทุน จำนวนการแทรกแซงของมนุษย์
130 
131สิ่งที่ตลกคือเรามักจะกลับมาที่นั่นเสมอ: วิศวกรรมซอฟต์แวร์ การทดสอบ สภาพแวดล้อม การติดตาม การย้อนกลับ ยกเว้นว่าตอนนี้โค้ดยังตัดสินใจว่าจะทำอะไรต่อไป
132 
133## ชิ้นที่เจ็ด: ส่วนต่อประสานของมนุษย์
134 
135ตัวแทนไม่จำเป็นต้องอยู่แค่ในแชทเท่านั้น
136 
137ตัวแทนบางคนจำเป็นต้องมีบอร์ด เพจอื่นๆ ที่มีสถานะและบันทึก อื่นๆ ของปุ่ม "อนุมัติ" More inline comments. ยังมี CLI อื่นๆ อีก
138 
139UI เปลี่ยนพฤติกรรม หากวิธีเดียวที่จะควบคุมตัวแทนคือการเขียนข้อความยาว ผู้ใช้จะให้คำแนะนำที่คลุมเครือแก่ตัวแทน อย่างไรก็ตาม หากเขาเห็นแผน ความแตกต่าง แหล่งที่มา ความเสี่ยง และการดำเนินการต่อไป เขาก็จะสามารถแทรกแซงได้อย่างแม่นยำ
140 
141โครงสร้างพื้นฐานของเอเจนต์ที่เหมาะสมประกอบด้วยพื้นผิวการควบคุม:
142 
143- สถานะปัจจุบัน
144- แผนแก้ไขได้
145- ผลิตสิ่งประดิษฐ์
146- ความแตกต่าง;
147- คำขออนุมัติ
148- ลำดับเหตุการณ์;
149- ปุ่มหยุด;
150- ปุ่มลองอีกครั้ง;
151- สิทธิ์ที่มองเห็นได้
152 
153It seems trivial, but it isn't. ความแตกต่างระหว่าง "AI ที่น่าขนลุก" และ "ผู้ช่วยที่เชื่อถือได้" มักจะเป็นเพียงส่วนหลังที่แสดงให้คุณเห็นว่ามันอยู่ในมือตรงไหน
154 
155## กองจิต
156 
157ถ้าผมจะวาดมันวันนี้ จำนวนตัวแทนขั้นต่ำจะเป็นดังนี้:
158 
1591. โมเดล: การใช้เหตุผล การสร้าง การเรียกใช้เครื่องมือ ต่อเนื่องหลายรูปแบบ หากจำเป็น
1602. การเรียบเรียง: วนซ้ำ ขั้นตอน ผู้วางแผน นโยบาย มนุษย์ในวง
1613. รันไทม์ที่คงทน: เวิร์กโฟลว์ คิว ลองใหม่ หยุดชั่วคราว ดำเนินการต่อ
1624. Sandbox: code execution, isolated file system, limitations, artifacts.
1635. เลเยอร์เครื่องมือ: MCP, API ภายใน, เบราว์เซอร์, ฐานข้อมูล, พื้นที่เก็บข้อมูล
1646. ชั้นข้อมูลประจำตัว: OAuth ขอบเขต ความลับ การตรวจสอบ นโยบาย
1657. ชั้นหน่วยความจำ: บริบทของโปรเจ็กต์ การดึงข้อมูล คำแนะนำ การหมดอายุ
1668. ความสามารถในการสังเกต: ติดตาม เล่นซ้ำ ประเมิน ต้นทุน และตัวชี้วัดคุณภาพ
1679. พื้นผิวของผลิตภัณฑ์: แชทเมื่อเพียงพอ แดชบอร์ดเมื่อจำเป็น ตรวจสอบเมื่อมีความสำคัญ
168 
169Agentic Framework ครอบคลุมจุดที่ 2 และจุดที่ 1 เป็นหลัก ส่วนที่เหลือเป็นงานจริง
170 
171## สิ่งที่ผมจะทำในทางปฏิบัติ
172 
173หากทีมบอกฉันว่า “เราต้องการตัวแทนในการผลิต” ฉันจะไม่เริ่มต้นด้วยตัวแทนสิบคน
174 
175ฉันจะเริ่มต้นด้วยขั้นตอนการทำงานเล็กๆ ซ้ำๆ และสังเกตได้ ตัวอย่างเช่น: ประชาสัมพันธ์การบำรุงรักษาแบบเปิด อัปเดตเอกสารจากปัญหาที่ปิดไปแล้ว เตรียมการตรวจสอบรายสัปดาห์ คัดแยกข้อบกพร่องที่ซ้ำกัน สร้างการทดสอบสำหรับไฟล์ที่ได้รับผลกระทบ
176 
177จากนั้นฉันจะกำหนดขอบเขตที่ชัดเจนมาก:
178 
179- ห้ามเขียนโดยไม่มีสาขาหรือแซนด์บ็อกซ์
180- ไม่มีความลับในพรอมต์;
181- เครื่องมือในรายการที่อนุญาต
182- การอนุมัติของมนุษย์สำหรับการกระทำภายนอก
183- บันทึกและการติดตามที่จำเป็น
184- งบประมาณต่อการวิ่ง;
185- สามารถตรวจสอบเอาต์พุตได้เสมอ
186 
187เมื่อนั้นฉันก็จะขยาย
188 
189เจ้าหน้าที่ไม่ได้ล้มเหลวเพียงเพราะโมเดลเข้าใจผิด พวกเขาล้มเหลวเพราะเราวางมันไว้ในสภาพแวดล้อมที่คลุมเครือ พร้อมด้วยสิทธิ์ที่ทำให้เกิดความสับสนและความคาดหวังในการแสดงละคร
190 
191## การอ่านของฉัน
192 
193โครงสร้างพื้นฐานเอเจนต์น่าเบื่อในวิธีที่ดีที่สุด
194 
195ไม่ใช่ส่วนที่ทำให้คุณปรบมือในการสาธิต เป็นส่วนที่ให้คุณใช้การสาธิตในเช้าวันจันทร์กับคนจริง ข้อมูลจริง และผลลัพธ์ที่แท้จริง
196 
197อนาคตของตัวแทนไม่ได้ถูกกำหนดโดยใครมีแบบอย่างที่ดีที่สุดเท่านั้น ใครก็ตามที่สร้างสถานที่ที่ดีที่สุดเพื่อให้เขาทำงานจะถูกตัดสินใจ โดยโดดเดี่ยวเมื่อเขาทำการทดลอง เชื่อมต่อเมื่อจำเป็น สังเกตได้เสมอ ได้รับอนุญาตตามหลักเกณฑ์ และถ่อมตัวพอที่จะหยุดเมื่อเขาไม่รู้
198 
199นั่นคือสิ่งที่ตัวแทนเลิกเป็นของเล่นและกลายเป็นโครงสร้างพื้นฐาน
200 
201## แหล่งที่มา
202 
203- [Vercel: วิธีสร้างตัวแทน AI ด้วย Vercel และ AI SDK](https://vercel.com/kb/guide/how-to-build-ai-agents-with-vercel-and-the-ai-sdk)
204- [เอกสาร Vercel: แซนด์บ็อกซ์](https://vercel.com/docs/sandbox)
205- [Vercel Docs: การทำงานกับ Sandbox](https://vercel.com/docs/sandbox/working-with-sandbox)
206- [เอกสาร Vercel: MCP](https://vercel.com/docs/mcp)
207- [Model Context Protocol: ข้อมูลจำเพาะ](https://modelcontextprotocol.io/speciation)
208- [OpenAI: เครื่องมือใหม่สำหรับตัวแทนการสร้าง](https://openai.com/index/new-tools-for-building-agents/)
209- [บล็อก Cloudflare: ตัวแทนบน Cloudflare](https://blog.cloudflare.com/agents-on-cloudflare/)
210

:โครงสร้างพื้นฐานเอเจนต์และแบ็กเอนด์ใหม่lines 1-210 (END) — press q to close

2เรามักจะพูดถึงเฟรมเวิร์กเอเจนต์ LangGraph, CrewAI, AutoGen, SDK ต่างๆ, ลูป, การเรียกใช้เครื่องมือ, หน่วยความจำ, ผู้วางแผน, นักวิจารณ์, หัวหน้างาน ถ้อยคำที่เป็นประโยชน์ทั้งสิ้นเพื่อความดี แต่ยิ่งฉันดูตัวแทนที่ใช้งานจริงมากเท่าไร สำหรับฉันก็ยิ่งดูเหมือนว่าส่วนที่น่าสนใจได้เคลื่อนไปต่ำกว่าระดับเฟรมเวิร์กมากขึ้นเท่านั้น

4คำถามไม่ได้เป็นเพียงอีกต่อไป: ฉันต้องใช้ไลบรารีใดเพื่อทำให้โมเดลขั้นตอนคิด?

6คำถามที่แท้จริงคือ: ตัวแทนรายนี้จะอาศัยอยู่ที่ไหนเมื่อเขาหยุดเป็นบัญชีทดลอง?

8เนื่องจากเอเจนต์ที่จริงจังไม่ใช่ฟังก์ชันที่เรียกใช้โมเดลและส่งคืนข้อความ เป็นระบบกระจายขนาดเล็ก โดยจะต้องอ่านบริบท ใช้เครื่องมือ รันโค้ด ไฟล์สัมผัส จดจำการตัดสินใจ ขออนุญาต ล้มเหลว รีสตาร์ท ทิ้งบันทึก ไม่เปลืองงบประมาณ และไม่กลายเป็นรถปราบดินภายในพื้นที่เก็บข้อมูลการผลิต

10โครงเป็นพวงมาลัย โครงสร้างพื้นฐานได้แก่ ถนน เบรก ที่จอดรถ ประกันภัย และบุคคลที่รู้ว่ากุญแจอยู่ที่ไหน

12## เพราะตอนนี้มีคนพูดถึงกันเยอะมาก

14ในปี 2023 และ 2024 การสนทนาเน้นโมเดลเป็นหลัก LLM ใด? มีบริบทมากแค่ไหน? มีค่าใช้จ่ายเท่าไร? เขาเก่งการเขียนโปรแกรมแค่ไหน?

16ในปี 2568 และ 2569 การสนทนาได้เปลี่ยนไป โมเดลต่างๆ นั้นดีพอที่จะทำงานจริงได้ แต่นั่นเป็นเหตุผลว่าทำไมบิตที่น่าเบื่อจึงมองเห็นได้: รันไทม์ ความปลอดภัย ตัวเชื่อมต่อ ข้อมูลระบุตัวตน ความสามารถในการสังเกต การเรียกใช้โค้ด การปรับใช้ การย้อนกลับ

18เป็นการเปลี่ยนแปลงตามธรรมชาติจากเวทมนตร์ไปสู่วิศวกรรม

20เมื่อตัวแทนเพียงต้องการสร้างการตอบกลับ การแชทก็เพียงพอแล้ว เมื่อคุณต้องการเปิดคำขอดึง สืบค้นฐานข้อมูล เรียก CRM เริ่มงาน นำทางไซต์ อ่าน Slack คอมไพล์โค้ด และอัปเดตเอกสาร คุณต้องมีระบบปฏิบัติการล้อมรอบ

22ไม่ใช่ในความหมายที่แท้จริง ในแง่องค์กร

24## ชิ้นแรก: รันไทม์ที่ตัวแทนสามารถคงอยู่ได้

26ตัวแทนมักจะทำงานเป็นขั้นตอน ดูสถานะ เลือกการกระทำ ใช้เครื่องมือ สังเกตผลลัพธ์ ปรับปรุงแผน ทำซ้ำ

28หากการวนซ้ำนี้อยู่ในคำขอ HTTP เดียว คุณจะประสบปัญหาทันที การกระทำบางอย่างช้า บางส่วนกำลังรอข้อมูลจากมนุษย์ บางอย่างล้มเหลวและต้องลองอีกครั้ง บางส่วนต้องคงอยู่หลังจากการปรับใช้หรือการหมดเวลา

30นี่คือจุดที่เวิร์กโฟลว์ คิว พื้นหลังงาน และสถานะแมชชีนที่คงทนเข้ามามีบทบาท พวกเขาไม่ได้มีเสน่ห์ แต่เป็นความแตกต่างระหว่างตัวแทนที่ดูฉลาดในการสาธิตกับตัวแทนที่คุณสามารถออกจากงานไปดื่มกาแฟได้

32สำหรับฉันรันไทม์แบบตัวแทนต้องตอบคำถามที่เป็นรูปธรรมมาก:

34- ฉันจะบันทึกสถานะระหว่างขั้นตอนหนึ่งไปอีกขั้นได้ที่ไหน

35- จะเกิดอะไรขึ้นหากกระบวนการนี้หยุดทำงานกลางคัน?

36- ฉันสามารถหยุดและขออนุมัติได้หรือไม่?

37- ฉันสามารถเล่นซ้ำการวิ่งเพื่อทำความเข้าใจว่าทำไมเขาถึงเลือกเช่นนั้นได้หรือไม่

38- ฉันสามารถจำกัดระยะเวลา หน่วยความจำ เครื่องมือ และค่าใช้จ่ายได้หรือไม่

40Vercel ผลักดันอย่างหนักในด้านนี้ด้วย AI SDK, ฟังก์ชัน, เวิร์กโฟลว์ และเครื่องมือสำหรับการสร้างตัวแทนภายในเว็บแอปพลิเคชัน แต่ประเด็นไม่ใช่แค่ Vercel เท่านั้น ประเด็นก็คือตัวแทนจำเป็นต้องมีบ้านที่ปฏิบัติงาน ไม่ใช่จุดสิ้นสุดจุดเดียว

42## ชิ้นที่สอง: กระบะทราย เพราะตัวแทนจะต้องสามารถสกปรกได้โดยไม่แตกหัก

44ทันทีที่ตัวแทนเขียนโค้ดหรือดำเนินการคำสั่ง จำเป็นต้องมีแซนด์บ็อกซ์

46ดูเหมือนเป็นคำศัพท์เชิงเทคนิค แต่แนวคิดนี้เป็นแนวคิดภายในประเทศ คุณให้โต๊ะทำงานแก่เขา สามารถเปิดไฟล์ ติดตั้งการขึ้นต่อกัน รันการทดสอบ ทำการทดลอง สร้างเอาต์พุต ถ้าเขาทำผิด คุณก็ควบคุมความเสียหายได้ หากได้ผลให้ส่งเสริมผลลัพธ์

48แซนด์บ็อกซ์แบบตัวแทนควรมีคุณสมบัติบางประการ:

50- ระบบไฟล์แบบแยกส่วน

51- CPU หน่วยความจำ และการจำกัดเวลา

52- เครือข่ายควบคุม

53- ความลับจะถูกติดตั้งเมื่อจำเป็นเท่านั้น

54- บันทึกที่สมบูรณ์

55- ความเป็นไปได้ในการส่งออกสิ่งประดิษฐ์

56- ล้างการรีเซ็ตระหว่างการรันเมื่อจำเป็น

58Vercel Sandbox ดำเนินไปในทิศทางนี้ทุกประการ: สภาพแวดล้อมที่แยกออกมาเพื่อรันโค้ด ติดตั้งการขึ้นต่อกัน ทำงานกับไฟล์ และสร้างอาร์ติแฟกต์โดยไม่ต้องรันทุกอย่างในรันไทม์ของแอปพลิเคชันหลัก

60สิ่งนี้สำคัญกว่าที่คิด ต้นแบบเอเจนต์จำนวนมากกระโดดจากแบบจำลองไปยังระบบจริงโดยตรง โมเดลสามารถเรียกเครื่องมือได้ เครื่องมือสามารถทำสิ่งต่างๆได้ ทุกอย่างดูสวยงามจนกระทั่งคำสั่งแรกผิด การขึ้นต่อกันครั้งแรกติดตั้งผิดที่ โทเค็นแรกที่จบลงในบันทึก

62แซนด์บ็อกซ์เป็นวิธีสำหรับผู้ใหญ่ในการพูดว่า: เอาเลย แต่อยู่ตรงนี้

64## ชิ้นที่สาม: ปัญหา MCP และตัวเชื่อมต่อ

66Model Context Protocol ได้กลายเป็นหนึ่งในส่วนที่น่าสนใจที่สุดของระบบนิเวศ เนื่องจากพยายามสร้างมาตรฐานให้กับบางสิ่งที่ไม่สามารถจัดการได้อย่างรวดเร็ว: วิธีที่โมเดลค้นพบและใช้เครื่องมือภายนอก

68หากไม่มีมาตรฐาน แต่ละการบูรณาการก็เป็นเพียงเกาะเล็กๆ ตัวเชื่อมต่อสำหรับ GitHub ทำได้อย่างหนึ่ง อย่างหนึ่งสำหรับ Slack อีกอย่างหนึ่ง อย่างหนึ่งสำหรับฐานข้อมูลที่มีความหมายต่างกัน อีกอย่างหนึ่งสำหรับเบราว์เซอร์อัตโนมัติที่ดูเหมือนไม่มีอะไรเลย

70MCP เสนอภาษากลางระหว่างไคลเอนต์และเซิร์ฟเวอร์: เครื่องมือ ทรัพยากร ข้อความแจ้ง การอนุญาต การขนส่ง การค้นพบ มันไม่ได้แก้ปัญหาการกำกับดูแลและความปลอดภัยอย่างน่าอัศจรรย์ แต่ให้ไวยากรณ์

72และเรื่องไวยากรณ์ เมื่อตัวแทนสามารถเชื่อมต่อกับเครื่องมือมากมายได้ คำถามไม่ใช่แค่ "เขาทำได้ไหม" ปัญหาคือ “เขาเข้าใจไหมว่าเขาทำอะไรได้บ้าง มีขอบเขตอะไร ในนามของใคร และทิ้งร่องรอยอะไรเอาไว้”

74สำหรับฉัน MCP ไม่ใช่โฆษณาเกินจริงเพราะมัน "ทำการเรียกเครื่องมือ" เราทำอย่างนั้นแล้ว เป็นเรื่องฮือฮาเพราะมันเปลี่ยนจุดศูนย์ถ่วงจากการบูรณาการแบบเดี่ยวไปสู่แค็ตตาล็อกการปฏิบัติงานของเครื่องมือ

76ในสถาปัตยกรรมเอเจนต์ที่ดี MCP จะกลายเป็นแผงแพทช์:

78- GitHub สำหรับโค้ดและประเด็นต่างๆ

79- หย่อนบริบทการสนทนา

80- เชิงเส้นหรือจิราสำหรับงานตามแผน

81- ฐานข้อมูลแบบอ่านอย่างเดียวสำหรับการวิเคราะห์

82- เบราว์เซอร์หรือมีดโกนควบคุมสำหรับไซต์ภายนอก

83- การจัดเก็บเอกสาร

84- สภาพแวดล้อมการดำเนินการแบบแยกส่วน

85- ระบบภายในถูกเปิดเผยด้วยสิทธิ์ที่เข้มงวด

87ส่วนที่ยุ่งยากก็คือแค็ตตาล็อกเครื่องมือที่ไม่มีนโยบายเป็นเพียงวิธีที่หรูหรากว่าในการสร้างความสับสนวุ่นวาย

89## ชิ้นที่สี่: ข้อมูลประจำตัวและการอนุญาต

91นี่คือพื้นที่ที่การสาธิตจำนวนมากเมินเฉย

93ตัวแทนกระทำการในนามของบุคคลอื่น ดังนั้นจึงต้องชัดเจนว่าใครเป็นเป้าหมายของการดำเนินการ

95มันใช้สิทธิ์ของผู้ใช้หรือไม่? ของบัญชีบริการ? ของพื้นที่ทำงาน? คุณมีสิทธิ์เข้าถึงชั่วคราวหรือถาวรหรือไม่? คุณสามารถอ่านทุกอย่างหรือเพียงแหล่งข้อมูลบางส่วนได้หรือไม่? คุณเขียนได้ไหม? ยกเลิกได้ไหม? เขาส่งข้อความหาคนจริงๆ ได้ไหม?

97หากคุณตอบคำถามเหล่านี้ได้ไม่ดี ไม่ช้าก็เร็ว คุณจะสร้างผู้ช่วยที่มีกุญแจบ้านและไม่มีความทรงจำว่าใครเป็นคนมอบกุญแจให้เขา

99กฎทั่วไปที่ฉันชอบคือ: เจ้าหน้าที่ต้องสามารถทำงานได้น้อยกว่ามนุษย์ ไม่เกินมนุษย์ และเมื่อเขาต้องทำอะไรที่เสี่ยงกว่านั้นเขาก็ต้องหยุดถาม

100

101ซึ่งหมายความว่า OAuth, ขอบเขตโทเค็น, การจัดการข้อมูลลับ, บันทึกการตรวจสอบ, นโยบายเครื่องมือ, รายการที่อนุญาต, ขั้นตอนการอนุมัติ ไม่ค่อยโรแมนติกเท่าไหร่ สิ่งที่จำเป็น

102

103## ชิ้นที่ห้า: ความทรงจำและบริบท แต่ไม่สะสมขยะ

104

105เจ้าหน้าที่จำเป็นต้องมีความทรงจำ แต่ความทรงจำนั้นอันตรายเมื่อมันกลายเป็นห้องใต้หลังคา

106

107หน่วยความจำมีอย่างน้อยสามประเภท:

108

109- เรียกใช้หน่วยความจำ: เกิดอะไรขึ้นในการดำเนินการนี้

110- หน่วยความจำโครงการ: แบบแผน การตัดสินใจ ข้อจำกัด

111- หน่วยความจำส่วนบุคคลหรือทีม: การตั้งค่า น้ำเสียง พิธีกรรม กระบวนการ

112

113การใส่ทุกอย่างลงในพรอมต์คือทางลัด มันทำงานจนไม่ทำงานอีกต่อไป หน่วยความจำที่เป็นประโยชน์จะต้องได้รับการดูแล: จัดทำดัชนี อัปเดต หมดอายุ ตรวจสอบแล้ว ทำให้สามารถอ้างอิงได้

114

115ตัวแทนที่จำไม่ดี แย่กว่าตัวแทนที่จำไม่ได้ เพราะเขาพูดด้วยความมั่นใจ

116

117ดังนั้นโครงสร้างพื้นฐานจึงต้องรวมถึงการดึงข้อมูล ไฟล์คำสั่ง ฐานความรู้ การฝังเมื่อจำเป็น แต่ยังรวมถึงการทำความสะอาดด้วย เราต้องการวัฒนธรรมแห่งความทรงจำ อะไรเข้ามา ใครเห็นชอบ เมื่อมันเสื่อมสลายไป ฉันจะแก้ไขมันได้อย่างไร

118

119## ชิ้นที่หก: การสังเกต การประเมิน และการเล่นซ้ำ

120

121หากตัวแทนทำผิดพลาด บันทึก "ที่เรียกว่าโมเดล" ยังไม่เพียงพอ

122

123คุณต้องการดูเส้นทาง เขาได้รับบริบทอะไร? มีเครื่องมืออะไรบ้าง? คุณเลือกเครื่องมือใด ด้วยข้อโต้แย้งอะไร? คุณได้รับคำตอบอะไร? ค่าใช้จ่ายเท่าไหร่? มันติดตรงไหน? มนุษย์ยอมรับสิ่งใดหรือไม่? โมเดลข้อผิดพลาด เครื่องมือ พรอมต์ ข้อมูลหรือการอนุญาตมีข้อผิดพลาดหรือไม่

124

125ในที่นี้ตัวแทนเป็นเหมือนระบบแบบกระจายมากกว่าแชทบอท

126

127คุณต้องมีการติดตามที่อ่านได้ ไม่ใช่แค่บันทึกข้อความ คุณต้องสามารถเล่นซ้ำการวิ่งได้ จำเป็นต้องเปรียบเทียบเอเจนต์เดียวกันสองเวอร์ชันกับงานที่ทราบ เราจำเป็นต้องวัดการถดถอย ไม่เพียงแต่ "ตอบได้ดีขึ้น" เท่านั้น แต่ยัง "ปิดตั๋วที่ถูกต้องโดยไม่ต้องสัมผัสไฟล์ที่ไม่พึงประสงค์"

128

129การประเมินแบบตัวแทนนั้นยากกว่าการประเมินแบบข้อความ เนื่องจากมีการดำเนินการด้วย การเปรียบเทียบสตริงที่คาดหวังนั้นไม่เพียงพอ คุณต้องดูลำดับ ผลข้างเคียง คุณภาพของสิ่งประดิษฐ์ เวลา ต้นทุน จำนวนการแทรกแซงของมนุษย์

130

131สิ่งที่ตลกคือเรามักจะกลับมาที่นั่นเสมอ: วิศวกรรมซอฟต์แวร์ การทดสอบ สภาพแวดล้อม การติดตาม การย้อนกลับ ยกเว้นว่าตอนนี้โค้ดยังตัดสินใจว่าจะทำอะไรต่อไป

132

133## ชิ้นที่เจ็ด: ส่วนต่อประสานของมนุษย์

134

135ตัวแทนไม่จำเป็นต้องอยู่แค่ในแชทเท่านั้น

136

137ตัวแทนบางคนจำเป็นต้องมีบอร์ด เพจอื่นๆ ที่มีสถานะและบันทึก อื่นๆ ของปุ่ม "อนุมัติ" More inline comments. ยังมี CLI อื่นๆ อีก

138

139UI เปลี่ยนพฤติกรรม หากวิธีเดียวที่จะควบคุมตัวแทนคือการเขียนข้อความยาว ผู้ใช้จะให้คำแนะนำที่คลุมเครือแก่ตัวแทน อย่างไรก็ตาม หากเขาเห็นแผน ความแตกต่าง แหล่งที่มา ความเสี่ยง และการดำเนินการต่อไป เขาก็จะสามารถแทรกแซงได้อย่างแม่นยำ

140

141โครงสร้างพื้นฐานของเอเจนต์ที่เหมาะสมประกอบด้วยพื้นผิวการควบคุม:

142

143- สถานะปัจจุบัน

144- แผนแก้ไขได้

145- ผลิตสิ่งประดิษฐ์

146- ความแตกต่าง;

147- คำขออนุมัติ

148- ลำดับเหตุการณ์;

149- ปุ่มหยุด;

150- ปุ่มลองอีกครั้ง;

151- สิทธิ์ที่มองเห็นได้

152

153It seems trivial, but it isn't. ความแตกต่างระหว่าง "AI ที่น่าขนลุก" และ "ผู้ช่วยที่เชื่อถือได้" มักจะเป็นเพียงส่วนหลังที่แสดงให้คุณเห็นว่ามันอยู่ในมือตรงไหน

154

155## กองจิต

156

157ถ้าผมจะวาดมันวันนี้ จำนวนตัวแทนขั้นต่ำจะเป็นดังนี้:

158

1591. โมเดล: การใช้เหตุผล การสร้าง การเรียกใช้เครื่องมือ ต่อเนื่องหลายรูปแบบ หากจำเป็น

1602. การเรียบเรียง: วนซ้ำ ขั้นตอน ผู้วางแผน นโยบาย มนุษย์ในวง

1613. รันไทม์ที่คงทน: เวิร์กโฟลว์ คิว ลองใหม่ หยุดชั่วคราว ดำเนินการต่อ

1624. Sandbox: code execution, isolated file system, limitations, artifacts.

1635. เลเยอร์เครื่องมือ: MCP, API ภายใน, เบราว์เซอร์, ฐานข้อมูล, พื้นที่เก็บข้อมูล

1646. ชั้นข้อมูลประจำตัว: OAuth ขอบเขต ความลับ การตรวจสอบ นโยบาย

1657. ชั้นหน่วยความจำ: บริบทของโปรเจ็กต์ การดึงข้อมูล คำแนะนำ การหมดอายุ

1668. ความสามารถในการสังเกต: ติดตาม เล่นซ้ำ ประเมิน ต้นทุน และตัวชี้วัดคุณภาพ

1679. พื้นผิวของผลิตภัณฑ์: แชทเมื่อเพียงพอ แดชบอร์ดเมื่อจำเป็น ตรวจสอบเมื่อมีความสำคัญ

168

169Agentic Framework ครอบคลุมจุดที่ 2 และจุดที่ 1 เป็นหลัก ส่วนที่เหลือเป็นงานจริง

170

171## สิ่งที่ผมจะทำในทางปฏิบัติ

172

173หากทีมบอกฉันว่า “เราต้องการตัวแทนในการผลิต” ฉันจะไม่เริ่มต้นด้วยตัวแทนสิบคน

174

175ฉันจะเริ่มต้นด้วยขั้นตอนการทำงานเล็กๆ ซ้ำๆ และสังเกตได้ ตัวอย่างเช่น: ประชาสัมพันธ์การบำรุงรักษาแบบเปิด อัปเดตเอกสารจากปัญหาที่ปิดไปแล้ว เตรียมการตรวจสอบรายสัปดาห์ คัดแยกข้อบกพร่องที่ซ้ำกัน สร้างการทดสอบสำหรับไฟล์ที่ได้รับผลกระทบ

176

177จากนั้นฉันจะกำหนดขอบเขตที่ชัดเจนมาก:

178

179- ห้ามเขียนโดยไม่มีสาขาหรือแซนด์บ็อกซ์

180- ไม่มีความลับในพรอมต์;

181- เครื่องมือในรายการที่อนุญาต

182- การอนุมัติของมนุษย์สำหรับการกระทำภายนอก

183- บันทึกและการติดตามที่จำเป็น

184- งบประมาณต่อการวิ่ง;

185- สามารถตรวจสอบเอาต์พุตได้เสมอ

186

187เมื่อนั้นฉันก็จะขยาย

188

189เจ้าหน้าที่ไม่ได้ล้มเหลวเพียงเพราะโมเดลเข้าใจผิด พวกเขาล้มเหลวเพราะเราวางมันไว้ในสภาพแวดล้อมที่คลุมเครือ พร้อมด้วยสิทธิ์ที่ทำให้เกิดความสับสนและความคาดหวังในการแสดงละคร

190

191## การอ่านของฉัน

192

193โครงสร้างพื้นฐานเอเจนต์น่าเบื่อในวิธีที่ดีที่สุด

194

195ไม่ใช่ส่วนที่ทำให้คุณปรบมือในการสาธิต เป็นส่วนที่ให้คุณใช้การสาธิตในเช้าวันจันทร์กับคนจริง ข้อมูลจริง และผลลัพธ์ที่แท้จริง

196

197อนาคตของตัวแทนไม่ได้ถูกกำหนดโดยใครมีแบบอย่างที่ดีที่สุดเท่านั้น ใครก็ตามที่สร้างสถานที่ที่ดีที่สุดเพื่อให้เขาทำงานจะถูกตัดสินใจ โดยโดดเดี่ยวเมื่อเขาทำการทดลอง เชื่อมต่อเมื่อจำเป็น สังเกตได้เสมอ ได้รับอนุญาตตามหลักเกณฑ์ และถ่อมตัวพอที่จะหยุดเมื่อเขาไม่รู้

198

199นั่นคือสิ่งที่ตัวแทนเลิกเป็นของเล่นและกลายเป็นโครงสร้างพื้นฐาน

200

201## แหล่งที่มา

202

203- [Vercel: วิธีสร้างตัวแทน AI ด้วย Vercel และ AI SDK](https://vercel.com/kb/guide/how-to-build-ai-agents-with-vercel-and-the-ai-sdk)

204- [เอกสาร Vercel: แซนด์บ็อกซ์](https://vercel.com/docs/sandbox)

205- [Vercel Docs: การทำงานกับ Sandbox](https://vercel.com/docs/sandbox/working-with-sandbox)

206- [เอกสาร Vercel: MCP](https://vercel.com/docs/mcp)

207- [Model Context Protocol: ข้อมูลจำเพาะ](https://modelcontextprotocol.io/speciation)

208- [OpenAI: เครื่องมือใหม่สำหรับตัวแทนการสร้าง](https://openai.com/index/new-tools-for-building-agents/)

209- [บล็อก Cloudflare: ตัวแทนบน Cloudflare](https://blog.cloudflare.com/agents-on-cloudflare/)

210