התשתית הסוכנת והגב הקצה החדש

spinny:~/writing $ less agentic-infrastructure-stack.md

1 
2דיברנו לא פעם על מסגרות אגנטיות. LangGraph, CrewAI, AutoGen, SDK שונים, לולאה, קריאת כלים, זיכרון, מתכנן, מבקר, מפקח. כל המילים שימושיות, חלילה. אבל ככל שאני מסתכל יותר על הסוכנים שבהם נעשה שימוש בפועל, כך נראה לי שהחלק המעניין עבר מתחת לרמת המסגרת.
3 
4השאלה היא כבר לא רק: באיזו ספרייה אני משתמש כדי לגרום למודל צעד לחשוב?
5 
6השאלה האמיתית היא: איפה הסוכן הזה חי כשהוא מפסיק להיות הדגמה?
7 
8כי סוכן רציני הוא לא פונקציה שקוראת למודל ומחזירה טקסט. זו מערכת מבוזרת קטנה. עליו לקרוא את ההקשר, להשתמש בכלים, להפעיל קוד, לגעת בקבצים, לזכור החלטות, לבקש רשות, להיכשל היטב, להפעיל מחדש, להשאיר יומנים, לא לשרוף את התקציב ולא להפוך לדחפור בתוך מאגר הייצור.
9 
10המסגרת היא גלגל ההגה. התשתית היא הכביש, הבלמים, המוסך, הביטוח והאדם שיודע היכן המפתחות.
11 
12## כי יש הרבה דיבורים על זה עכשיו
13 
14ב-2023 וב-2024 השיחה הייתה מאוד ממוקדת מודל. איזה LLM? כמה הקשר? כמה זה עולה? כמה הוא טוב בתכנות?
15 
16ב-2025 וב-2026 השיחה השתנתה. המודלים טובים מספיק כדי לעשות עבודה אמיתית, אבל זו הסיבה שהסיביות המשעממות הופכות לגלויות: זמן ריצה, אבטחה, מחברים, זהות, צפייה, ביצוע קוד, פריסה, החזרה.
17 
18זה המעבר הטבעי מקסם להנדסה.
19 
20כאשר סוכן רק צריך ליצור תגובה, די בצ'אט. כאשר אתה צריך לפתוח בקשת משיכה, לבצע שאילתות במסד נתונים, להתקשר ל-CRM, להתחיל עבודה, לנווט באתר, לקרוא Slack, להדר קוד ולעדכן מסמך, אתה צריך מערכת הפעלה סביב זה.
21 
22לא במובן המילולי. במובן ארגוני.
23 
24## היצירה הראשונה: זמן ריצה שבו הסוכן יכול להחזיק מעמד
25 
26סוכן לרוב עובד בשלבים. הסתכל על המצב, בחר פעולה, השתמש בכלי, התבונן בתוצאה, עדכן את התוכנית, חזור.
27 
28אם הלולאה הזו נמצאת בתוך בקשת HTTP בודדת, יש לך מיד בעיה. חלק מהפעולות איטיות. חלקם ממתינים לקלט אנושי. חלק נכשלים וחייבים לנסות אותם שוב. חלקם חייבים לשרוד פריסה או פסק זמן.
29 
30כאן נכנסים לתמונה זרימות עבודה עמידות, תורים, רקע עבודה ומכונות מדינה. הם לא זוהרים, אבל הם ההבדל בין סוכן שנראה חכם בהדגמה לבין אחד שאתה יכול להשאיר לעבוד בזמן שאתה הולך לשתות קפה.
31 
32עבורי זמן הריצה הסוכן חייב לענות על שאלות מאוד קונקרטיות:
33 
34- איפה אני שומר את המדינה בין צעד אחד למשנהו?
35- מה קורה אם התהליך מת באמצע?
36- האם אני יכול לעצור ולבקש אישור?
37- האם אני יכול לשחזר ריצה כדי להבין למה הוא בחר את הבחירה הזו?
38- האם אני יכול להגביל את משך הזמן, הזיכרון, הכלים והעלות?
39 
40Vercel דוחפת חזק בחזית זו עם SDK של AI, פונקציות, זרימות עבודה וכלים לבניית סוכנים בתוך יישומי אינטרנט. אבל הנקודה היא לא רק ורצל. העניין הוא שהסוכן צריך בית תפעולי, לא נקודת קצה אחת.
41 
42## החלק השני: ארגז חול, כי הסוכן חייב להיות מסוגל להתלכלך מבלי להישבר
43 
44ברגע שסוכן כותב קוד או מבצע פקודות, יש צורך בארגז חול.
45 
46זה נראה כמו מילה טכנית, אבל הרעיון הוא ביתי: אתה נותן לו שולחן עבודה. זה יכול לפתוח קבצים, להתקין תלות, להריץ בדיקות, לעשות ניסויים, לייצר פלט. אם הוא טועה, עצרת את הנזק. אם זה עובד, קדם את התוצאה.
47 
48ארגז חול סוכן צריך להיות בעל כמה מאפיינים:
49 
50- מערכת קבצים מבודדת;
51- מעבד, זיכרון ומגבלות זמן;
52- רשת מבוקרת;
53- סודות רכובים רק בעת הצורך;
54- יומנים מלאים;
55- אפשרות לייצא חפצים;
56- איפוס נקי בין ריצות, בעת הצורך.
57 
58Vercel Sandbox הולך בדיוק בכיוון הזה: סביבות מבודדות להרצת קוד, התקנת תלות, עבודה עם קבצים ויצירת חפצים מבלי להפעיל הכל בזמן הריצה של האפליקציה הראשית.
59 
60הדבר הזה חשוב יותר ממה שהוא נראה. אבות טיפוס סוכן רבים קופצים ישירות מהמודל למערכת האמיתית. המודל יכול לקרוא לכלי. כלים יכולים לעשות דברים. הכל נראה אלגנטי עד הפקודה השגויה הראשונה, התלות הראשונה המותקנת במקום הלא נכון, האסימון הראשון שמסתיים ביומן.
61 
62ארגז החול הוא הדרך הבוגרת לומר: קדימה, אבל כאן.
63 
64## החלק השלישי: MCP ובעיית המחבר
65 
66פרוטוקול ההקשר של המודל הפך לאחד החלקים המעניינים ביותר של המערכת האקולוגית מכיוון שהוא מנסה לתקן משהו שאחרת הופך במהירות לבלתי ניתן לניהול: איך מודל מגלה ומשתמש בכלים חיצוניים.
67 
68ללא תקן, כל אינטגרציה היא אי קטן. מחבר עבור GitHub נעשה בצורה אחת, אחד עבור Slack נעשה אחר, אחד עבור מסדי נתונים עם סמנטיקה שונה, אחד עבור אוטומציה של דפדפן שלא נראה כמו כלום.
69 
70MCP מציע שפה משותפת בין הלקוח לשרת: כלים, משאבים, הנחיות, הרשאות, תחבורה, גילוי. זה לא פותר קסם ממשל ואבטחה, אבל זה נותן דקדוק.
71 
72והדקדוק חשוב. כאשר סוכן יכול להתחבר לכלים רבים, השאלה היא לא רק "האם הוא יכול לעשות את זה?". הבעיה היא "האם הוא מבין מה הוא יכול לעשות, באילו גבולות, בשם מי, ומשאיר איזה עקבות?".
73 
74עבורי MCP אינו הייפ כי הוא "עושה קריאת כלים". כבר עשינו את זה. זה הייפ מכיוון שהוא מעביר את מרכז הכובד מאינטגרציה יחידה לקטלוג הכלים התפעולי.
75 
76בארכיטקטורה סוכן טובה, MCP הופך לסוג של פאנל תיקונים:
77 
78- GitHub עבור קוד ובעיות;
79- רפיון עבור הקשר שיחה;
80- ליניארי או Jira לעבודה מתוכננת;
81- מסד נתונים לקריאה בלבד לניתוח;
82- דפדפן או מגרד נשלט עבור אתרים חיצוניים;
83- אחסון מסמכים;
84- סביבות ביצוע מבודדות;
85- מערכות פנימיות חשופות עם הרשאות קפדניות.
86 
87החלק המסובך הוא שקטלוג כלים נטול מדיניות הוא רק דרך אלגנטית יותר ליצור כאוס.
88 
89## היצירה הרביעית: זהות והרשאות
90 
91זה האזור שבו הדגמות רבות מעלימים עין.
92 
93סוכן פועל בשמו של מישהו. אז חייב להיות ברור מי נושא הפעולה.
94 
95האם זה משתמש בהרשאות משתמש? של חשבון שירות? של חלל עבודה? האם יש לך גישה זמנית או קבועה? האם אתה יכול לקרוא הכל או רק כמה משאבים? אתה יכול לכתוב? אפשר לבטל? האם הוא יכול לשלוח הודעות טקסט לאנשים אמיתיים?
96 
97אם לא תענה טוב על השאלות האלה, במוקדם או במאוחר תבנה עוזר עם מפתחות לבית וללא זיכרון מי נתן לו.
98 
99כלל האצבע שאני אוהב הוא זה: הסוכן חייב להיות מסוגל לעשות פחות מהאדם, לא יותר מהאדם. וכאשר הוא צריך לעשות משהו מסוכן יותר, הוא צריך לעצור ולשאול.
100 
101המשמעות היא OAuth, היקף אסימון, ניהול סודי, יומן ביקורת, מדיניות כלים, רשימת היתרים, שלב אישור. דברים לא רומנטיים במיוחד. דברים הכרחיים.
102 
103## היצירה החמישית: זיכרון והקשר, אך ללא צבירת זבל
104 
105סוכנים צריכים זיכרון, אבל זיכרון מסוכן כשהוא הופך לעליית גג.
106 
107ישנם לפחות שלושה סוגי זיכרון:
108 
109- הפעלת זיכרון: מה קרה בביצוע הזה;
110- זיכרון פרויקט: מוסכמות, החלטות, אילוצים;
111- זיכרון אישי או צוותי: העדפות, טון, טקסים, תהליכים.
112 
113לשים הכל בהנחיה זה קיצור הדרך. זה עובד עד שזה לא עובד יותר. יש לדאוג לזיכרון שימושי: לאינדקס, לעדכן, פג תוקף, לאמת, להפוך לציטוט.
114 
115סוכן שזוכר רע גרוע יותר מסוכן שלא זוכר. כי הוא מדבר בביטחון.
116 
117לכן התשתית חייבת לכלול שליפה, קבצי הוראות, בסיס ידע, הטמעה בעת הצורך, אך גם ניקיון. אנחנו צריכים תרבות של זיכרון: מה נכנס, מי מאשר, מתי הוא מתפורר, איך אני מתקן את זה.
118 
119## היצירה השישית: צפייה, eval ושידור חוזר
120 
121אם סוכן עושה טעות, יומן "נקרא למודל" אינו מספיק.
122 
123אתה רוצה לראות את המסלול. איזה הקשר הוא קיבל? אילו כלים היו זמינים? באיזה כלי בחרת? עם איזה טיעונים? איזו תגובה קיבלת? כמה זה עלה? איפה זה נתקע? האם האדם אישר משהו? האם מודל השגיאה, הכלי, ההנחיה, הנתונים או ההרשאה שגיאה?
124 
125כאן הסוכנים דומים יותר למערכות מבוזרות מאשר לצ'אטבוטים.
126 
127אתה צריך עקבות קריא, לא רק יומני טקסט. אתה צריך להיות מסוגל לחזור על ריצה. יש צורך להשוות שתי גרסאות של אותו סוכן במשימות ידועות. אנחנו צריכים למדוד רגרסיות: לא רק שהוא "עונה טוב יותר", אלא שהוא "סוגר את הכרטיס הנכון מבלי לגעת בקבצים לא רצויים".
128 
129הסתייגויות סוכניות קשות יותר מהשבחות טקסט מכיוון שהן כוללות פעולות. לא מספיק להשוות מחרוזת צפויה. אתה צריך להסתכל על רצפים, תופעות לוואי, איכות החפץ, זמן, עלות, מספר התערבויות אנושיות.
130 
131הדבר המצחיק הוא שאנחנו תמיד חוזרים לשם: הנדסת תוכנה. בדיקות, סביבות, עקבות, חזרה לאחור. אלא שהקוד מחליט כעת גם מה לעשות הלאה.
132 
133## היצירה השביעית: ממשקים אנושיים
134 
135הסוכן לא צריך לחיות רק בצ'אט.
136 
137יש סוכנים שצריכים לוח. אחרים עמוד עם סטטוס ויומן. אחרים של כפתור "אישור". עוד הערות מוטבעות. עוד אחרים של CLI.
138 
139ממשק המשתמש משנה התנהגות. אם הדרך היחידה לשלוט בסוכן היא לכתוב הודעה ארוכה, המשתמש ייתן לסוכן הוראות מעורפלות. עם זאת, אם הוא רואה את התוכנית, ההבדל, המקורות, הסיכונים והפעולה הבאה, הוא יכול להתערב במדויק.
140 
141תשתית סוכנים הגונה כוללת משטחי בקרה:
142 
143- מצב נוכחי;
144- תוכנית הניתנת לעריכה;
145- חפצי אמנות מיוצרים;
146- הבדל;
147- בקשות אישור;
148- כרונולוגיה;
149- כפתור עצירה;
150- כפתור ניסיון חוזר;
151- הרשאות גלויות.
152 
153זה נראה טריוויאלי, אבל זה לא. ההבדל בין "AI מצמרר" ל"עוזר אמין" הוא לרוב רק שהאחרון מראה לך היכן יש לו ידיים.
154 
155## המחסנית המנטאלית
156 
157אם הייתי מצייר את זה היום, ערימת הסוכן המינימלית תהיה כזו:
158 
1591. מודל: הגיון, דור, קריאת כלי, מולטימודאלי במידת הצורך.
1602. תזמור: לולאה, שלב, מתכנן, מדיניות, אנושי-בלולאה.
1613. זמן ריצה עמיד: זרימת עבודה, תור, ניסיון חוזר, השהה, המשך.
1624. ארגז חול: ביצוע קוד, מערכת קבצים מבודדת, מגבלות, חפצים.
1635. שכבת כלי: MCP, API פנימי, דפדפן, מסד נתונים, מאגר.
1646. שכבת זהות: OAuth, scope, סוד, ביקורת, מדיניות.
1657. שכבת זיכרון: הקשר פרויקט, שליפה, הוראות, תפוגה.
1668. צפיות: מדדי מעקב, שידור חוזר, הערכה, עלות ואיכות.
1679. משטח מוצר: צ'אט כשמספיק, לוח מחוונים כשצריך, סקירה כשזה חשוב.
168 
169המסגרת האגנית מכסה בעיקר את נקודות 2 וחלק מנקודה 1. השאר הוא העבודה האמיתית.
170 
171## מה הייתי עושה בפועל
172 
173אם צוות היה אומר לי "אנחנו רוצים סוכנים בהפקה", לא הייתי מתחיל עם עשרה סוכנים.
174 
175הייתי מתחיל עם זרימת עבודה קטנה, שחוזרת על עצמה וניתנת לצפייה. לדוגמה: יחסי ציבור פתוחים לתחזוקה, עדכון תיעוד מבעיות סגורות, הכנת סקירה שבועית, בדיקת באגים כפולים, הפקת בדיקות לקבצים המושפעים.
176 
177אז הייתי מציב גבולות מאוד ברורים:
178 
179- אין כתיבה ללא ענפים או ארגז חול;
180- אין סודות בהנחיה;
181- כלים ברשימת ההיתרים;
182- אישור אנושי לפעולות חיצוניות;
183- יומן ומעקב חובה;
184- תקציב לכל ריצה;
185- פלט תמיד ניתן לבדיקה.
186 
187רק אז ארחיב.
188 
189סוכנים לא נכשלים רק בגלל שהדוגמניות טועים. הם נכשלים כי אנחנו שמים אותם בסביבות מעורפלות, עם הרשאות מבלבלות וציפיות תיאטרליות.
190 
191## הקריאה שלי
192 
193תשתית סוכן משעממת בצורה הטובה ביותר.
194 
195זה לא החלק שגורם לך למחוא כפיים בהדגמה. זה החלק שמאפשר לך להשתמש בהדגמה ביום שני בבוקר, עם אנשים אמיתיים, נתונים אמיתיים והשלכות אמיתיות.
196 
197עתיד הסוכנים לא יוכרע רק על ידי מי יש את המודל הטוב ביותר לחיקוי. זה יוכרע על ידי מי שיבנה את המקום הטוב ביותר לגרום לו לעבוד בו: מבודד כשהוא מתנסה, מחובר כשצריך, תמיד ניתן לצפייה, מורשה עם קריטריונים וצנוע מספיק להפסיק כשהוא לא יודע.
198 
199שם סוכנים מפסיקים להיות צעצוע והופכים לתשתית.
200 
201## מקורות
202 
203- [Vercel: כיצד לבנות סוכני AI עם Vercel ו-AI SDK](https://vercel.com/kb/guide/how-to-build-ai-agents-with-vercel-and-the-ai-sdk)
204- [Vercel Docs: Sandbox](https://vercel.com/docs/sandbox)
205- [Vercel Docs: Working with Sandbox](https://vercel.com/docs/sandbox/working-with-sandbox)
206- [Vercel Docs: MCP](https://vercel.com/docs/mcp)
207- [Protocol Context Model: Specification](https://modelcontextprotocol.io/specification)
208- [OpenAI: כלים חדשים לסוכני בנייה](https://openai.com/index/new-tools-for-building-agents/)
209- [בלוג Cloudflare: סוכנים ב-Cloudflare](https://blog.cloudflare.com/agents-on-cloudflare/)
210

:התשתית הסוכנת והגב הקצה החדשlines 1-210 (END) — press q to close

2דיברנו לא פעם על מסגרות אגנטיות. LangGraph, CrewAI, AutoGen, SDK שונים, לולאה, קריאת כלים, זיכרון, מתכנן, מבקר, מפקח. כל המילים שימושיות, חלילה. אבל ככל שאני מסתכל יותר על הסוכנים שבהם נעשה שימוש בפועל, כך נראה לי שהחלק המעניין עבר מתחת לרמת המסגרת.

4השאלה היא כבר לא רק: באיזו ספרייה אני משתמש כדי לגרום למודל צעד לחשוב?

6השאלה האמיתית היא: איפה הסוכן הזה חי כשהוא מפסיק להיות הדגמה?

8כי סוכן רציני הוא לא פונקציה שקוראת למודל ומחזירה טקסט. זו מערכת מבוזרת קטנה. עליו לקרוא את ההקשר, להשתמש בכלים, להפעיל קוד, לגעת בקבצים, לזכור החלטות, לבקש רשות, להיכשל היטב, להפעיל מחדש, להשאיר יומנים, לא לשרוף את התקציב ולא להפוך לדחפור בתוך מאגר הייצור.

10המסגרת היא גלגל ההגה. התשתית היא הכביש, הבלמים, המוסך, הביטוח והאדם שיודע היכן המפתחות.

12## כי יש הרבה דיבורים על זה עכשיו

14ב-2023 וב-2024 השיחה הייתה מאוד ממוקדת מודל. איזה LLM? כמה הקשר? כמה זה עולה? כמה הוא טוב בתכנות?

16ב-2025 וב-2026 השיחה השתנתה. המודלים טובים מספיק כדי לעשות עבודה אמיתית, אבל זו הסיבה שהסיביות המשעממות הופכות לגלויות: זמן ריצה, אבטחה, מחברים, זהות, צפייה, ביצוע קוד, פריסה, החזרה.

18זה המעבר הטבעי מקסם להנדסה.

20כאשר סוכן רק צריך ליצור תגובה, די בצ'אט. כאשר אתה צריך לפתוח בקשת משיכה, לבצע שאילתות במסד נתונים, להתקשר ל-CRM, להתחיל עבודה, לנווט באתר, לקרוא Slack, להדר קוד ולעדכן מסמך, אתה צריך מערכת הפעלה סביב זה.

22לא במובן המילולי. במובן ארגוני.

24## היצירה הראשונה: זמן ריצה שבו הסוכן יכול להחזיק מעמד

26סוכן לרוב עובד בשלבים. הסתכל על המצב, בחר פעולה, השתמש בכלי, התבונן בתוצאה, עדכן את התוכנית, חזור.

28אם הלולאה הזו נמצאת בתוך בקשת HTTP בודדת, יש לך מיד בעיה. חלק מהפעולות איטיות. חלקם ממתינים לקלט אנושי. חלק נכשלים וחייבים לנסות אותם שוב. חלקם חייבים לשרוד פריסה או פסק זמן.

30כאן נכנסים לתמונה זרימות עבודה עמידות, תורים, רקע עבודה ומכונות מדינה. הם לא זוהרים, אבל הם ההבדל בין סוכן שנראה חכם בהדגמה לבין אחד שאתה יכול להשאיר לעבוד בזמן שאתה הולך לשתות קפה.

32עבורי זמן הריצה הסוכן חייב לענות על שאלות מאוד קונקרטיות:

34- איפה אני שומר את המדינה בין צעד אחד למשנהו?

35- מה קורה אם התהליך מת באמצע?

36- האם אני יכול לעצור ולבקש אישור?

37- האם אני יכול לשחזר ריצה כדי להבין למה הוא בחר את הבחירה הזו?

38- האם אני יכול להגביל את משך הזמן, הזיכרון, הכלים והעלות?

40Vercel דוחפת חזק בחזית זו עם SDK של AI, פונקציות, זרימות עבודה וכלים לבניית סוכנים בתוך יישומי אינטרנט. אבל הנקודה היא לא רק ורצל. העניין הוא שהסוכן צריך בית תפעולי, לא נקודת קצה אחת.

42## החלק השני: ארגז חול, כי הסוכן חייב להיות מסוגל להתלכלך מבלי להישבר

44ברגע שסוכן כותב קוד או מבצע פקודות, יש צורך בארגז חול.

46זה נראה כמו מילה טכנית, אבל הרעיון הוא ביתי: אתה נותן לו שולחן עבודה. זה יכול לפתוח קבצים, להתקין תלות, להריץ בדיקות, לעשות ניסויים, לייצר פלט. אם הוא טועה, עצרת את הנזק. אם זה עובד, קדם את התוצאה.

48ארגז חול סוכן צריך להיות בעל כמה מאפיינים:

50- מערכת קבצים מבודדת;

51- מעבד, זיכרון ומגבלות זמן;

52- רשת מבוקרת;

53- סודות רכובים רק בעת הצורך;

54- יומנים מלאים;

55- אפשרות לייצא חפצים;

56- איפוס נקי בין ריצות, בעת הצורך.

58Vercel Sandbox הולך בדיוק בכיוון הזה: סביבות מבודדות להרצת קוד, התקנת תלות, עבודה עם קבצים ויצירת חפצים מבלי להפעיל הכל בזמן הריצה של האפליקציה הראשית.

60הדבר הזה חשוב יותר ממה שהוא נראה. אבות טיפוס סוכן רבים קופצים ישירות מהמודל למערכת האמיתית. המודל יכול לקרוא לכלי. כלים יכולים לעשות דברים. הכל נראה אלגנטי עד הפקודה השגויה הראשונה, התלות הראשונה המותקנת במקום הלא נכון, האסימון הראשון שמסתיים ביומן.

62ארגז החול הוא הדרך הבוגרת לומר: קדימה, אבל כאן.

64## החלק השלישי: MCP ובעיית המחבר

66פרוטוקול ההקשר של המודל הפך לאחד החלקים המעניינים ביותר של המערכת האקולוגית מכיוון שהוא מנסה לתקן משהו שאחרת הופך במהירות לבלתי ניתן לניהול: איך מודל מגלה ומשתמש בכלים חיצוניים.

68ללא תקן, כל אינטגרציה היא אי קטן. מחבר עבור GitHub נעשה בצורה אחת, אחד עבור Slack נעשה אחר, אחד עבור מסדי נתונים עם סמנטיקה שונה, אחד עבור אוטומציה של דפדפן שלא נראה כמו כלום.

70MCP מציע שפה משותפת בין הלקוח לשרת: כלים, משאבים, הנחיות, הרשאות, תחבורה, גילוי. זה לא פותר קסם ממשל ואבטחה, אבל זה נותן דקדוק.

72והדקדוק חשוב. כאשר סוכן יכול להתחבר לכלים רבים, השאלה היא לא רק "האם הוא יכול לעשות את זה?". הבעיה היא "האם הוא מבין מה הוא יכול לעשות, באילו גבולות, בשם מי, ומשאיר איזה עקבות?".

74עבורי MCP אינו הייפ כי הוא "עושה קריאת כלים". כבר עשינו את זה. זה הייפ מכיוון שהוא מעביר את מרכז הכובד מאינטגרציה יחידה לקטלוג הכלים התפעולי.

76בארכיטקטורה סוכן טובה, MCP הופך לסוג של פאנל תיקונים:

78- GitHub עבור קוד ובעיות;

79- רפיון עבור הקשר שיחה;

80- ליניארי או Jira לעבודה מתוכננת;

81- מסד נתונים לקריאה בלבד לניתוח;

82- דפדפן או מגרד נשלט עבור אתרים חיצוניים;

83- אחסון מסמכים;

84- סביבות ביצוע מבודדות;

85- מערכות פנימיות חשופות עם הרשאות קפדניות.

87החלק המסובך הוא שקטלוג כלים נטול מדיניות הוא רק דרך אלגנטית יותר ליצור כאוס.

89## היצירה הרביעית: זהות והרשאות

91זה האזור שבו הדגמות רבות מעלימים עין.

93סוכן פועל בשמו של מישהו. אז חייב להיות ברור מי נושא הפעולה.

95האם זה משתמש בהרשאות משתמש? של חשבון שירות? של חלל עבודה? האם יש לך גישה זמנית או קבועה? האם אתה יכול לקרוא הכל או רק כמה משאבים? אתה יכול לכתוב? אפשר לבטל? האם הוא יכול לשלוח הודעות טקסט לאנשים אמיתיים?

97אם לא תענה טוב על השאלות האלה, במוקדם או במאוחר תבנה עוזר עם מפתחות לבית וללא זיכרון מי נתן לו.

99כלל האצבע שאני אוהב הוא זה: הסוכן חייב להיות מסוגל לעשות פחות מהאדם, לא יותר מהאדם. וכאשר הוא צריך לעשות משהו מסוכן יותר, הוא צריך לעצור ולשאול.

100

101המשמעות היא OAuth, היקף אסימון, ניהול סודי, יומן ביקורת, מדיניות כלים, רשימת היתרים, שלב אישור. דברים לא רומנטיים במיוחד. דברים הכרחיים.

102

103## היצירה החמישית: זיכרון והקשר, אך ללא צבירת זבל

104

105סוכנים צריכים זיכרון, אבל זיכרון מסוכן כשהוא הופך לעליית גג.

106

107ישנם לפחות שלושה סוגי זיכרון:

108

109- הפעלת זיכרון: מה קרה בביצוע הזה;

110- זיכרון פרויקט: מוסכמות, החלטות, אילוצים;

111- זיכרון אישי או צוותי: העדפות, טון, טקסים, תהליכים.

112

113לשים הכל בהנחיה זה קיצור הדרך. זה עובד עד שזה לא עובד יותר. יש לדאוג לזיכרון שימושי: לאינדקס, לעדכן, פג תוקף, לאמת, להפוך לציטוט.

114

115סוכן שזוכר רע גרוע יותר מסוכן שלא זוכר. כי הוא מדבר בביטחון.

116

117לכן התשתית חייבת לכלול שליפה, קבצי הוראות, בסיס ידע, הטמעה בעת הצורך, אך גם ניקיון. אנחנו צריכים תרבות של זיכרון: מה נכנס, מי מאשר, מתי הוא מתפורר, איך אני מתקן את זה.

118

119## היצירה השישית: צפייה, eval ושידור חוזר

120

121אם סוכן עושה טעות, יומן "נקרא למודל" אינו מספיק.

122

123אתה רוצה לראות את המסלול. איזה הקשר הוא קיבל? אילו כלים היו זמינים? באיזה כלי בחרת? עם איזה טיעונים? איזו תגובה קיבלת? כמה זה עלה? איפה זה נתקע? האם האדם אישר משהו? האם מודל השגיאה, הכלי, ההנחיה, הנתונים או ההרשאה שגיאה?

124

125כאן הסוכנים דומים יותר למערכות מבוזרות מאשר לצ'אטבוטים.

126

127אתה צריך עקבות קריא, לא רק יומני טקסט. אתה צריך להיות מסוגל לחזור על ריצה. יש צורך להשוות שתי גרסאות של אותו סוכן במשימות ידועות. אנחנו צריכים למדוד רגרסיות: לא רק שהוא "עונה טוב יותר", אלא שהוא "סוגר את הכרטיס הנכון מבלי לגעת בקבצים לא רצויים".

128

129הסתייגויות סוכניות קשות יותר מהשבחות טקסט מכיוון שהן כוללות פעולות. לא מספיק להשוות מחרוזת צפויה. אתה צריך להסתכל על רצפים, תופעות לוואי, איכות החפץ, זמן, עלות, מספר התערבויות אנושיות.

130

131הדבר המצחיק הוא שאנחנו תמיד חוזרים לשם: הנדסת תוכנה. בדיקות, סביבות, עקבות, חזרה לאחור. אלא שהקוד מחליט כעת גם מה לעשות הלאה.

132

133## היצירה השביעית: ממשקים אנושיים

134

135הסוכן לא צריך לחיות רק בצ'אט.

136

137יש סוכנים שצריכים לוח. אחרים עמוד עם סטטוס ויומן. אחרים של כפתור "אישור". עוד הערות מוטבעות. עוד אחרים של CLI.

138

139ממשק המשתמש משנה התנהגות. אם הדרך היחידה לשלוט בסוכן היא לכתוב הודעה ארוכה, המשתמש ייתן לסוכן הוראות מעורפלות. עם זאת, אם הוא רואה את התוכנית, ההבדל, המקורות, הסיכונים והפעולה הבאה, הוא יכול להתערב במדויק.

140

141תשתית סוכנים הגונה כוללת משטחי בקרה:

142

143- מצב נוכחי;

144- תוכנית הניתנת לעריכה;

145- חפצי אמנות מיוצרים;

146- הבדל;

147- בקשות אישור;

148- כרונולוגיה;

149- כפתור עצירה;

150- כפתור ניסיון חוזר;

151- הרשאות גלויות.

152

153זה נראה טריוויאלי, אבל זה לא. ההבדל בין "AI מצמרר" ל"עוזר אמין" הוא לרוב רק שהאחרון מראה לך היכן יש לו ידיים.

154

155## המחסנית המנטאלית

156

157אם הייתי מצייר את זה היום, ערימת הסוכן המינימלית תהיה כזו:

158

1591. מודל: הגיון, דור, קריאת כלי, מולטימודאלי במידת הצורך.

1602. תזמור: לולאה, שלב, מתכנן, מדיניות, אנושי-בלולאה.

1613. זמן ריצה עמיד: זרימת עבודה, תור, ניסיון חוזר, השהה, המשך.

1624. ארגז חול: ביצוע קוד, מערכת קבצים מבודדת, מגבלות, חפצים.

1635. שכבת כלי: MCP, API פנימי, דפדפן, מסד נתונים, מאגר.

1646. שכבת זהות: OAuth, scope, סוד, ביקורת, מדיניות.

1657. שכבת זיכרון: הקשר פרויקט, שליפה, הוראות, תפוגה.

1668. צפיות: מדדי מעקב, שידור חוזר, הערכה, עלות ואיכות.

1679. משטח מוצר: צ'אט כשמספיק, לוח מחוונים כשצריך, סקירה כשזה חשוב.

168

169המסגרת האגנית מכסה בעיקר את נקודות 2 וחלק מנקודה 1. השאר הוא העבודה האמיתית.

170

171## מה הייתי עושה בפועל

172

173אם צוות היה אומר לי "אנחנו רוצים סוכנים בהפקה", לא הייתי מתחיל עם עשרה סוכנים.

174

175הייתי מתחיל עם זרימת עבודה קטנה, שחוזרת על עצמה וניתנת לצפייה. לדוגמה: יחסי ציבור פתוחים לתחזוקה, עדכון תיעוד מבעיות סגורות, הכנת סקירה שבועית, בדיקת באגים כפולים, הפקת בדיקות לקבצים המושפעים.

176

177אז הייתי מציב גבולות מאוד ברורים:

178

179- אין כתיבה ללא ענפים או ארגז חול;

180- אין סודות בהנחיה;

181- כלים ברשימת ההיתרים;

182- אישור אנושי לפעולות חיצוניות;

183- יומן ומעקב חובה;

184- תקציב לכל ריצה;

185- פלט תמיד ניתן לבדיקה.

186

187רק אז ארחיב.

188

189סוכנים לא נכשלים רק בגלל שהדוגמניות טועים. הם נכשלים כי אנחנו שמים אותם בסביבות מעורפלות, עם הרשאות מבלבלות וציפיות תיאטרליות.

190

191## הקריאה שלי

192

193תשתית סוכן משעממת בצורה הטובה ביותר.

194

195זה לא החלק שגורם לך למחוא כפיים בהדגמה. זה החלק שמאפשר לך להשתמש בהדגמה ביום שני בבוקר, עם אנשים אמיתיים, נתונים אמיתיים והשלכות אמיתיות.

196

197עתיד הסוכנים לא יוכרע רק על ידי מי יש את המודל הטוב ביותר לחיקוי. זה יוכרע על ידי מי שיבנה את המקום הטוב ביותר לגרום לו לעבוד בו: מבודד כשהוא מתנסה, מחובר כשצריך, תמיד ניתן לצפייה, מורשה עם קריטריונים וצנוע מספיק להפסיק כשהוא לא יודע.

198

199שם סוכנים מפסיקים להיות צעצוע והופכים לתשתית.

200

201## מקורות

202

203- [Vercel: כיצד לבנות סוכני AI עם Vercel ו-AI SDK](https://vercel.com/kb/guide/how-to-build-ai-agents-with-vercel-and-the-ai-sdk)

204- [Vercel Docs: Sandbox](https://vercel.com/docs/sandbox)

205- [Vercel Docs: Working with Sandbox](https://vercel.com/docs/sandbox/working-with-sandbox)

206- [Vercel Docs: MCP](https://vercel.com/docs/mcp)

207- [Protocol Context Model: Specification](https://modelcontextprotocol.io/specification)

208- [OpenAI: כלים חדשים לסוכני בנייה](https://openai.com/index/new-tools-for-building-agents/)

209- [בלוג Cloudflare: סוכנים ב-Cloudflare](https://blog.cloudflare.com/agents-on-cloudflare/)

210