Az ügynöki infrastruktúra és az új háttérrendszer
· 9 min read · Filippo Spinella · AI, Agents, Infrastructure, Developer Tools
Gyakran beszéltünk ügynöki keretekről. LangGraph, CrewAI, AutoGen, különféle SDK-k, ciklus, eszközhívás, memória, tervező, kritikus, felügyelő. Minden hasznos szó, az isten szerelmére. De minél többet nézem a ténylegesen használt ágenseket, annál inkább úgy tűnik számomra, hogy az érdekes rész a keretszint alá került.
A kérdés már nem csak az: melyik könyvtárat használjam egy lépésmodell gondolkodásra?
Az igazi kérdés az: hol él ez az ügynök, amikor már nem demo?
Mert egy komoly ügynök nem olyan függvény, amely modellt hív és szöveget ad vissza. Ez egy kis elosztott rendszer. Be kell olvasnia a környezetet, használnia kell az eszközöket, futtatnia kell a kódot, meg kell érintenie a fájlokat, emlékeznie kell a döntésekre, engedélyt kell kérnie, sikertelennek kell lennie, újra kell indítania, meg kell hagynia a naplókat, nem égetheti el a költségvetést, és nem változhat buldózerré a termelési tárolóban.
A keret a kormánykerék. Az infrastruktúra az út, a fékek, a garázs, a biztosítás és az ember, aki tudja, hol vannak a kulcsok.
Mert most sok szó esik róla
2023-ban és 2024-ben a beszélgetés nagyon modellközpontú volt. Melyik LLM? Mennyi kontextus? Mennyibe kerül? Mennyire ért a programozáshoz?
2025-ben és 2026-ban a beszélgetés eltolódott. A modellek elég jók a valódi munkához, de ezért válnak láthatóvá az unalmas részek: futásidő, biztonság, csatlakozók, identitás, megfigyelhetőség, kódvégrehajtás, telepítés, visszaállítás.
Ez a természetes átmenet a varázslatról a mérnöki pályára.
Ha egy ügynöknek csak választ kell generálnia, elég egy chat. Amikor meg kell nyitnia egy lekérést, le kell kérdeznie egy adatbázist, fel kell hívnia egy CRM-et, elindítani egy munkát, navigálnia kell egy webhelyen, olvasnia kell a Slacket, le kell fordítania a kódot és frissítenie kell egy dokumentumot, akkor operációs rendszerre van szüksége.
Nem szó szerinti értelemben. Szervezeti értelemben.
Az első darab: egy futási idő, ahol az ügynök kitart
Egy ügynök gyakran lépésekben dolgozik. Nézze meg az állapotot, válasszon egy műveletet, használjon eszközt, figyelje meg az eredményt, frissítse a tervet, ismételje meg.
Ha ez a hurok egyetlen HTTP-kérésben él, akkor azonnal problémába ütközik. Egyes műveletek lassúak. Néhányan emberi közreműködésre várnak. Néhányan kudarcot vallanak, és újra meg kell próbálni. Néhányuknak túl kell élniük a telepítést vagy az időtúllépést.
Itt jönnek képbe a tartós munkafolyamatok, sorok, munkaháttér és állapotgépek. Nem elbűvölőek, de ez jelenti a különbséget egy ügynök között, aki okosnak tűnik a bemutatón, és egy olyan ügynök között, akit otthagyhat a munkahelyén, miközben kávézni megy.
Számomra az ügynöki futtatókörnyezetnek nagyon konkrét kérdésekre kell válaszolnia:
- hol menthetem meg az államot egyik és másik lépés között?
- mi történik, ha a folyamat félúton elhal?
- megállhatok és jóváhagyást kérhetek?
- Lejátszhatom egy futást, hogy megértsem, miért döntött így?
- korlátozhatom az időtartamot, a memóriát, az eszközöket és a költségeket?
A Vercel keményen dolgozik ezen a területen az AI SDK-kkal, funkciókkal, munkafolyamatokkal és eszközökkel a webalkalmazásokon belüli ügynökök építéséhez. De a lényeg nem csak Vercel. A lényeg az, hogy az ügynöknek egy működő otthonra van szüksége, nem egyetlen végpontra.
A második darab: homokozó, mert az ügynöknek törés nélkül be kell szennyeződnie
Amint egy ügynök kódot ír vagy parancsokat hajt végre, szükség van egy homokozóra.
Szakszónak tűnik, de az ötlet hazai: adj neki egy munkapadot. Fájlokat nyithat meg, függőségeket telepíthet, teszteket futtathat, kísérleteket végezhet, kimenetet generálhat. Ha rosszul csinálja, megfékezte a kárt. Ha működik, népszerűsítse az eredményt.
Az ügynöki homokozónak rendelkeznie kell néhány tulajdonsággal:
- izolált fájlrendszer;
- CPU, memória és időkorlátok;
- vezérelt hálózat;
- a titkok csak szükség esetén rögzíthetők;
- teljes naplók;
- Lehetőség műtárgyak exportálására;
- Tiszta visszaállítás a futtatások között, ha szükséges.
A Vercel Sandbox pontosan ebbe az irányba megy: izolált környezetek kód futtatásához, függőségek telepítéséhez, fájlokkal való munkavégzéshez és melléktermékek előállításához anélkül, hogy mindent a fő alkalmazás futási környezetében futtatnának.
Ez a dolog fontosabb, mint amilyennek látszik. Sok ügynöki prototípus közvetlenül a modellből ugrik át a valós rendszerbe. A modell hívhat szerszámot. Az eszközök képesek tenni dolgokat. Minden elegánsnak tűnik az első rossz parancsig, az első rossz helyre telepített függőségig, az első tokenig, amely egy naplóba kerül.
A homokozó a felnőttek mondása: menj előre, de itt.
A harmadik darab: MCP és a csatlakozó probléma
A Model Context Protocol az ökoszisztéma egyik legérdekesebb részévé vált, mert megpróbál szabványosítani valamit, ami egyébként gyorsan kezelhetetlenné válik: azt, hogy egy modell hogyan fedezi fel és használja fel a külső eszközöket.
Szabvány nélkül minden egyes integráció egy kis sziget. Egy összekötő a GitHubhoz egyféleképpen készült, egy a Slackhez másként, egy a különböző szemantikával rendelkező adatbázisokhoz, egy a böngészőautomatizáláshoz, amely semminek tűnik.
Az MCP közös nyelvet javasol a kliens és a szerver között: eszközök, erőforrások, promptok, jogosultságok, szállítás, felfedezés. Nem varázsütésre oldja meg a kormányzást és a biztonságot, de nyelvtant ad.
És a nyelvtan számít. Amikor egy ügynök sok eszközhöz tud csatlakozni, a kérdés nem csak az, hogy „meg tudja csinálni?”. A probléma az, hogy "érti-e, mit tehet, milyen korlátokkal, kinek a nevében és milyen nyomot hagy maga után?".
Számomra az MCP nem hype, mert "szerszámhívást végez". Ezt már megtettük. Ez felhajtás, mert a súlypontot az egyszeri integrációról az operatív szerszámkatalógusra helyezi át.
Egy jó ügynöki architektúrában az MCP egyfajta patch panellé válik:
- GitHub kódhoz és problémákhoz;
- Laza a társalgási kontextushoz;
- Lineáris vagy Jira a tervezett munkához;
- csak olvasható adatbázis az elemzésekhez;
- külső oldalakhoz vezérelt böngésző vagy lehúzó;
- irattárolás;
- elszigetelt végrehajtási környezetek;
- szigorú engedélyekkel kitett belső rendszerek.
A trükkös rész az, hogy a politikamentes eszközkatalógus csak egy elegánsabb módja a káosz létrehozásának.
A negyedik darab: identitás és engedélyek
Ez az a terület, ahol sok demó hunyja a szemét.
Az ügynök valaki nevében jár el. Tehát világosnak kell lennie, hogy ki az akció alanya.
Felhasználói jogosultságokat használ? Egy szolgáltatási számláról? Egy munkaterületről? Van ideiglenes vagy állandó hozzáférése? Mindent el tud olvasni, vagy csak néhány forrást? Tudsz írni? Le tudod mondani? Tud valódi embereknek üzenni?
Ha nem válaszol jól ezekre a kérdésekre, előbb-utóbb épít egy asszisztenst a házkulcsokkal, és nem emlékszik arra, hogy ki adta neki azokat.
A hüvelykujjszabály, amit szeretek, a következő: az ügynöknek kevesebbre kell tudnia tenni, mint az ember, nem többet, mint az ember. És amikor valami kockázatosabb dolgot kell tennie, meg kell állnia és kérnie kell.
Ez azt jelenti, hogy OAuth, jogkivonat hatóköre, titkos kezelés, ellenőrzési napló, eszközházirend, engedélyezési lista, jóváhagyási lépés. Nem túl romantikus cucc. Szükséges cuccok.
Az ötödik darab: memória és kontextus, de szemét felhalmozása nélkül
Az ügynököknek szükségük van a memóriára, de a memória veszélyes, ha padlássá válik.
Legalább háromféle memória létezik:
- futási memória: mi történt ebben a végrehajtásban;
- projektmemória: konvenciók, döntések, megszorítások;
- személyes vagy csapat memória: preferenciák, hangnem, rituálék, folyamatok.
Ha mindent a promptba tesz, az a parancsikon. Addig működik, amíg már nem működik. A hasznos memóriáról gondoskodni kell: indexelve, frissítve, lejárt, ellenőrizve, idézhetővé kell tenni.
Egy ügynök, aki rosszul emlékszik, rosszabb, mint egy ügynök, aki nem emlékszik. Mert magabiztosan beszél.
Ezért az infrastruktúrának tartalmaznia kell visszakeresést, utasításfájlokat, tudásbázist, szükség esetén beágyazást, de a tisztítást is. Szükségünk van az emlékezés kultúrájára: mi lép be, ki hagyja jóvá, mikor bomlik, hogyan javítsam ki.
A hatodik darab: megfigyelhetőség, eval és újrajátszás
Ha egy ügynök hibát követ el, a "modellnek hívott" napló nem elegendő.
Látni akarja az útvonalat. Milyen kontextust kapott? Milyen eszközök álltak rendelkezésre? Melyik eszközt választottad? Milyen érvekkel? Milyen választ kaptál? Mennyibe került? Hol akadt el? Jóváhagyott valamit az ember? A hibamodell, eszköz, prompt, adat vagy engedély hiba?
Itt az ügynökök inkább elosztott rendszerek, mint chatbotok.
Olvasható nyomokra van szüksége, nem csak szövegnaplókra. Egy futást újra le kell tudni játszani. Össze kell hasonlítani ugyanazon ügynök két verzióját ismert feladatokon. Mérnünk kell a regressziókat: nemcsak "jobban válaszol", hanem "bezárja a megfelelő jegyet anélkül, hogy megérintené a kéretlen fájlokat".
Az ügynökértékelések nehezebbek, mint a szöveges értékelések, mert cselekvéseket tartalmaznak. Nem elég egy várt karakterlánc összehasonlítása. Meg kell nézni a szekvenciákat, a mellékhatásokat, a műtárgy minőségét, az időt, a költségeket, az emberi beavatkozások számát.
A vicces az, hogy mindig visszatérünk oda: szoftverfejlesztés. Tesztek, környezetek, nyomkövetések, visszagörgetések. Kivéve, hogy a kód most azt is eldönti, hogy mi legyen a következő lépés.
A hetedik darab: emberi interfészek
Az ügynöknek nem kell csak egy chatben élnie.
Néhány ügynöknek táblára van szüksége. Mások egy oldal állapottal és naplóval. Mások egy „jóváhagyás” gomb. További inline megjegyzések. Megint mások a CLI-ből.
A felhasználói felület megváltoztatja a viselkedést. Ha az ügynök irányításának egyetlen módja egy hosszú üzenet írása, a felhasználó homályos utasításokat ad az ügynöknek. Ha azonban látja a tervet, a különbséget, a forrásokat, a kockázatokat és a következő lépést, akkor pontosan beavatkozhat.
Egy tisztességes ügynök-infrastruktúra vezérlőfelületeket tartalmaz:
- jelenlegi állapot;
- szerkeszthető terv;
- előállított műtárgyak;
- diff;
- jóváhagyási kérelmek;
- kronológia;
- stop gomb;
- újrapróbálkozás gomb;
- látható engedélyek.
Triviálisnak tűnik, de nem az. A „hátborzongató AI” és a „megbízható asszisztens” közötti különbség gyakran csak az, hogy az utóbbi megmutatja, hol van a keze.
A mentális verem
Ha ma meghúznám, a minimális ügynökkészlet a következő lenne:
- Modell: érvelés, generálás, eszközhívás, szükség esetén multimodális.
- Hangszerelés: hurok, lépés, tervező, irányelv, ember a hurokban.
- Tartós futási idő: munkafolyamat, sor, újrapróbálkozás, szüneteltetés, folytatás.
- Sandbox: kódvégrehajtás, elszigetelt fájlrendszer, korlátozások, műtermékek.
- Eszközréteg: MCP, belső API, böngésző, adatbázis, repository.
- Identitásréteg: OAuth, hatókör, titkos, audit, házirend.
- Memóriaréteg: projektkörnyezet, visszakeresés, utasítások, lejárat.
- Megfigyelhetőség: nyomkövetési, visszajátszási, értékelési, költség- és minőségi mérőszámok.
- A termék felülete: csevegjen, amikor elég, irányítópult, ha szükséges, tekintse át, amikor fontos.
Az ügynöki keret főleg a 2. pontot és az 1. pont egy részét fedi le. A többi az igazi munka.
Mit tennék a gyakorlatban
Ha egy csapat azt mondaná nekem, hogy „ügynököket akarunk a termelésben”, nem kezdenék tíz ügynökkel.
Egy kicsi, ismétlődő és megfigyelhető munkafolyamattal kezdeném. Például: nyissa meg a karbantartási PR-eket, frissítse a lezárt problémákból származó dokumentációt, készítsen heti felülvizsgálatot, osztályozza a duplikált hibákat, készítsen teszteket az érintett fájlokhoz.
Akkor nagyon világos határokat szabnék:
- nincs írás ágak vagy homokozó nélkül;
- nincs titok a promptban;
- eszközök az engedélyezési listában;
- emberi jóváhagyás a külső tevékenységekhez;
- kötelező napló és nyomkövetés;
- futásonkénti költségvetés;
- a kimenet mindig ellenőrizhető.
Csak akkor bővíteném.
Az ügynökök nem csak azért buknak el, mert a modellek tévednek. Elbuknak, mert homályos környezetbe helyezzük őket, zavaros engedélyekkel és színházi elvárásokkal.
Olvasásom
Az ügynöki infrastruktúra a legjobb módon unalmas.
Nem ez a rész késztet tapsolni a demóban. Ez az a rész, amely lehetővé teszi a demó tényleges használatát hétfő reggel, valódi emberekkel, valós adatokkal és valós következményekkel.
Az ügynökök jövőjét nem csak az fogja eldönteni, hogy kinek van a legjobb példaképe. Az dönti el, hogy ki építi fel a legjobb helyet, ahol munkára készteti: elszigetelt, amikor kísérletezik, ha szükséges, össze van kötve, mindig megfigyelhető, kritériumokkal felhatalmazható és elég alázatos ahhoz, hogy megálljon, ha nem tudja.
Ez az a pont, ahol az ügynökök abbahagyják a játék szerepét, és infrastruktúrává válnak.