NAME
agentic-infrastructure-stack — Infrastruktur agen dan bahagian belakang baharu
SYNOPSIS
cat agentic-infrastructure-stack.md
DESCRIPTION
Kami sering bercakap tentang rangka kerja agen. LangGraph, CrewAI, AutoGen, pelbagai SDK, gelung, panggilan alat, ingatan, perancang, pengkritik, penyelia. Semua perkataan yang berguna, demi kebaikan. Tetapi semakin saya melihat ejen yang sebenarnya digunakan, semakin saya nampak bahawa bahagian yang menarik telah bergerak di bawah tahap rangka kerja.
Persoalannya bukan lagi sekadar: perpustakaan manakah yang saya gunakan untuk membuat model langkah berfikir?
Persoalan sebenar ialah: di manakah ejen ini tinggal apabila dia berhenti menjadi demo?
Kerana ejen yang serius bukan fungsi yang memanggil model dan mengembalikan teks. Ia adalah sistem pengedaran kecil. Ia mesti membaca konteks, menggunakan alat, melaksanakan kod, menyentuh fail, mengingati keputusan, meminta kebenaran, gagal dengan baik, mulakan semula, meninggalkan log, tidak membakar belanjawan dan tidak bertukar menjadi jentolak di dalam repositori pengeluaran.
Rangka kerja ialah stereng. Infrastrukturnya ialah jalan raya, brek, garaj, insurans dan orang yang tahu di mana kuncinya.
Kerana terdapat banyak perbincangan mengenainya sekarang
Pada tahun 2023 dan 2024 perbualan itu sangat berpaksikan model. LLM yang mana? Berapa banyak konteks? Berapa kosnya? Seberapa baik dia dalam pengaturcaraan?
Pada tahun 2025 dan 2026 perbualan telah beralih. Model ini cukup baik untuk melakukan kerja sebenar, tetapi itulah sebabnya bit yang membosankan menjadi kelihatan: masa jalan, keselamatan, penyambung, identiti, kebolehmerhatian, pelaksanaan kod, penggunaan, rollback.
Ia adalah peralihan semula jadi daripada sihir kepada kejuruteraan.
Apabila ejen hanya perlu menjana respons, sembang sudah memadai. Apabila anda perlu membuka permintaan tarik, menanya pangkalan data, memanggil CRM, memulakan kerja, menavigasi tapak, membaca Slack, menyusun kod dan mengemas kini dokumen, anda memerlukan sistem pengendalian di sekelilingnya.
Bukan dalam erti kata literal. Dalam pengertian organisasi.
Bahagian pertama: masa jalan di mana ejen boleh bertahan
Seorang ejen selalunya bekerja secara berperingkat. Lihat keadaan, pilih tindakan, gunakan alat, perhatikan hasilnya, kemas kini rancangan, ulangi.
Jika gelung ini tinggal dalam satu permintaan HTTP, anda akan menghadapi masalah dengan serta-merta. Beberapa tindakan adalah perlahan. Ada yang menunggu input manusia. Ada yang gagal dan mesti dicuba lagi. Sesetengahnya mesti bertahan daripada penggunaan atau tamat masa.
Di sinilah aliran kerja yang tahan lama, baris gilir, latar belakang kerja dan mesin keadaan dimainkan. Mereka tidak glamor, tetapi ia adalah perbezaan antara ejen yang kelihatan bijak dalam demo dan yang anda boleh tinggalkan bekerja semasa anda pergi mendapatkan kopi.
Bagi saya masa jalanan agen mesti menjawab soalan yang sangat konkrit:
- di manakah saya boleh menyimpan keadaan antara satu langkah dengan yang lain?
- apa yang berlaku jika proses itu mati separuh jalan?
- bolehkah saya berhenti seketika dan meminta kelulusan?
- bolehkah saya memainkan semula larian untuk memahami mengapa dia membuat pilihan itu?
- bolehkah saya mengehadkan tempoh, ingatan, alatan dan kos?
Vercel berusaha keras di hadapan ini dengan AI SDK, fungsi, aliran kerja dan alatan untuk membina ejen dalam aplikasi web. Tetapi maksudnya bukan hanya Vercel. Maksudnya ialah ejen memerlukan rumah operasi, bukan satu titik akhir.
Sekeping kedua: kotak pasir, kerana agen mesti boleh kotor tanpa pecah
Sebaik sahaja ejen menulis kod atau melaksanakan arahan, kotak pasir diperlukan.
Ia kelihatan seperti perkataan teknikal, tetapi ideanya adalah domestik: anda memberinya meja kerja. Ia boleh membuka fail, memasang kebergantungan, menjalankan ujian, melakukan eksperimen, menjana output. Jika dia salah faham, anda telah menahan kerosakan itu. Jika ia berkesan, promosikan hasilnya.
Kotak pasir agen harus mempunyai beberapa sifat:
- sistem fail terpencil;
- CPU, memori dan had masa;
- rangkaian terkawal;
- rahsia dipasang hanya apabila diperlukan;
- log lengkap;
- kemungkinan untuk mengeksport artifak;
- tetapan semula bersih antara larian, apabila perlu.
Kotak Pasir Vercel pergi tepat ke arah ini: persekitaran terpencil untuk menjalankan kod, memasang kebergantungan, bekerja dengan fail dan menghasilkan artifak tanpa menjalankan segala-galanya dalam masa jalan aplikasi utama.
Perkara ini lebih penting daripada yang kelihatan. Banyak prototaip agen melompat terus dari model ke sistem sebenar. Model boleh memanggil alat. Alat boleh melakukan sesuatu. Semuanya kelihatan elegan sehingga perintah salah pertama, kebergantungan pertama dipasang di tempat yang salah, token pertama yang berakhir dalam log.
Kotak pasir ialah cara orang dewasa untuk berkata: teruskan, tetapi di sini.
The third piece: MCP and the connector problem
Protokol Konteks Model telah menjadi salah satu bahagian ekosistem yang paling menarik kerana ia cuba menyeragamkan sesuatu yang sebaliknya dengan cepat menjadi tidak terurus: cara model menemui dan menggunakan alat luaran.
Tanpa piawaian, setiap integrasi adalah sebuah pulau kecil. Penyambung untuk GitHub dilakukan satu cara, satu untuk Slack dilakukan yang lain, satu untuk pangkalan data dengan semantik yang berbeza, satu untuk automasi penyemak imbas yang kelihatan seperti tiada apa-apa.
MCP mencadangkan bahasa yang sama antara klien dan pelayan: alatan, sumber, gesaan, kebenaran, pengangkutan, penemuan. Ia tidak secara ajaib menyelesaikan tadbir urus dan keselamatan, tetapi ia memberikan tatabahasa.
Dan tatabahasa penting. Apabila ejen boleh menyambung kepada banyak alat, persoalannya bukan sekadar "bolehkah dia melakukannya?". Masalahnya ialah "adakah dia memahami apa yang dia boleh lakukan, dengan had apa, bagi pihak siapa, dan meninggalkan jejak apa?".
Bagi saya MCP bukanlah gembar-gembur kerana ia "melakukan panggilan alat". Kami sudah melakukannya. Ia adalah gembar-gembur kerana ia mengalihkan pusat graviti daripada penyepaduan tunggal kepada katalog operasi alat.
Dalam seni bina agenik yang baik, MCP menjadi sejenis panel tampalan:
- GitHub untuk kod dan isu;
- Slack untuk konteks perbualan;
- Linear atau Jira untuk kerja yang dirancang;
- pangkalan data baca sahaja untuk analisis;
- penyemak imbas atau pengikis dikawal untuk tapak luaran;
- penyimpanan dokumen;
- persekitaran pelaksanaan terpencil;
- sistem dalaman terdedah dengan kebenaran yang ketat.
Bahagian yang sukar ialah katalog alat bebas dasar hanyalah cara yang lebih elegan untuk mencipta huru-hara.
Bahagian keempat: identiti dan kebenaran
Ini adalah kawasan yang banyak demo menutup mata.
Ejen bertindak bagi pihak seseorang. Jadi mesti jelas siapa subjek tindakan itu.
Adakah ia menggunakan kebenaran pengguna? Akaun perkhidmatan? Ruang kerja? Adakah anda mempunyai akses sementara atau kekal? Bolehkah anda membaca semuanya atau hanya beberapa sumber? Boleh awak menulis? Bolehkah anda membatalkan? Bolehkah dia menghantar mesej kepada orang sebenar?
Jika anda tidak menjawab soalan ini dengan baik, lambat laun anda akan membina pembantu dengan kunci rumah dan tidak ingat siapa yang memberikannya kepadanya.
Peraturan praktikal yang saya suka ialah ini: ejen mesti boleh melakukan kurang daripada manusia, bukan lebih daripada manusia. Dan apabila dia perlu melakukan sesuatu yang lebih berisiko, dia perlu berhenti dan bertanya.
Ini bermakna OAuth, skop token, pengurusan rahsia, log audit, dasar alat, senarai dibenarkan, langkah kelulusan. Bukan perkara romantik sangat. Barang keperluan.
Bahagian kelima: ingatan dan konteks, tetapi tanpa mengumpul sampah
Ejen memerlukan ingatan, tetapi ingatan berbahaya apabila ia menjadi loteng.
Terdapat sekurang-kurangnya tiga jenis ingatan:
- ingatan jalankan: apa yang berlaku dalam pelaksanaan ini;
- ingatan projek: konvensyen, keputusan, kekangan;
- ingatan peribadi atau pasukan: pilihan, nada, ritual, proses.
Meletakkan segala-galanya dalam gesaan ialah jalan pintas. Ia berfungsi sehingga ia tidak berfungsi lagi. Memori berguna mesti dijaga: diindeks, dikemas kini, tamat tempoh, disahkan, dijadikan boleh disebut.
Ejen yang teruk ingat lagi teruk dari ejen yang tak ingat. Kerana dia bercakap dengan yakin.
Oleh itu infrastruktur mesti termasuk pengambilan semula, fail arahan, pangkalan pengetahuan, pembenaman apabila diperlukan, tetapi juga pembersihan. Kita memerlukan budaya ingatan: apa yang masuk, siapa yang meluluskannya, apabila ia mereput, bagaimana saya membetulkannya.
Bahagian keenam: kebolehmerhatian, eval dan ulang tayang
Jika ejen membuat kesilapan, log "dipanggil model" tidak mencukupi.
Anda mahu melihat laluan. Apakah konteks yang dia terima? Apakah alatan yang ada? Alat mana yang anda pilih? Dengan hujah apa? Apakah respons yang anda dapat? Berapa kosnya? Di manakah ia tersangkut? Adakah manusia merestui sesuatu? Adakah model ralat, alat, gesaan, data atau ralat kebenaran?
Di sini ejen lebih seperti sistem yang diedarkan daripada chatbots.
Anda memerlukan jejak yang boleh dibaca, bukan hanya log teks. Anda perlu dapat memainkan semula larian. Adalah perlu untuk membandingkan dua versi ejen yang sama pada tugas yang diketahui. Kita perlu mengukur regresi: bukan sahaja ia "menjawab dengan lebih baik", tetapi ia "menutup tiket yang betul tanpa menyentuh fail yang tidak diminta".
Eval agen adalah lebih sukar daripada eval teks kerana ia termasuk tindakan. Ia tidak mencukupi untuk membandingkan rentetan yang dijangkakan. Anda perlu melihat urutan, kesan sampingan, kualiti artifak, masa, kos, bilangan campur tangan manusia.
Perkara yang lucu ialah, kami sentiasa kembali ke sana: kejuruteraan perisian. Ujian, persekitaran, jejak, pemulangan semula. Kecuali bahawa kod sekarang juga memutuskan perkara yang perlu dilakukan seterusnya.
Bahagian ketujuh: antara muka manusia
Ejen tidak perlu hanya tinggal dalam sembang.
Sesetengah ejen memerlukan lembaga. Lain-lain halaman dengan status dan log. Lain-lain butang "luluskan". Lagi komen sebaris. Masih yang lain daripada CLI.
UI mengubah tingkah laku. Jika satu-satunya cara untuk mengawal ejen adalah dengan menulis mesej yang panjang, pengguna akan memberi arahan yang tidak jelas kepada ejen. Walau bagaimanapun, jika dia melihat rancangan, perbezaan, sumber, risiko dan tindakan seterusnya, dia boleh campur tangan dengan tepat.
Infrastruktur ejen yang baik termasuk permukaan kawalan:
- status semasa;
- pelan boleh diedit;
- artifak yang dihasilkan;
- perbezaan;
- permintaan kelulusan;
- kronologi;
- butang berhenti;
- butang cuba semula;
- kebenaran yang boleh dilihat.
Nampak remeh, tetapi tidak. Perbezaan antara "AI yang menyeramkan" dan "pembantu yang boleh dipercayai" selalunya hanya kerana yang terakhir menunjukkan kepada anda di mana ia berada.
Timbunan mental
Jika saya melukisnya hari ini, timbunan ejen minimum ialah ini:
- Model: penaakulan, penjanaan, panggilan alat, multimodal jika perlu.
- Orkestrasi: gelung, langkah, perancang, dasar, manusia-dalam-gelung.
- Masa jalan yang tahan lama: aliran kerja, baris gilir, cuba semula, jeda, sambung semula.
- Kotak pasir: pelaksanaan kod, sistem fail terpencil, had, artifak.
- Lapisan alat: MCP, API dalaman, penyemak imbas, pangkalan data, repositori.
- Lapisan identiti: OAuth, skop, rahsia, audit, dasar.
- Lapisan memori: konteks projek, perolehan semula, arahan, tamat tempoh.
- Kebolehlihatan: surih, main semula, eval, kos dan metrik kualiti.
- Permukaan produk: sembang apabila cukup, papan pemuka apabila diperlukan, semak apabila ia penting.
Rangka kerja agenik terutamanya meliputi perkara 2 dan sekeping mata 1. Selebihnya adalah kerja sebenar.
Perkara yang saya akan lakukan dalam amalan
Jika pasukan memberitahu saya "kami mahu ejen dalam pengeluaran," saya tidak akan bermula dengan sepuluh ejen.
Saya akan mulakan dengan aliran kerja yang kecil, berulang dan boleh diperhatikan. Contohnya: PR penyelenggaraan terbuka, kemas kini dokumentasi daripada isu tertutup, sediakan semakan mingguan, triage pepijat pendua, hasilkan ujian untuk fail yang terjejas.
Kemudian saya akan menetapkan had yang sangat jelas:
- tiada tulisan tanpa dahan atau kotak pasir;
- tiada rahsia dalam gesaan;
- alatan dalam senarai dibenarkan;
- kelulusan manusia untuk tindakan luar;
- log dan jejak wajib;
- belanjawan setiap larian;
- output sentiasa boleh diperiksa.
Hanya selepas itu saya akan berkembang.
Ejen tidak gagal hanya kerana model salah faham. Mereka gagal kerana kami meletakkan mereka dalam persekitaran yang tidak jelas, dengan kebenaran yang mengelirukan dan jangkaan teater.
Bacaan saya
Infrastruktur agen membosankan dengan cara terbaik.
Bukan bahagian yang membuat anda bertepuk tangan dalam demo. Ia adalah bahagian yang membolehkan anda benar-benar menggunakan tunjuk cara pada pagi Isnin, dengan orang sebenar, data sebenar dan akibat sebenar.
Masa depan ejen tidak akan ditentukan hanya oleh siapa yang mempunyai model peranan terbaik. Ia akan diputuskan oleh sesiapa sahaja yang membina tempat terbaik untuk membuatnya bekerja: terpencil apabila dia bereksperimen, berhubung apabila diperlukan, sentiasa diperhatikan, diberi kuasa dengan kriteria dan cukup merendah diri untuk berhenti apabila dia tidak tahu.
Di situlah ejen berhenti menjadi mainan dan menjadi infrastruktur.
Sumber
METADATA
- date: 2026-06-30
- reading: 9 min
- author: Filippo Spinella
- tags: AI, Agents, Infrastructure, Developer Tools, Vercel