Kuidas AI-agent tegelikult töötab (ja ei, see pole maagia)

Unustage see turundusmula, mida olete lugenud AI-agentide kohta kui „mõtteviisi nihkest“ või „järgmise põlvkonna tehnoloogiast“. See on tühi vaht, mille eesmärk on kõlada targalt, aga mitte midagi selgitada. Vaatame, kuidas see masinavärk tegelikult töötab.

AI-agent pole mingi maagiline, kõiketeadev vaim. See on süsteem. Nagu automootor või maja veevärk. Ja parim viis sellest aru saada on kujutada ette väikest, spetsialiseerunud ekspertide tiimi, mille olete kokku pannud üheainsa ülesande täiuslikuks täitmiseks. Selles tiimis on juht, kes teeb otsused, spetsialistid, kel on oma tööriistad, ja ühine märkmeblokk, et meeles pidada, mis tehtud ja õpitud.

See ongi kõik. Kogu lugu.

Kui te mõistate, kuidas see tiim kokku panna – aju, tööriistakast ja mälu – siis lakkate olemast AI passiivne pealtvaataja ja teist saab tegija. Eesmärk pole siin kellelegi muljet avaldada. Eesmärk on saada ohtlikult kompetentseks.

Agendi anatoomia: süsteemi loogika

Idee iseseisvalt tegutsevast „agendist“ kõlab futuristlikult, aga kontseptsioon ise on aastakümneid vana. Juba 1986. aastal, ammu enne suurtest keelemudelitest rääkimist, pakkus MIT Marvin Minsky välja oma "Meele ühiskonna" ("Society of Mind") teooria. Tema väide oli, et see, mida me nimetame „intelligentsuseks“, pole üksainus monoliitne asi, vaid paljude lihtsate, iseenesest mitteintelligentsete protsesside – agentide – koostöö tulemus.

See ongi lähteplaan. AI-agent on autonoomne süsteem, mis on loodud ülesannete täitmiseks ilma pideva inimsekkumiseta. Arvutiteaduse definitsiooni järgi on see süsteem, mis „tajub oma keskkonda ja tegutseb selles oma eesmärkide nimel“. Maakeeli öeldes: see näeb probleemi, mõtleb välja plaani ja viib selle ellu.

Tänapäeval ehitatakse see „ühiskond“ valmis raamistikega nagu LangChain, mis defineerib agendi kui programmi, mis suudab probleemi üle arutleda ja selle väiksemateks alamülesanneteks jaotada. See on täpselt see, mida teeb hea projektijuht. Ta ei ürita lahendada massiivset probleemi ühekorraga. Ta jagab selle loogilisteks juppideks ja annab iga tüki õigele tegijale või tööriistale.

Kaasaegsed süsteemid jaotavad need tiimid mõnda põhitüüpi. Näiteks ReAct-tüüpi agent tegutseb lihtsas tsüklis: mõtle probleemi üle, seejärel tegutse järelduse alusel. Tööriistapõhine (tool-calling) agent on pigem peatöövõtja, kes delegeerib ülesandeid spetsialiseeritud API-dele ja funktsioonidele. Kõige keerukamad on mitme agendi süsteemid, mis on justkui terved osakonnad sellistest tiimidest, kes teevad koostööd ühe suure projekti kallal. Palantiri Gothami platvorm, mida kasutatakse kõrge riskitasemega valitsus- ja ärioperatsioonides, on reaalne näide sellest lähenemisest, mis on kasvatanud ettevõtte turuväärtuse üle 50 miljardi dollari.

Selle struktuuri mõistmine on esimene samm. Te ei osta poest üht monoliitset „AI-d“. Te disainite tööprotsessi ja panete selle elluviimiseks kokku digitaalse spetsialistide meeskonna.

Tiimi juht: kuidas agent mõtleb

Iga tiim vajab juhti. AI-agendi puhul on selleks suur keelemudel (LLM), näiteks GPT-4, Claude või Gemini. Aga selle ülesanne pole lihtsalt ilusate e-kirjade vorpimine. Selle põhiülesanne on arutleda ja otsustada.

LLM on agendi aju ja keskprotsessor. See võtab vastu esialgse probleemi, analüüsib seda ja teeb kriitilise otsuse: mis on järgmine loogiline samm? See pole kivisse raiutud plaan, vaid dünaamiline protsess. Lähtudes ülesandest ja olemasolevatest tööriistadest, teeb LLM olukorrapõhise otsuse. Kas on vaja rohkem analüüsida? Kas on vaja kasutada mõnda tööriista? Või on lõplik vastus juba olemas?

Nende otsuste tegemiseks kasutab „aju“ tegelikult mitut eri tüüpi mudelit, millest igaühel on oma kognitiivne funktsioon.

Vestlusmudelid on suhtlejad, mis on osavad dialoogi kaudu kasutaja kavatsuste mõistmisel.
Teksti genereerimise mudelid on kirjutajad, kelle ülesanne on luua lõplik väljund.
Manustamismudelid on raamatukoguhoidjad. Nad on mälu jaoks kriitilise tähtsusega, muutes teksti ja mõisted numbrilisteks esitusteks (vektoriteks), et agent saaks hiljem asjakohast teavet leida.

LLM tegutseb nende funktsioonide koordinaatorina. Kui annate agendile ülesande – näiteks „Tee kokkuvõte selle kvartali müügiaruannetest ja nimeta kolm peamist kliendimuret“, siis LLM ei hakka lihtsalt dokumente lugema. See orkestreerib tegevuste jada. Esmalt võib see kasutada tööriista müügiandmebaasi avamiseks. Seejärel teist tööriista klienditoe päringute hulgast otsimiseks. Lõpuks, kui kõik andmed on kogutud, sünteesib selle sisemine tekstimudel vastuse.

Just see võime valida õige tööriist õigeks ülesandeks eristabki agenti primitiivsest skriptist. See on vahe noore töötaja, kes vajab punkt-punktilt juhiseid ja kogenud juhi vahel, kes vaatab probleemile otsa ja ütleb: „Andke ligipääs finants-API-le ja CRM-ile. Ma lahendan ära.“

Tööriistakast: kus reaalne töö ära tehakse

Ajuga, aga käte ja jalgadeta agent on kasutu. See võib päev otsa mõelda, aga ei saa midagi tehtud. AI-agendi „käed“ on tema tööriistad, mis on peaaegu alati rakendusliidesed ehk API-d. API on lihtsalt kelner. See võtab agendilt (kliendilt) tellimuse ja edastab selle kööki (teise tarkvarasüsteemi), tuues seejärel tulemuse tagasi.

See on koht, kus agent ühendub reaalse maailmaga. Tööriistakast võib sisaldada nelja tüüpi instrumente:

API-d: Ühendused väliste teenustega nagu Salesforce, Stripe või Google Maps.
Andmebaasid: Tööriistad struktureeritud info lugemiseks ja kirjutamiseks.
Arvutusvahendid: Kalkulaator või Pythoni koodi interpretaator keerulise loogika jaoks.
Veebiotsing: Võimekus otsida internetist ajakohast informatsiooni.

Tööriistad annavad agendile praktilise väärtuse. Veebiotsinguta agent ei oska sulle öelda tänast ilma. Andmebaasiühenduseta agent ei saa kontrollida sinu laoseisu.

See integratsioon ei ole nišitegevus, vaid kolossaalne turg. Robotiseeritud protsesside automatiseerimine (RPA), mis on agendi tööriistakasti oluline osa, oli 2023. aastal 18,41 miljardi dollari suurune turg ja kasvab prognooside kohaselt 2033. aastaks 178,55 miljardi dollarini. Selle plahvatuse taga on ettevõtted, mis ühendavad oma olemasoleva tarkvara nende uute arutlusmootoritega.

Õigesti tehtuna on tulemus vapustav. Üks Fortune 500 finantsettevõte rakendas agendid kliendipäringute lahendamiseks. Ühendades oma LLM-i optimeeritud andmebaasiga (GPU-del töötav vektorandmebaas), langesid päringutele vastamise ajad 1 sekundilt 50 millisekundile – see on 95% paranemine. Süsteem suutis raskusteta toime tulla ka 40% suurema päringute mahuga. See pole mingi teoreetiline pläma, vaid reaalne tehniline uuendus, mis lööb otse kliendirahulolu ja tegevuskulude pihta, tuues esimesel aastal prognoositava 150% investeeringutasuvuse (ROI).

Ühismälu: kuidas agent õpib

Tiim, kes ei mäleta oma varasemaid võite ja kaotusi, on määratud neid kordama. Efektiivse agendi viimane ja võib-olla kõige olulisem komponent on tema mälu. Ilma selleta on iga suhtlus nagu esimene kord. Mäluga agent aga õpib, kohaneb ja muutub paremaks.

Agendi mälu ei ole lihtsalt mineviku vestluste logifail. Tuginedes kognitiivteadusele, ehitavad arendajad mälusüsteeme, mis jäljendavad inimese mälu kihte, nagu on kirjeldanud teadlased IBM-is ja mujal:

Mälu tüüp	Inimese analoogia	AI-agendi funktsioon
Episoodiline	„Mäletan, mis eelmisel teisipäeval koosolekul räägiti.“	Salvestab varasemaid sündmusi ja vestlusi, et kasutada neid näidetena tulevaste probleemide lahendamisel.
Semantiline	„Tean, kes on meie tegevjuht.“	Hoiustab struktureeritud, faktipõhiseid teadmisi maailma või konkreetse valdkonna kohta.
Protseduuriline	„Oskan jalgrattaga sõita.“	Salvestab tegevuste jadasid või oskusi, mis on minevikus tulemusi andnud.

Tehniliselt on see mälu realiseeritud spetsiaalses vektorandmebaasis. Kui agent saab kogemuse või õpib uue fakti, muudab manustamismudel selle kontseptsiooni numbriliseks vektoriks ja salvestab selle. Uue probleemi ilmnedes muudab agent ka selle vektoriks ja otsib andmebaasist kõige sarnasemaid mälestusi. Seda protsessi nimetatakse otsinguga täiendatud genereerimiseks (RAG) ja see ongi mehaanika, kuidas agent asju „mäletab“.

Hea mälu praktilised tulemused on sügavad. Üks ettevõte rakendas teadmushaldusagendi, mille vektorandmebaas sisaldas üle 50 000 sisemise dokumendi. Tulemuseks oli 42% vähenemine ajas, mida töötajad kulutasid info otsimisele. Nende klienditeeninduse jaoks tähendas see 67% paremat esimese kontakti lahendamise määra ja 28% kõrgemat kliendirahulolu.

See ongi vahe lihtsa vestlusboti ja tõelise agendi vahel. Vestlusbot vastab küsimusele. Agent vastab küsimusele, mäletades samal ajal viimast viit küsimust, mida sa küsisid, sinu konto konteksti ja sarnast probleemi, mis teisel kliendil oli kuus kuud tagasi.

Lõppsõna: ärge ostke AI-d, hakake seda ehitama

AI-agent ei ole valmistoodang, mida poest osta. See on süsteem, mille te ise disainite konkreetse ja käegakatsutava probleemi lahendamiseks. Maagia ei peitu mitte LLM-is endas, vaid selle nutikas integreerimises õigete tööriistade ja spetsiifilise mäluga.

Ärge küsige oma tiimilt: „Mis on meie AI-strateegia?“ See küsimus on liiga lai ja toodab ainult udust ja sisutühja juttu.

Küsige hoopis seda: „Milline on selle osakonna kõige korduvam, tüütum ja manuaalsem tööprotsess?“

Leidke see protsess. On see iganädalase aruande käsitsi kokku klopsimine? On see samadele 15-le klienditoe küsimusele vastamine, päevast päeva? On see arvete suunamine?

Kui olete selle konkreetse ja valuliku ülesande tuvastanud, visandage plaan tiimist, mida vajate selle automatiseerimiseks.

Aju: Milline LLM on vajaliku arutlusvõime jaoks parim?
Tööriistad: Milliste andmebaaside, API-de või tarkvaraga peab see ühenduma?
Mälu: Millised varasemad andmed, dokumendid või vestlused teevad ta aja jooksul targemaks?

Probleemi niimoodi lahti võttes liigute abstraktselt haibilt konkreetse inseneritöö juurde. Te lõpetate imelahenduse ootamise ja hakkate ehitama toimivat süsteemi. Ja just nii muudate haibitud tehnoloogia reaalseks konkurentsieeliseks.