Kuidas tehisintellekt töötab?

Tehisintellekt võib tunduda võlutrikina, mille peale kõik noogutavad, samal ajal vaikselt mõeldes... oota, kuidas see tegelikult töötab? Head uudised. Me selgitame selle ilma liigse segaduseta, jääme praktiliseks ja lisame paar ebatäiuslikku analoogiat, mis siiski asja paika panevad. Kui tahad ainult põhisisu teada, siis hüppa allolevasse üheminutilisesse vastusesse; aga ausalt öeldes on detailid need, kus asi käima läheb 💡.

Artiklid, mida võiksite pärast seda lugeda:

🔗 Mida GPT tähendab
GPT akronüümi ja selle tähenduse kiire selgitus.

🔗 Kust tehisintellekt oma infot saab?
Allikad, mida tehisintellekt kasutab õppimiseks, treenimiseks ja küsimustele vastamiseks.

🔗 Kuidas tehisintellekti oma ettevõttesse integreerida
Praktilised sammud, tööriistad ja töövood tehisintellekti tõhusaks integreerimiseks.

🔗 Kuidas alustada tehisintellektiga tegelevat ettevõtet
Ideest turuletoomiseni: valideerimine, rahastamine, meeskond ja teostus.

Kuidas tehisintellekt töötab? Üheminutiline vastus ⏱️

Tehisintellekt õpib andmetest mustreid, et teha ennustusi või genereerida sisu – käsitsi kirjutatud reegleid pole vaja. Süsteem võtab vastu näiteid, mõõdab kaotusfunktsiooni abil, kui vale see on, ja nihutab oma sisemisi nuppe –parameetreid–, et iga kord veidi vähem vale oleks. Jätka, korda, paranda. Piisavalt tsüklite järel muutub see kasulikuks. Sama lugu, olenemata sellest, kas liigitad e-kirju, tuvastad kasvajaid, mängid lauamänge või kirjutad haikusid. Lihtsa keelelise aluse saamiseks „masinõppes“ on IBM-i ülevaade kindel [1].

Enamik tänapäeva tehisintellektist on masinõpe. Lihtsaim versioon: sisesta andmed, õpi sisendite ja väljundite vaheline seos ja seejärel üldista uuteks asjadeks. Mitte maagia – matemaatika, arvutused ja, kui aus olla, näpuotsatäis kunsti.

"Kuidas tehisintellekt töötab?" ✅

Kui inimesed otsivad Google'ist otsingut "Kuidas tehisintellekt töötab?", tahavad nad tavaliselt:

korduvkasutatav mentaalne mudel, mida nad saavad usaldada
peamiste õppetüüpide kaart, et žargoon ei oleks enam hirmutav
piilu närvivõrkudesse ilma ära eksimata
Miks tundub, et trafod valitsevad nüüd maailma
praktiline protsess andmetest juurutamiseni
kiire võrdlustabel, mille saate ekraanipildina teha ja alles hoida
eetika, eelarvamuste ja usaldusväärsuse piirded, mis ei ole käega katsutavad

Seda sa siit saad. Kui ma eksin, siis meelega – näiteks valin maalilise marsruudi ja järgmisel korral tänavad kuidagi paremini meeles püsiksid. 🗺️

Enamiku tehisintellekti süsteemide põhikomponendid 🧪

Mõtle tehisintellekti süsteemile nagu köögile. Ikka ja jälle ilmuvad seal esile neli koostisosa:

Andmed — näited siltidega või ilma.
Mudel — muudetavate parameetritega matemaatiline funktsioon.
Objektiivne – kaotusfunktsioon, mis mõõdab oletuste halbu tulemusi.
Optimeerimine – algoritm, mis muudab parameetreid kadude vähendamiseks.

Süvaõppes on see tõuge tavaliselt gradientlaskumine tagasilevimisega –tõhus viis välja selgitada, milline nupp hiiglaslikul heliplaadil kriuksus, ja seejärel seda veidi maha keerata [2].

Minijuhtum: Asendasime hapra reeglipõhise rämpspostifiltri väikese järelevalvega mudeliga. Pärast nädalast kestnud silt → mõõt → uuenda tsükleid vähenesid valepositiivsed arvud ja tugiteenuse päringud. Midagi erilist – lihtsalt selgemad eesmärgid (täpsus tavakirjade puhul) ja parem optimeerimine.

Õppimisparadigmad lühidalt 🎓

Juhendatud õpe.
Te annate sisend-väljundpaare (sildiga fotod, rämpspostiks/mitte rämpspostiks märgitud e-kirjad). Mudel õpib sisendit → väljundit. Paljude praktiliste süsteemide selgroog [1].
Juhendamata õpe
. Sildid puuduvad. Leia struktuuriklastreid, tihendusi, varjatud tegureid. Suurepärane uurimiseks või eelkoolituseks.
Ise juhendatud õpe
Mudel loob oma sildid (ennustab järgmist sõna, puuduvat pildilaiku). Teisendab toorandmed skaalal treeningsignaaliks; on aluseks tänapäevastele keele- ja nägemismudelitele.
Tugevdusõpe
Agent tegutseb, kogub preemiaidja õpib poliitika, mis maksimeerib kumulatiivset preemiat. Kui „väärtusfunktsioonid“, „poliitikad“ ja „ajaliste erinevuste õppimine“ helistavad kella – see on tema kodu [5].

Jah, praktikas hägustuvad kategooriad. Hübriidmeetodid on normaalsed. Tegelik elu on segane; hea inseneritöö kohtub sellega seal, kus see on.

Peavaluvaba neuraalvõrgu sees 🧠

Neuraalvõrk koondab pisikeste matemaatiliste üksuste (neuronite) kihte. Iga kiht teisendab sisendeid kaalude, eelarvamuste ja ebamäärase mittelineaarsusega nagu ReLU või GELU. Varased kihid õpivad lihtsaid tunnuseid; sügavamad kodeerivad abstraktsioone. „Maagia“ – kui seda nii saab nimetada – on kompositsioon: ahelda väikesed funktsioonid ja saad modelleerida äärmiselt keerulisi nähtusi.

Treeningtsükkel, ainult vibratsioonid:

oletus → vea mõõtmine → süü omistamine tugirefleksi abil → raskuste nihutamine → kordamine.

Tee seda partiide kaupa ja nagu kohmakas tantsija, kes iga lugu paremaks muudab, lõpetab modell su varvastele astumise. Sõbraliku ja range taustapropelleri peatüki leiate aadressilt [2].

Miks trafod võimust võtsid – ja mida „tähelepanu” tegelikult tähendab 🧲

Transformerid kasutavad enesetähelepanu , et kaaluda korraga, millised sisendi osad üksteisele olulised on. Vanemate mudelite sarnaselt lause rangelt vasakult paremale lugemise asemel saab transformer vaadata kõikjale ja hinnata suhteid dünaamiliselt – nagu skaneerides rahvarohket ruumi, et näha, kes kellega räägib.

See disain jättis järjestuste modelleerimisel välja rekurrentsuse ja konvolutsioonid, võimaldades massiivset paralleelsust ja suurepärast skaleerimist. Artiklis, mis selle algatas –Attention Is All You Need– kirjeldatakse arhitektuuri ja tulemusi [3].

Enesetähelepanu ühel real: loo päringu-, võtme-ja väärtusvektorid ; arvuta sarnasusi, et saada tähelepanu kaalud; sega väärtusi vastavalt. Detailselt peen, vaimult elegantne.

Tähelepanu: Transformers domineerib, mitte ei monopoliseeri. CNN-id, RNN-id ja puuansamblid võidavad endiselt teatud andmetüüpide ja latentsusaja/kulupiirangute puhul. Vali töö jaoks sobiv arhitektuur, mitte reklaamikampaania.

Kuidas tehisintellekt töötab? Praktiline protsess, mida sa tegelikult kasutad 🛠️

Probleemi raamistamine
Mida te ennustate või genereerite ja kuidas edu mõõdetakse?
Andmete
kogumine, vajadusel sildistamine, puhastamine ja jagamine. Arvesta puuduvate väärtuste ja äärmusjuhtumitega.
Modelleerimine
Alusta lihtsalt. Lähtejooned (logistiline regressioon, gradiendi võimendamine või väike transformaator) ületavad sageli kangelaslikku keerukust.
Treening
Valige eesmärk, valige optimeerija, määrake hüperparameetrid. Korrake.
Hindamine
Kasutage ooteaegu, ristvalideerimist ja oma tegeliku eesmärgiga seotud mõõdikuid (täpsus, F1, AUROC, BLEU, perpleksilisus, latentsus).
Juurutamine.
Serveerige API taga või manustage rakendusse. Jälgige latentsust, kulusid ja läbilaskevõimet.
Jälgimine ja juhtimine
Jälgige triivi, õiglust, töökindlust ja turvalisust. NISTi tehisintellekti riskijuhtimise raamistik (GOVERN, MAP, MEASURE, MANAGE) on praktiline kontrollnimekiri usaldusväärsete süsteemide otsast lõpuni [4].

Minijuhtum: Nägemismudel toimis laboris suurepäraselt, kuid jooksis seejärel valgustuse muutudes põllul kokku. Sisendhistogrammides täheldatud nihke jälgimine; kiire suurendamine ja peenhäälestamine taastasid jõudluse. Igav? Jah. Tõhus? Samuti jah.

Võrdlustabel – lähenemisviisid, kellele need mõeldud on, ligikaudne maksumus, miks need toimivad 📊

Meelega ebatäiuslik: pisut ebaühtlane fraseering aitab sellel inimlikumana tunduda.

Lähenemisviis	Ideaalne publik	Hinnaline	Miks see toimib / märkmed
Juhendatud õpe	Analüütikud, tootemeeskonnad	madal-keskmine	Otsene sisendi ja sildi vaheline kaardistamine. Suurepärane, kui sildid on olemas; moodustab paljude juurutatud süsteemide selgroo [1].
Järelevalveta	Andmeuurijad, teadus- ja arendustegevus	madal	Leiab klastreid/kompressioone/latentseid tegureid – hea avastamiseks ja eelkoolituseks.
Enesekontrolli all	Platvormi meeskonnad	keskmine	Loob oma sildid töötlemata andmeskaalade põhjal, kasutades arvutusi ja andmeid.
Tugevdusõpe	Robootika, operatsioonide uurimine	keskmine-kõrge	Õpib reegleid tasu signaalidest; lugege Suttoni ja Barto [5] tööd.
Trafod	NLP, visioon, multimodaalne	keskmine-kõrge	Enesetähelepanu tabab pikaajalisi sügavusi ja on hästi paralleelne; vt originaalartiklit [3].
Klassikaline masinõpe (puud)	Tabelipõhised ärirakendused	madal	Odavad, kiired ja sageli šokeerivalt tugevad lähteandmed struktureeritud andmetel.
Reeglipõhine/sümboolne	Vastavus, deterministlik	väga madal	Läbipaistev loogika; kasulik hübriidides, kui vajate auditeeritavust.
Hindamine ja risk	Kõik	varieerub	Selle turvalisena ja kasulikuna hoidmiseks kasutage NISTi tööriista GOVERN-MAP-MEASURE-MANAGE [4].

Hinnalähedane = andmete märgistamine + arvutus + inimesed + teenindamine.

Süvaanalüüs 1 - kadumisfunktsioonid, gradiendid ja pisikesed sammud, mis kõike muudavad 📉

Kujutage ette joone sobitamist, et ennustada maja hinda suuruse põhjal. Valite parameetrid (w) ja (b), ennustate (\hat{y} = wx + b) ning mõõdate viga keskmise ruutkahjumi abil. Gradient näitab teile, millises suunas liikuda (w) ja (b), et kahjumit kõige kiiremini vähendada – näiteks udus allamäge kõndimine, kompides, kuhu maapind kaldub. Uuendage pärast iga partiid ja teie joon läheneb reaalsusele lähemale.

Sügavates võrkudes on see sama lugu suurema sagedusribaga. Backprop arvutab välja, kuidas iga kihi parameetrid mõjutasid lõppviga – tõhusalt –, et saaksite miljoneid (või miljardeid) nuppe õiges suunas nihutada [2].

Peamised intuitsioonid:

Kaotus kujundab maastikku.
Gradiendid on teie kompass.
Õppimiskiirus on sammude kaupa – kui liiga suur, siis sa võpad, kui liiga väike, siis sa uinud.
Regulariseerimine hoiab sind treeningkomplekti meeldejätmisest nagu papagoil, kellel on täiuslik mälu, aga arusaamine puudub.

Süvaanalüüs 2 - manustamine, viipade kasutamine ja taastamine 🧭

Manustamine kaardistab sõnad, pildid või elemendid vektorruumidesse, kus sarnased asjad asuvad üksteise lähedal. See võimaldab teil:

leia semantiliselt sarnaseid lõike
võimuotsing, mis mõistab tähendust
lisa otsingu abil laiendatud genereerimine (RAG) , et keelemudel saaks enne kirjutamist fakte otsida

Õpetamine on see, kuidas sa suunad generatiivseid mudeleid – kirjeldad ülesannet, tood näiteid, sead piiranguid. Mõtle sellele nagu väga detailse spetsifikatsiooni kirjutamine väga kiirele praktikandile: innukas, kohati liiga enesekindel.

Praktiline nipp: kui teie mudel hallutsineerib, lisage meeldetuletus, täpsustage ülesannet või hinnake seda maandatud mõõdikute, mitte "vibratsioonide" abil.

Süvaanalüüs 3 - illusioonideta hindamine 🧪

Hea hindamine tundub igav – ja see ongi täpselt mõte.

Kasutage lukustatud testikomplekti.
Valige mõõdik, mis peegeldab kasutaja valu.
Tehke ablatsioone, et teaksite, mis tegelikult aitas.
Logide tõrked reaalsete ja segaste näidetega.

Tootmises on monitooring hindamine, mis ei lõpe kunagi. Toimub triiv. Ilmneb uus släng, andureid kalibreeritakse ümber ja eilne mudel nihkub veidi. NIST-raamistik on praktiline viide pidevaks riskijuhtimiseks ja juhtimiseks – mitte poliitikadokument, mida riiulile lükata [4].

Märkus eetika, eelarvamuste ja usaldusväärsuse kohta ⚖️

Tehisintellekti süsteemid peegeldavad oma andmeid ja juurutamise konteksti. See toob kaasa riske: eelarvamused, ebaühtlased vead rühmade vahel, haavatavus jaotuse nihke korral. Eetiline kasutamine ei ole valikuline – see on laual olev küsimus. NIST osutab konkreetsetele praktikatele: dokumenteerida riskid ja mõjud, mõõta kahjulikku eelarvamust, luua varuvariante ja hoida inimesi kursis, kui panused on kõrged [4].

Betoonist liigutused, mis aitavad:

koguda mitmekesiseid ja esinduslikke andmeid
mõõta tulemuslikkust alampopulatsioonides
dokumendimudelite kaardid ja andmelehed
lisage inimjärelevalve seal, kus panused on kõrged
kavandada tõrkekindlaid lahendusi, kui süsteem on ebakindel

Kuidas tehisintellekt töötab? Mentaalse mudelina saab seda taaskasutada 🧩

Kompaktne kontrollnimekiri, mida saab rakendada peaaegu iga tehisintellekti süsteemi puhul:

Mis on eesmärk? Ennustamine, järjestamine, genereerimine, kontroll?
Kust õppimissignaal tuleb? Sildid, enesekontrollitud ülesanded, preemiad?
Millist arhitektuuri kasutatakse? Lineaarmudelit, puude ansamblit, CNN-i, RNN-i, transformaatorit [3]?
Kuidas seda optimeeritakse? Gradiendi laskumise variatsioonid/tagurpidipropeller [2]?
Milline andmerežiim? Väike sildistatud hulk, sildistamata teksti ookean, simuleeritud keskkond?
Millised on rikkeviisid ja kaitsemeetmed? Eelarvamused, triiv, hallutsinatsioonid, latentsus, kulude kaardistamine NISTi GOVERN-MAP-MEASURE-MANAGE [4] abil.

Kui suudad neile vastata, siis sa põhimõtteliselt mõistad süsteemi – ülejäänu on rakendamise üksikasjad ja valdkonna tundmine.

Kiired allikad, mis tasub järjehoidjatesse lisada 🔖

Masinõppe kontseptsioonide (IBM) lihtsas keeles sissejuhatus [1]
Tagasiulatus diagrammide ja õrna matemaatika abil [2]
Trafoartikkel, mis muutis järjestusmodelleerimist [3]
NISTi tehisintellekti riskijuhtimise raamistik (praktiline juhtimine) [4]
Kanooniline tugevdusõppe õpik (tasuta) [5]

KKK välk voor ⚡

Kas tehisintellekt on lihtsalt statistika?
See on statistika pluss optimeerimine, arvutused, andmetehnika ja tootekujundus. Statistika on skelett; ülejäänu on lihased.

Kas suuremad mudelid võidavad alati?
Skaleerimine aitab, aga andmete kvaliteet, hindamine ja juurutamise piirangud on sageli olulisemad. Väikseim mudel, mis teie eesmärgi saavutab, on tavaliselt parim nii kasutajatele kui ka rahakottidele.

Kas tehisintellekt saab aru?
Defineeri arusaamine. Mudelid tabavad andmete struktuuri ja üldistavad muljetavaldavalt; kuid neil on pimedad kohad ja nad võivad enesekindlalt eksida. Kohelge neid kui võimsaid tööriistu, mitte kui tarku.

Kas transformaatorite ajastu on igavene?
Tõenäoliselt mitte igavene. See on praegu domineeriv, sest tähelepanu paralleelneb ja skaleerub hästi, nagu algne artikkel [3] näitas. Kuid uuringud liiguvad edasi.

Kuidas tehisintellekt töötab? Liiga pikk, ei lugenud 🧵

Tehisintellekt õpib andmetest mustreid, minimeerib kadusid ja üldistab neid uute sisendite jaoks [1,2].
Peamised treeningvormid on juhendatud, juhendamata, enesejuhendatud ja tugevdusõpe; RL õpib preemiatest [5].
Neuraalvõrgud kasutavad miljonite parameetrite tõhusaks reguleerimiseks tagasilevimist ja gradiendi laskumist [2].
Transformerid domineerivad paljudes järjestusülesannetes, kuna enesetähelepanu tabab seoseid paralleelselt skaalal [3].
Reaalse maailma tehisintellekt on protsess, mis hõlmab probleemi sõnastamist ja juurutamist ning haldamist ning NISTi raamistik hoiab teid riskide osas ausana [4].

Kui keegi küsib uuesti kuidas tehisintellekt töötab?,võid naeratada, kohvi rüübata ja öelda: see õpib andmetest, optimeerib kaotusi ja kasutab olenevalt probleemist selliseid arhitektuure nagu trafod või puude ansamblid. Seejärel lisa silmapilgutus, sest see on nii lihtne kui ka salakavalalt täielik. 😉

Viited

[1] IBM - Mis on masinõpe?
Loe edasi

[2] Michael Nielsen - Kuidas tagasilevitamise algoritm töötab,
loe edasi

[3] Vaswani jt - Tähelepanu on kõik, mida vajate (arXiv)
loe edasi

[4] NIST - Tehisintellekti riskijuhtimise raamistik (AI RMF 1.0)
loe edasi

[5] Sutton & Barto - Tugevdusõpe: sissejuhatus (2. trükk)
loe edasi

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse