Mis on selgitatav tehisintellekt?

„Eelistatav tehisintellekt” on üks neist fraasidest, mis kõlab õhtusöögil kenasti, aga muutub ülioluliseks hetkel, kui algoritm annab meditsiinilise diagnoosi, kinnitab laenu või märgistab saadetise. Kui olete kunagi mõelnud, et miks mudel seda tegi... siis olete juba selgitatava tehisintellekti territooriumil. Lahendame idee lihtsas keeles – ei mingit maagiat, ainult meetodid, kompromissid ja mõned karmid tõed.

Artiklid, mida võiksite pärast seda lugeda:

🔗 Mis on tehisintellekti eelarvamus?
Mõista tehisintellekti eelarvamusi, nende allikaid, mõjusid ja leevendusstrateegiaid.

🔗 Mis on ennustav tehisintellekt?
Avastage ennustavat tehisintellekti, selle levinumaid kasutusviise, eeliseid ja praktilisi piiranguid.

🔗 Mis on humanoidroboti tehisintellekt?
Siit saate teada, kuidas tehisintellekt humanoidroboteid käitab, millised on selle võimalused, näited ja väljakutsed.

🔗 Mis on tehisintellekti koolitaja?
Avastage, mida tehisintellekti koolitajad teevad, vajalikud oskused ja karjäärivõimalused.

Mida seletatav tehisintellekt tegelikult tähendab

Selgitatav tehisintellekt on tehisintellekti süsteemide kavandamise ja kasutamise praktika nii, et nende väljundeid saaksid mõista inimesed – konkreetsed inimesed, keda otsused mõjutavad või kes nende eest vastutavad, mitte ainult matemaatikavõlurid. NIST jagab selle neljaks põhimõtteks: andke selgitus , tehke see publiku jaoks arusaadavaks , tagage selgituse täpsus (mudelile truu) ja austage teadmiste piire (ärge liialdage süsteemi teadmisi) [1].

Lühike ajalooline kõrvalepõige: ohutuskriitilised valdkonnad surusid seda juba varakult peale, eesmärgiga luua mudeleid, mis jäävad täpseks, kuid samas piisavalt tõlgendatavaks, et „tsüklis“ usaldusväärseks muutuda. Põhitäht pole muutunud – kasutatavad seletused ilma jõudlust kahjustamata.

Miks on selgitatav tehisintellekt olulisem, kui arvate 💡

Usaldus ja omaksvõtt – inimesed aktsepteerivad süsteeme, mida nad saavad päringuid esitada, kahtluse alla seada ja parandada.
Risk ja ohutus – selgitab pinna rikkeid enne, kui need sind mastaabis üllatavad.
Regulatiivsed ootused – ELis sätestab tehisintellekti seadus selged läbipaistvuskohustused – nt teavitada inimesi, millal nad teatud kontekstides tehisintellektiga suhtlevad, ja märgistada tehisintellekti loodud või manipuleeritud sisu asjakohaselt [2].

Olgem ausad – uhked töölauad ei ole selgitused. Hea selgitus aitab inimesel otsustada, mida edasi teha.

Mis teeb selgitatava tehisintellekti kasulikuks ✅

XAI meetodi hindamisel küsige:

Truudus – kas selgitus peegeldab mudeli käitumist või jutustab lihtsalt lohutava loo?
Kasulikkus publikule – andmeteadlased soovivad gradiente; arstid tahavad kontrafaktuaale või reegleid; kliendid tahavad lihtsas keeles põhjendusi ja järgmisi samme.
Stabiilsus – pisikesed sisendmuudatused ei tohiks lugu A-st Z-ni pöörata.
Teostatavus – kui väljund on ebasoovitav, mis oleks võinud muutuda?
Ausus ebakindluse suhtes – selgitused peaksid piire paljastama, mitte neid üle värvima.
Ulatuse selgus – kas see on ühe ennustuse lokaalne seletus või mudeli käitumise globaalne vaade?

Kui sa mäletad ainult ühte asja: kasulik selgitus muudab kellegi otsust, mitte ainult tema tuju.

Põhimõisted, mida kuuled palju 🧩

Tõlgendatavus vs selgitatavus - Tõlgendatavus: mudel on piisavalt lihtne loetavaks (nt väike puu). Selgitatavus: lisage peale meetod, et muuta keerukas mudel loetavamaks.
Lokaalne vs globaalne – lokaalne selgitab ühte otsust; globaalne võtab käitumise üldiselt kokku.
Post-hoc vs intrinsic – post-hoc selgitab treenitud musta kasti; intrinsic kasutab loomupäraselt tõlgendatavaid mudeleid.

Jah, need piirid hägustuvad. See on okei; keel areneb; teie riskiregister mitte.

Populaarsed selgitatavad tehisintellekti meetodid - ringkäik 🎡

Siin on keeristormne ekskursioon muuseumi audiogiidi hõnguga, aga lühem.

1) Lisafunktsioonide omistamine

SHAP – Määrab igale tunnusele mänguteoreetiliste ideede kaudu panuse konkreetsesse ennustusse. Armastatud selgete aditiivsete selgituste ja mudeliteülese ühtse vaate poolest [3].

2) Kohalikud asendusmudelid

LIME – Treenib lihtsat, lokaalset mudelit selgitatava eksemplari ümber. Kiired, inimloetavad kokkuvõtted selle kohta, millised funktsioonid läheduses olulised olid. Suurepärane demode jaoks, abiks harjutamiseks ja stabiilsuse tagamiseks [4].

3) Gradientipõhised meetodid süvavõrkude jaoks

Integreeritud gradiendid – omistab olulisuse gradientide integreerimise teel algtasemelt sisendile; kasutatakse sageli nägemise ja teksti puhul. Mõistlikud aksioomid; algtasemete ja müraga tuleb olla ettevaatlik [1].

4) Näidetel põhinevad selgitused

Kontrafaktuaalsed näited – „Milline minimaalne muudatus oleks tulemuse ümber pööranud?“ Ideaalne otsuste tegemiseks, sest see on loomulikult teostatav – tee X, et saada Y [1].

5) Prototüübid, reeglid ja osaline sõltuvus

Prototüübid näitavad representatiivseid näiteid; reeglid tabavad mustreid, näiteks kui sissetulek > X ja ajalugu = puhas, siis kinnitatakse; osaline sõltuvus näitab tunnuse keskmist mõju teatud vahemikus. Lihtsad ideed, sageli alahinnatud.

6) Keelemudelite puhul

Token/spans omistamised, hangitud näited ja struktureeritud põhjendused. Kasulik tavapärase hoiatusega: korralikud soojuskaardid ei garanteeri põhjuslikku arutluskäiku [5].

Kiire (liit)juhtum kohapealt 🧪

Keskmise suurusega laenuandja pakub krediidiotsuste tegemiseks gradientvõimendusega mudelit. Kohalik SHAP aitab agentidel selgitada ebasoodsat tulemust („Võla ja sissetuleku suhe ning hiljutine krediidikasutus olid peamised mõjutajad.“) [3]. Vastupidine kiht pakub välja teostatava menetluse („Vähendage ringluses oleva krediidi kasutamist ~10% või lisage 1500 naela kontrollitud sissemaksetena, et otsus ümber pöörata.“) [1]. Meeskond viib sisemiselt läbi randomiseerimisteste silmapaistvusstiilis visuaalidega, mida nad kvaliteedikontrollis kasutavad, et tagada, et esiletõstmised ei oleks lihtsalt varjatud servadetektorid [5]. Sama mudel, erinevad selgitused erinevatele sihtrühmadele – klientidele, operatsioonidele ja audiitoritele.

Kohmakas osa: seletused võivad eksitada 🙃

Mõned silmapaistvusmeetodid näivad veenvad isegi siis, kui need ei ole seotud treenitud mudeli või andmetega. Mõistlikkuse kontrollid näitasid, et teatud tehnikad võivad põhitestides läbi kukkuda, andes vale arusaamise. Teisisõnu: ilusad pildid võivad olla puhas teater. Lisage oma selgitusmeetoditele valideerimistestid [5].

Samuti, hõre ≠ aus. Ühe lausega põhjendus võib varjata olulisi vastastikmõjusid. Väiksemad vastuolud selgituses võivad viidata mudeli tegelikule ebakindlusele – või lihtsalt mürale. Sinu ülesanne on öelda, kumb on kumb.

Juhtimine, poliitika ja läbipaistvuse üha kasvav lati 🏛️

Poliitikakujundajad ootavad kontekstile vastavat läbipaistvust. ELis sätestabtehisintellekti seadus kohustused, näiteks teavitada inimesi tehisintellektiga suhtlemisest teatud juhtudel ning märgistada tehisintellekti loodud või manipuleeritud sisu asjakohaste teadete ja tehniliste vahenditega, välja arvatud erandite korral (nt seaduslik kasutamine või kaitstud väljendusvorm) [2]. Inseneritöö valdkonnas NIST põhimõtetele orienteeritud juhiseid, mis aitavad meeskondadel kujundada selgitusi, mida inimesed saavad tegelikult kasutada [1].

Kuidas valida selgitatavat tehisintellekti lähenemisviisi - kiirkaart 🗺️

Alusta otsusest – kes vajab selgitust ja millise tegevuse jaoks?
Sobita meetod mudeli ja keskkonnaga
- Gradientmeetodid süvavõrkude jaoks nägemises või neurolingvistikas [1].
- SHAP või LIME tabelina esitatud mudelite jaoks, kui on vaja tunnuste omistamist [3][4].
- Kliendiga suhtlemise parandusmeetmete ja apellatsioonide alternatiivsed stsenaariumid [1].
Määrake kvaliteedipiirangud – täpsuskontrollid, stabiilsustestid ja inimese kaasamisega seotud ülevaated [5].
Planeeri ulatust – selgitused peaksid olema logitavad, testitavad ja auditeeritavad.
Dokumenteerige piirangud – ükski meetod pole täiuslik; kirjutage üles teadaolevad rikkeviisid.

Väike kõrvalepõige – kui te ei saa selgitusi samamoodi testida nagu mudeleid, siis ei pruugi teil seletusi ollagi, vaid ainult tunne.

Võrdlustabel - levinud selgitatavad tehisintellekti valikud 🧮

Veidi omapärane meelega; päriselu on segane.

Tööriist / meetod	Parim publik	Hind	Miks see nende jaoks toimib
SHAP	Andmeteadlased, audiitorid	Tasuta/avatud	Additiivsed omistamised – järjepidevad, võrreldavad [3].
LABI	Tootemeeskonnad, analüütikud	Tasuta/avatud	Kiired lokaalsed surrogaadid; kergesti haaratavad; kohati lärmakad [4].
Integreeritud gradiendid	ML-insenerid süvavõrkudel	Tasuta/avatud	Mõistlike aksioomidega gradientidel põhinevad omistamised [1].
Vastuolulised faktid	Lõppkasutajad, vastavus, operatsioonid	Segatud	Vastab otse, mida muuta; ülimalt teostatav [1].
Reeglite loendid / Puud	Riskide omanikud, haldurid	Tasuta/avatud	Sisemine tõlgendatavus; üldised kokkuvõtted.
Osaline sõltuvus	Mudeliarendus, kvaliteedikontroll	Tasuta/avatud	Visualiseerib keskmisi efekte vahemikes.
Prototüübid ja näidised	Disainerid, arvustajad	Tasuta/avatud	Konkreetsed, inimsõbralikud näited; äratuntavad.
Tööriistaplatvormid	Platvormi meeskonnad, juhtimine	Kommerts	Jälgimine + selgitamine + audit ühes kohas.

Jah, rakud on ebaühtlased. See on elu.

Lihtne töövoog selgitatava tehisintellekti jaoks tootmises 🛠️

1. samm – sõnasta küsimus.
Otsusta, kelle vajadused on kõige olulisemad. Andmeteadlase jaoks ei ole selgitatavus sama, mis kliendi jaoks pöördumiskiri.

2. samm – valige meetod konteksti järgi.

Laenude riskimudeli tabel – alustage kohaliku ja globaalse mudeli puhul SHAP-iga; lisage regressiriski jaoks alternatiivsed stsenaariumid [3][1].
Nägemisklassifikaator – kasutage integreeritud gradiente või sarnast meetodit; lisage mõistlikkuse kontrollid, et vältida silmatorkavuse lõkse [1][5].

3. samm – selgituste valideerimine.
Tehke selgituste järjepidevuse teste; muutke sisendandmeid; kontrollige, kas olulised funktsioonid vastavad valdkonna teadmistele. Kui teie peamised funktsioonid iga ümberõppega järsult triivivad, tehke paus.

4. samm – tehke selgitused kasutatavaks.
Esitage lihtsas keeles põhjendused koos diagrammidega. Lisage järgmised parimad tegevused. Pakkuge vajadusel linke tulemuste vaidlustamiseks – just seda läbipaistvuseeskirjad toetavadki [2].

5. samm – jälgimine ja logimine.
Jälgige selgituse stabiilsust aja jooksul. Eksitavad selgitused on riskisignaal, mitte kosmeetiline viga.

Süvaanalüüs 1: Lokaalsed vs globaalsed seletused praktikas 🔍

Kohalik aitab inimesel mõista, miks tema juhtum sellise otsuseni jõudis – see on tundlikus kontekstis ülioluline.
Globaalne aitab teie meeskonnal tagada, et mudeli õpitud käitumine oleks kooskõlas poliitika ja valdkonna teadmistega.

Tehke mõlemat. Võite alustada teenindustegevusega kohalikul tasandil ja seejärel lisada globaalse jälgimise kõrvalekallete ja õigluse kontrollimiseks.

Põhjalik analüüs 2: Vastuolulised stsenaariumid kaebuste ja apellatsioonide jaoks 🔄

Inimesed tahavad teada minimaalset muutust parema tulemuse saavutamiseks. Kontrafaktuaalsed seletused teevad just seda –muutes neid konkreetseid tegureid, muutub tulemus [1]. Ettevaatust: kontrafaktuaalsed seletused peavad arvestama teostatavuse ja õiglusega. Kellegi käskimine muuta muutumatut atribuuti ei ole plaan, see on punane lipp.

Süvaanalüüs 3: Mõistuse kontrollimine silmapaistvuse osas 🧪

Kui kasutate silmapaistvuskaarte või gradiente, tehke mõistlikkuse kontrolle. Mõned tehnikad loovad peaaegu identseid kaarte isegi siis, kui mudeli parameetrid on juhuslikud – see tähendab, et need võivad esile tõsta servi ja tekstuure, mitte õpitud tõendeid. Kaunid soojuskaardid, eksitav lugu. Ehitage CI/CD-sse automatiseeritud kontrollid [5].

KKK, mis igal koosolekul üles kerkivad 🤓

K: Kas selgitatav tehisintellekt on sama mis õiglus?
V: Ei. Selgitused aitavad teil näha ; õiglus on omadus, mida peate testima ja jõustama. Seotud, mitte identsed.

K: Kas lihtsamad mudelid on alati paremad?
V: Mõnikord. Aga lihtne ja vale on ikkagi vale. Valige lihtsaim mudel, mis vastab jõudluse ja juhtimise nõuetele.

K: Kas selgitused lekivad intellektuaalomandit?
V: Võib küll. Kalibreerige detaile sihtrühma ja riski järgi; dokumenteerige, mida ja miks te avaldate.

K: Kas me saame lihtsalt näidata funktsioonide olulisust ja asja lõpetatuks lugeda?
V: Tegelikult mitte. Olulisuse ribad ilma konteksti või viiteta on dekoratsioonid.

Liiga pikk, ei lugenud versiooni ja lõppsõnad 🌯

Selgitatav tehisintellekt on distsipliin, mille eesmärk on muuta mudeli käitumine arusaadavaks ja kasulikuks inimestele, kes seda kasutavad. Parimad seletused on täpsed, stabiilsed ja neil on selge sihtrühm. Sellistel meetoditel nagu SHAP, LIME, integreeritud gradiendid ja kontrafaktuaalsed näited on oma tugevused – kasutage neid teadlikult, testige neid rangelt ja esitage neid keeles, mille põhjal inimesed saavad tegutseda. Ja pidage meeles, et libedad visuaalid võivad olla teatraalne ettevõtmine; nõudke tõendeid selle kohta, et teie seletused peegeldavad mudeli tegelikku käitumist. Lisage oma mudeli elutsüklisse selgitatavus – see ei ole läikiv lisand, vaid osa sellest, kuidas te vastutustundlikult tarnite.

Ausalt öeldes on see natuke nagu oma mudelile hääle andmine. Mõnikord see pomiseb; mõnikord see seletab üle; mõnikord see ütleb täpselt seda, mida sa kuulda vajasid. Sinu ülesanne on aidata tal öelda õiget asja, õigele inimesele, õigel hetkel. Ja lisada ka hea silt või kaks. 🎯

Viited

[1] NIST IR 8312 - Selgitatava tehisintellekti neli põhimõtet. Riiklik Standardite ja Tehnoloogia Instituut. Loe edasi

[2] Määrus (EL) 2024/1689 – tehisintellekti seadus (Euroopa Liidu Teataja/EUR-Lex). Loe lähemalt

[3] Lundberg & Lee (2017) - „Ühtne lähenemisviis mudeliennustuste tõlgendamisele.“ arXiv. Loe lähemalt

[4] Ribeiro, Singh ja Guestrin (2016) - „Miks peaksin ma sind usaldama?“ Mis tahes klassifikaatori ennustuste selgitamine. arXiv. Loe edasi

[5] Adebayo jt (2018) - „Soolsuskaartide mõistlikkuse kontrollid.“ NeurIPS (PDF-failina). Loe lähemalt

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse