Kui oled kunagi tarninud mudeli, mis sülearvutis säras, aga tootmises komistas, siis tead juba saladust: tehisintellekti jõudluse mõõtmine pole üks maagiline mõõdik. See on kontrollisüsteem, mis on seotud reaalsete eesmärkidega. Täpsus on oluline. Usaldusväärsus, ohutus ja ärimõju on veelgi olulisemad.
Artiklid, mida võiksite pärast seda lugeda:
🔗 Kuidas tehisintellektiga rääkida
Juhend tehisintellektiga tõhusa suhtlemise kohta järjepidevalt paremate tulemuste saavutamiseks.
🔗 Mis on tehisintellekti prompt?
Selgitab, kuidas küsimused kujundavad tehisintellekti vastuseid ja väljundkvaliteeti.
🔗 Mis on tehisintellekti andmete märgistamine?
Ülevaade täpsete siltide määramisest andmetele treeningmudelite jaoks.
🔗 Mis on tehisintellekti eetika?
Sissejuhatus tehisintellekti vastutustundlikku arendamist ja juurutamist juhtivatesse eetilistesse põhimõtetesse.
Mis tagab hea tehisintellekti jõudluse? ✅
Lühidalt: hea tehisintellekti jõudlus tähendab, et teie süsteem on kasulik, usaldusväärne ja korratav keerulistes ja muutuvates tingimustes. Täpsemalt:
-
Ülesande kvaliteet – see annab õiged vastused õigetel põhjustel.
-
Kalibreerimine – usaldusskoorid vastavad tegelikkusele, et saaksite nutikalt tegutseda.
-
Vastupidavus – peab vastu triivile, servadele ja vastaspoolte ebakõladele.
-
Ohutus ja õiglus – see väldib kahjulikku, eelarvamuslikku või nõuetele mittevastavat käitumist.
-
Tõhusus – see on piisavalt kiire, piisavalt odav ja piisavalt stabiilne, et mastaapselt töötada.
-
Mõju ettevõttele – see muudab tegelikult teie jaoks olulist KPI-d.
Kui soovite mõõdikute ja riskide ühtlustamiseks ametlikku tugipunkti, NISTi tehisintellekti riskijuhtimise raamistik usaldusväärse süsteemihindamise kindel alus. [1]

Kõrgetasemeline retsept tehisintellekti jõudluse mõõtmiseks 🍳
Mõtle kolmes kihis :
-
Ülesande mõõdikud – ülesande tüübi korrektsus: klassifitseerimine, regressioon, järjestamine, genereerimine, kontroll jne.
-
Süsteemi mõõdikud – latentsus, läbilaskevõime, kõne maksumus, rikke määr, triivi alarmid, tööaja teenusetaseme lepingud.
-
Tulemusmõõdikud – ärilised ja kasutajatega seotud tulemused, mida te tegelikult soovite: konversioon, klientide säilitamine, ohutusintsidendid, käsitsi ülevaatamise koormus, piletite arv.
Hea mõõtmisplaan segab teadlikult kõiki kolme. Vastasel juhul saadakse rakett, mis stardiplatvormilt kunagi lahkub.
Põhinäitajad probleemi tüübi järgi – ja millal mida kasutada 🎯
1) Klassifikatsioon
-
Täpsus, Meeldetuletus, F1 – esmakordsete testide kolmik. F1 on täpsuse ja meeldetuletuse harmooniline keskmine; kasulik, kui klassid on tasakaalustamata või kulud asümmeetrilised. [2]
-
ROC-AUC - klassifikaatorite lävendipõhine agnostiline järjestus; kui positiivseid tulemusi on vähe, kontrollige ka PR-AUC-d . [2]
-
Tasakaalustatud täpsus – klasside keskmine meenutus; mugav viltuste siltide puhul. [2]
Lõks: ainuüksi täpsus võib tasakaalustamatuse tõttu olla metsikult eksitav. Kui 99% kasutajatest on seaduslikud, siis rumal, alati seaduslik mudel saab 99% tulemuse ja alt veab teie pettustemeeskonna juba enne lõunat.
2) Regressioon
-
MAE inimloetava vea jaoks; RMSE suurte möödalaskmiste karistamiseks; R² dispersiooni selgitamiseks. Seejärel kontrollige jaotuste mõistlikkust ja jääkdiagramme. [2]
(Kasutage domeenisõbralikke ühikuid, et sidusrühmad saaksid viga tegelikult tunda.)
3) Edetabel, otsing, soovitused
-
nDCG – hoolib positsioonist ja astmelisest asjakohasusest; otsingu kvaliteedi standard.
-
MRR – keskendub sellele, kui kiiresti esimene asjakohane element ilmub (suurepärane „leida üks hea vastus” ülesannete jaoks).
(Rakendusviited ja töötatud näited on levinud tavalistes mõõdikute kogudes.) [2]
4) Teksti genereerimine ja kokkuvõtete tegemine
-
BLEU ja ROUGE – klassikalised kattumismõõdikud; kasulikud baasjoonena.
-
Manustamispõhised mõõdikud (nt BERTScore ) korreleeruvad sageli paremini inimese hinnangutega; kasutage alati sidet inimeste hinnangutega stiili, usaldusväärsuse ja ohutuse osas. [4]
5) Küsimustele vastamine
-
Täpne vaste ja märgitaseme F1 on ekstraktiivse kvaliteedikontrolli puhul tavalised; kui vastused peavad viitama allikatele, tuleb mõõta ka põhjendatust (vastuste toetamise kontroll).
Kalibreerimine, enesekindlus ja Brieri lääts 🎚️
Usaldusväärsuse skoorid on koht, kus paljud süsteemid vaikselt peituvad. Sa tahad tõenäosusi, mis peegeldavad reaalsust, et operatsioonid saaksid seada läviväärtusi, suunata inimesi või hinnata riski.
-
Kalibreerimiskõverad – visualiseerivad ennustatud tõenäosust vs empiirilist sagedust.
-
Brieri skoor – tõenäosusliku täpsuse hindamiseks sobiv hindamisreegel; mida madalam, seda parem. See on eriti kasulik siis, kui oluline on tõenäosuse kvaliteet
Märkus: veidi „halvem“ F1, aga palju parem kalibreerimine võib oluliselt parandada – sest inimesed saavad lõpuks hindeid usaldada.
Ohutus, eelarvamus ja õiglus – mõõda seda, mis on oluline 🛡️⚖️
Süsteem võib olla üldiselt täpne ja ikkagi kahjustada teatud gruppe. Jälgige rühmitatud mõõdikuid ja õigluse kriteeriume:
-
Demograafiline pariteet – võrdsed positiivsed määrad rühmade lõikes.
-
Võrdsed koefitsiendid / võrdsed võimalused – võrdsed veamäärad või tõeliselt positiivsete tulemuste määrad rühmade lõikes; kasutage neid kompromisside tuvastamiseks ja haldamiseks, mitte ühekordsete positiivsete tulemuste ja ebaõnnestumiste märkidena. [5]
Praktiline nipp: alustage juhtpaneelidega, mis jaotavad põhinäitajad põhiatribuutide kaupa, seejärel lisage oma poliitikate nõudmisel konkreetsed õigluse näitajad. See kõlab tülikalt, aga on odavam kui intsident.
LLM-id ja RAG - mõõtmise käsiraamat, mis tegelikult toimib 📚🔍
Generatiivsete süsteemide mõõtmine on… keeruline. Tee nii:
-
Määrake tulemused iga kasutusjuhtumi kohta: korrektsus, abivalmidus, kahjutus, stiili järgimine, brändile vastav toon, viitamise põhjendatus, keeldumise kvaliteet.
-
Automatiseeri baashinnanguid tugevate raamistike abil (nt sinu pinus olevad hindamisvahendid) ja hoia neid oma andmekogumitega versioonituna.
-
Lisage semantilised mõõdikud (manustamispõhised) ja kattuvuse mõõdikud (BLEU/ROUGE) mõistlikkuse tagamiseks. [4]
-
Instrumendi maandus RAG-is: otsingu tabamuste määr, konteksti täpsus/meenutamine, vastuste ja tugiteenuste kattumine.
-
Inimesepoolne hindamine kooskõla saavutamisel – mõõtke hindaja järjepidevust (nt Coheni κ või Fleissi κ), et teie sildid ei oleks vibratsioonid.
Boonus: logi latentsusaja protsentiilid ja tokeni või arvutuse maksumus ülesande kohta. Kellelegi ei meeldi poeetiline vastus, mis saabub järgmisel teisipäeval.
Võrdlustabel – tööriistad, mis aitavad teil tehisintellekti jõudlust mõõta 🛠️📊
(Jah, see on taotluslikult veidi segane – päris noodid on segased.)
| Tööriist | Parim publik | Hind | Miks see toimib – kiire ülevaade |
|---|---|---|---|
| scikit-learni mõõdikud | Masinõppe praktikud | Tasuta | Kanoonilised implementatsioonid klassifitseerimiseks, regressiooniks ja järjestamiseks; lihtne testidesse integreerida. [2] |
| MLflow hindamine / GenAI | Andmeteadlased, MLOps | Tasuta + tasuline | Tsentraliseeritud jooksud, automatiseeritud mõõdikud, LLM kohtunikud, kohandatud punktiarvestajad; logib artefaktid puhtalt. |
| Ilmselgelt | Meeskonnad soovivad kiiresti töölaudu | Avatud platvormid + pilv | 100+ mõõdikut, triivi ja kvaliteediaruanded, jälgimiskonksud – kenad visuaalid hädaolukorras. |
| Kaalud ja eelarvamused | Eksperimentaalselt orienteeritud organisatsioonid | Vaba tasand | Kõrvuti võrdlused, eval-andmestikud, kohtunikud; tabelid ja jäljed on enam-vähem korras. |
| LangSmith | LLM-i rakenduste koostajad | Tasuline | Jälgi iga sammu, kombineeri inimeste tehtud hinnanguid reeglite või õigusteaduse magistriõppe hindajatega; suurepärane RAG-i jaoks. |
| TruLens | Avatud lähtekoodiga LLM-i hindamise austajad | OSS | Tagasiside funktsioonid toksilisuse, maandatud olemuse ja asjakohasuse hindamiseks; integreeritav kõikjale. |
| Suured ootused | Andmete kvaliteeti esikohale seadvad organisatsioonid | OSS | Formaliseeri ootused andmetele – sest halvad andmed rikuvad niikuinii kõik mõõdikud. |
| Sügavkontrollid | Testimine ja CI/CD masinõppe jaoks | Avatud platvormid + pilv | Patareidega testimine andmete triivi, mudeliprobleemide ja jälgimise osas; head kaitsepiirded. |
Hinnad muutuvad – kontrollige dokumente. Ja jah, saate neid asju omavahel kombineerida ilma, et tööriistapolitsei kohale ilmuks.
Läved, kulud ja otsustuskõverad - salajane retsept 🧪
Kummaline, aga tõsi: kahel sama ROC-AUC suhtega mudelil võib olla väga erinev äriväärtus, olenevalt teie lävendi ja kulude suhtest .
Kiirelt ehitatav leht:
-
Määrake valepositiivse ja valenegatiivse tulemuse hind rahas või ajas.
-
Pühkige läviväärtusi ja arvutage eeldatav maksumus 1000 otsuse kohta.
-
Valige minimaalne eeldatav kululävi ja seejärel lukustage see jälgimisega.
Kasutage PR-kõveraid, kui positiivsed tulemused on haruldased, ROC-kõveraid üldise kuju jaoks ja kalibreerimiskõveraid, kui otsused tuginevad tõenäosustele. [2][3]
Minijuhtum: tugiteenuse piletite triaažimudel tagasihoidliku F1-ga, kuid suurepärase kalibreerimisega, mis vähendas käsitsi ümbersuunamisi pärast seda, kui operatsioonid lülitusid rangelt lävelt astmelisele marsruutimisele (nt „automaatne lahendamine”, „inimesepoolne läbivaatamine”, „eskaleerimine”), mis oli seotud kalibreeritud punktisummadega.
Veebis jälgimine, triivimine ja hoiatamine 🚨
Võrguühenduseta hindamised on algus, mitte lõpp. Tootmises:
-
Jälgige sisendi triivi , väljundi triivi ja jõudluse langust segmentide kaupa.
-
Määrake piirde kontrollid - maksimaalne hallutsinatsioonide määr, toksilisuse läved, õigluse deltad.
-
Lisage P95 latentsuse, ajalõpude ja päringu maksumuse jaoks Canary armatuurlauad
-
Selle kiirendamiseks kasutage spetsiaalselt loodud teeke; need pakuvad koheselt triivi, kvaliteedi ja jälgimise primitiivid.
Väike vigane metafoor: mõtle oma mudelist kui juuretiseleivast – sa ei küpseta vaid korra ja siis ei kõnni minema; sa toidad, vaatad, nuusutad ja vahel ka uuesti alustad.
Inimlik hinnang, mis ei murene 🍪
Kui inimesed tulemusi hindavad, on protsess olulisem, kui arvate.
-
Kirjutage täpsed rubriigid näidetega läbimise, piiripealse ja mitteläbimise kohta.
-
Võimalusel randomiseerige ja tehke pimevalimid.
-
Mõõda hindajate omavahelist kokkulepet (nt Coheni κ kahe hindaja puhul, Fleissi κ paljude puhul) ja uuenda rubriike, kui kokkulepetes esineb vigu.
See hoiab ära teie inimlike siltide muutumise vastavalt meeleolule või kohvipaisule.
Põhjalik analüüs: kuidas mõõta tehisintellekti jõudlust õigusteaduse magistrantide jaoks RAG-is 🧩
-
Otsingu kvaliteet - recall@k, precision@k, nDCG; kullafaktide katvus. [2]
-
Vastuse täpsus – tsiteerimis- ja kinnituskontrollid, põhjendatuse skoorid, vastandlikud uuringud.
-
Kasutajate rahulolu – pöidlad, ülesande täitmine, muutmise kaugus soovitatud mustanditest.
-
Ohutus – toksilisus, isikuandmete leke, eeskirjade järgimine.
-
Maksumus ja latentsus – tokenid, vahemälu tabamused, p95 ja p99 latentsusajad.
Seo need äritegevustega: kui maandatus langeb alla teatud piiri, suuna automaatselt rangele režiimile või inimese poolt ülevaatamisele.
Lihtne juhend tänaseks alustamiseks 🪄
-
Defineeri töö – kirjuta üks lause: mida tehisintellekt peab tegema ja kelle jaoks.
-
Vali 2–3 ülesande mõõdikut – lisaks kalibreerimine ja vähemalt üks õigluse näitaja. [2][3][5]
-
Määrake läviväärtused kulude põhjal – ärge arvake.
-
Looge väike eval-komplekt – 100–500 sildistatud näidet, mis peegeldavad tootmissegu.
-
Automatiseeri oma hindamised – ühenda hindamine/jälgimine konfiguratsioonikeskkonnaga (CI), et iga muudatus läbiks samad kontrollid.
-
Monitor tootes - triiv, latentsus, maksumus, intsidendi märgid.
-
Vaadake igakuiselt üle – kärpige mõõdikuid, mida keegi ei kasuta; lisage need, mis vastavad tegelikele küsimustele.
-
Dokumenteerige otsuseid – see on elav tulemustabel, mida teie meeskond tegelikult loeb.
Jah, see on sõna otseses mõttes see. Ja see toimib.
Levinud vead ja kuidas neist lahti saada 🕳️🐇
-
Ühele mõõdikule üle sobitamine – kasutage mõõdikute korvi , mis sobib otsuse kontekstiga. [1][2]
-
Kalibreerimise ignoreerimine – enesekindlus ilma kalibreerimiseta on lihtsalt enesekindluse suurendamine. [3]
-
Segmenteerimist ei toimu – alati tuleb segmenteerida kasutajarühmade, geograafia, seadme ja keele järgi. [5]
-
Määratlemata kulud – kui te ei määra vigadele hinda, valite vale läve.
-
Inimliku hindamise triiv – mõõtke kooskõla, värskendage rubriike, koolitage retsensente ümber.
-
Ohutusinstrumente pole vaja – lisage õigluse, toksilisuse ja poliitika kontrollid kohe, mitte hiljem. [1][5]
Fraas, mille pärast sa tulid: kuidas mõõta tehisintellekti jõudlust - liiga pikk, ma ei lugenud seda 🧾
-
Alusta selgete tulemustega ja seejärel koonda ülesannete , süsteemi ja ärinäitajad . [1]
-
Kasutage töö jaoks õigeid mõõdikuid – klassifitseerimiseks F1 ja ROC-AUC; järjestamiseks nDCG/MRR; genereerimiseks kattuvust + semantilisi mõõdikuid (koos inimestega). [2][4]
-
Kalibreeri oma tõenäosusi ja hinda oma vigu , et valida läviväärtusi. [2][3]
-
Lisa õigluse kontrollid ja halda kompromisse selgesõnaliselt. [5]
-
Automatiseeri hindamised ja jälgimine , et saaksid kartmatult itereerida.
Tead küll, kuidas see on – mõõda seda, mis on oluline, või parandad lõpuks seda, mis pole oluline.
Viited
[1] NIST. Tehisintellekti riskijuhtimise raamistik (AI RMF). Loe edasi
[2] scikit-learn. Mudeli hindamine: ennustuste kvaliteedi kvantifitseerimine (kasutusjuhend). Loe edasi
[3] scikit-learn. Tõenäosuse kalibreerimine (kalibreerimiskõverad, Brieri skoor). Loe edasi
[4] Papineni jt. (2002). BLEU: masintõlke automaatse hindamise meetod. ACL. Loe edasi
[5] Hardt, Price, Srebro (2016). Võrdsed võimalused juhendatud õppes. NeurIPS. Loe edasi