Kuidas tehisintellekti mudeleid testida

Kuidas tehisintellekti mudeleid testida

Lühike vastus: tehisintellekti mudelite heaks hindamiseks tuleb kõigepealt määratleda, milline on „hea“ reaalse kasutaja ja käesoleva otsuse jaoks. Seejärel tuleb luua korduvaid hinnanguid, mis põhinevad representatiivsetel andmetel, rangetel lekkekontrollidel ja mitmel mõõdikul. Lisage stressi-, eelarvamus- ja ohutuskontrollid ning kui midagi muutub (andmed, juhised, poliitika), korrake süsteemi rakendamist ja jätkake jälgimist pärast turuletoomist.

Peamised järeldused:

Edukriteeriumid : enne mõõdikute valimist määratlege kasutajad, otsused, piirangud ja halvima stsenaariumi tõrked.

Korduvus : Loo eval-süsteem, mis kordab iga muudatusega võrreldavaid teste.

Andmehügieen : säilita stabiilsed jaotused, väldi duplikaate ja blokeeri funktsioonide leke varakult.

Usalduskontrollid : stressitesti usaldusväärsust, õigluse analüüse ja LLM-i ohutuskäitumist selgete rubriikide abil.

Elutsükli distsipliin : juurutamine etappidena, kõrvalekallete ja intsidentide jälgimine ning teadaolevate lünkade dokumenteerimine.

Artiklid, mida võiksite pärast seda lugeda:

🔗 Mis on tehisintellekti eetika?
Avastage tehisintellekti vastutustundliku disaini, kasutamise ja haldamise põhimõtteid.

🔗 Mis on tehisintellekti eelarvamus?
Siit saad teada, kuidas kallutatud andmed moonutavad tehisintellekti otsuseid ja tulemusi.

🔗 Mis on tehisintellekti skaleeritavus?
Mõista tehisintellekti süsteemide skaleerimist jõudluse, kulude ja töökindluse seisukohast.

🔗 Mis on tehisintellekt
Selge ülevaade tehisintellektist, selle tüüpidest ja reaalsest kasutusest.


1) Alustage sõna „hea” ebaglamuurse definitsiooniga 

Enne mõõdikuid, enne armatuurlaudu, enne võrdlusaluste muutmist – otsusta, milline edu välja näeb.

Selgita:

  • Kasutaja: siseanalüütik, klient, terapeut, autojuht, väsinud tugiteenuse osutaja kell 16.00…

  • Otsus: laenu kinnitamine, pettuse märgistamine, sisu soovitamine, märkmete kokkuvõte

  • Kõige olulisemad ebaõnnestumised:

    • Valepositiivsed (tüütud) vs valenegatiivsed (ohtlikud)

  • Piirangud: latentsusaeg, päringu hind, privaatsusreeglid, selgitatavuse nõuded, ligipääsetavus

See on see osa, kus meeskonnad hakkavad optimeerima „ilusa mõõdiku“ asemel „olulise tulemuse“ nimel. Seda juhtub palju. Nagu… palju.

Kindel viis selle riskiteadlikkuse (mitte emotsioonide-põhise) hoidmiseks on raamistada testimine usaldusväärsuse ja elutsükli riskijuhtimise ümber, nagu NIST teeb tehisintellekti riskijuhtimise raamistikus (AI RMF 1.0) [1].

 

Tehisintellekti mudelite testimine

2) Mis teeb „kuidas tehisintellekti mudeleid testida“ hea versiooni ✅

Kindlal testimismeetodil on mõned tingimused, mille üle vaielda:

  • Esinduslikud andmed (mitte ainult puhaste laboriandmete)

  • Selged lõhed lekkekaitsega (sellest lähemalt sekundi pärast)

  • Baasjooned (lihtsad mudelid, mida peaksite ületama - näivhinnangud eksisteerivad põhjusega [4])

  • Mitu mõõdikut (sest üks number valetab sulle viisakalt näkku)

  • Stressitestid (äärmuslikud juhtumid, ebatavalised sisendid, vastandlikud stsenaariumid)

  • Inimese poolt teostatavad ülevaatustsüklid (eriti generatiivsete mudelite puhul)

  • Jälgimine pärast turuletoomist (sest maailm muutub, tootekanalid katkevad ja kasutajad on… loomingulised [1])

Samuti: hea lähenemisviis hõlmab testitud asjade, mittetestitud asjade ja närvilisuse dokumenteerimist. See „mille pärast ma närvis olen“ osa tundub ebamugav – ja just sealt hakkab tekkima usaldus.

Kaks dokumenteerimismustrit, mis aitavad meeskondadel järjepidevalt ausad püsida:

  • Mudelikaardid (milleks mudel on mõeldud, kuidas seda hinnati, kus see ebaõnnestub) [2]

  • Andmekogumite andmelehed (millised andmed on, kuidas neid koguti, milleks neid peaks/ei peaks kasutama) [3]


3) Tööriistade reaalsus: mida inimesed praktikas kasutavad 🧰

Tööriistad on valikulised. Head hindamisharjumused aga mitte.

Kui soovite pragmaatilist ülesehitust, on enamikul meeskondadel lõpuks kolm valikut:

  1. Katse jälgimine (käitused, konfiguratsioonid, artefaktid)

  2. Hindamisraamistik (korduvad võrguühenduseta testid + regressioonikomplektid)

  3. Jälgimine (triivilaadsed signaalid, jõudlusproksid, intsidentide hoiatused)

Näiteid, mida päriselus palju näeb (mitte soovitusi ja jah - funktsioonide/hinnakujunduse muutused): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.

Kui valid sellest jaotisest idee ehita korratav evaluatsioonisüsteem . Sa tahad „vajuta nuppu → saa võrreldavaid tulemusi“, mitte „käivita märkmik uuesti ja palveta“.


4) Loo õige testikomplekt (ja lõpeta andmete lekkimine) 🚧

Šokeeriv arv "hämmastavaid" modelle petab kogemata.

Standardse ML jaoks

Mõned ebaseksikaid reegleid, mis päästavad karjääri:

  • Hoidke rongi/valideerimise/testimise jaotused stabiilsena (ja kirjutage jaotusloogika üles)

  • Vältige duplikaate jaotuste vahel (sama kasutaja, sama dokument, sama toode, peaaegu duplikaadid)

  • Jälgige funktsioonide lekkeid (tulevane teave hiilib „praegustesse” funktsioonidesse)

  • Kasutage baasväärtusi (näidatud hinnanguid), et te ei tähistaks mitte millegi võitmist [4]

Lekke definitsioon (kiire versioon): kõik treeningus/hindamises, mis annab mudelile juurdepääsu teabele, mida tal otsuse tegemise ajal poleks. See võib olla ilmne („tuleviku silt“) või varjatud („sündmusejärgne ajatempli ämber“).

LLM-ide ja generatiivsete mudelite jaoks

Sa lood süsteemi, mis põhineb juhistel ja eeskirjadel , mitte lihtsalt „mudelil“.

  • Looge kuldne ülesannete komplekt (väike, kvaliteetne, stabiilne)

  • Lisa hiljutised päris näidised (anonüümsed ja privaatsust kaitsvad)

  • Hoidke pealiskaudne pakett : trükivead, släng, mittestandardne vormindus, tühjad sisendid, mitmekeelsed üllatused 🌍

Üks praktiline asi, mida olen mitu korda näinud juhtuvat: meeskond saadab töö „tugeva“ võrguühenduseta skooriga, seejärel ütleb klienditugi: „Lahe. See jätab enesekindlalt ühe olulise lause vahele.“ Parandus ei olnud „suurem mudel“. See oli paremad testiküsimused , selgemad rubriigid ja regressioonikomplekt, mis karistas täpselt selle veatüübi eest. Lihtne. Tõhus.


5) Võrguühenduseta hindamine: mõõdikud, millel on tähendus 📏

Mõõdikud on head. Mõõdikutel põhinev monokultuur aga mitte.

Klassifikatsioon (rämpspost, pettus, kavatsus, triaaž)

Kasutage enamat kui lihtsalt täpsust.

  • Täpsus, tagasikutsumine, F1

  • Lävendi häälestamine (teie vaikesätete lävi on teie kulude jaoks harva „õige“) [4]

  • Segadusmaatriksid segmendi kohta (piirkond, seadme tüüp, kasutajarühm)

Regressioon (prognoosimine, hinnastamine, hindamine)

  • MAE / RMSE (vali selle põhjal, kuidas soovid vigu karistada)

  • Kalibreerimisetaolised kontrollid, kui väljundeid kasutatakse „skooridena“ (kas skoorid vastavad tegelikkusele?)

Edetabeli-/soovitussüsteemid

  • NDCG, MAP, MRR

  • Lõika päringu tüübi järgi (pea vs saba)

Arvutinägemine

  • mAP, IoU

  • Tunni sooritus (haruldastes tundides panevad modellid sind piinlikkust tundma)

Generatiivsed mudelid (LLM-id)

Siin lähevad inimesed… filosoofiliseks 😵💫

Praktilised valikud, mis toimivad päris meeskondades:

  • Inimese hinnang (parim signaal, aeglaseim ring)

  • Paaripõhine eelistus / võiduprotsent (A vs B on lihtsam kui absoluutne punktiarvestus)

  • Automatiseeritud tekstimõõdikud (mõne ülesande jaoks mugav, teiste jaoks eksitav)

  • Ülesandepõhised kontrollid: „Kas see ekstraheeris õiged väljad?“, „Kas see järgis poliitikat?“, „Kas see viitas allikatele vajadusel?“

Kui soovite struktureeritud „mitme mõõdiku ja paljude stsenaariumidega“ tugipunkti, on HELM hea ankur: see lükkab hindamise täpsusest kaugemale sellistesse aspektidesse nagu kalibreerimine, robustsus, eelarvamus/toksilisus ja efektiivsuse kompromissid [5].

Väike kõrvalepõige: kirjutamise kvaliteedi automatiseeritud mõõdikud tunduvad mõnikord nagu võileiva hindamine seda kaaludes. See pole tühiasi, aga... no tule nüüd 🥪


6) Vastupidavuse testimine: pange see natuke higistama 🥵🧪

Kui teie mudel töötab ainult korralike sisendandmete korral, on see põhimõtteliselt klaasvaas. Ilus, habras, kallis.

Test:

  • Müra: trükivead, puuduvad väärtused, mittestandardne unikood, vormindusvead

  • Jaotuse nihe: uued tootekategooriad, uus släng, uued andurid

  • Äärmuslikud väärtused: vahemikust väljas olevad numbrid, hiiglaslikud kasulikud koormused, tühjad stringid

  • „Vastasepoolsed” sisendid, mis ei näe välja nagu teie treeningkomplekt, aga näevad välja nagu kasutajad

LLM-ide puhul lisage:

  • Kiired süstimiskatsed (juhised peidetud kasutaja sisusse)

  • Mustrid „Ignoreeri eelmisi juhiseid”

  • Tööriistade kasutamise äärejuhtumid (halvad URL-id, ajalõpud, osalised väljundid)

Töökindlus on üks neist usaldusväärsuse omadustest, mis kõlab abstraktselt kuni intsidentide tekkimiseni. Siis muutub see… väga käegakatsutavaks [1].


7) Eelarvamused, õiglus ja kelle heaks need toimivad ⚖️

Mudel võib olla üldiselt „täpne“, kuid teatud rühmade puhul järjepidevalt halvem. See pole väike viga. See on toote ja usalduse probleem.

Praktilised sammud:

  • Hinnake tulemuslikkust oluliste segmentide (õiguslikult/eetiliselt mõõdetav)

  • Võrdle veamäärasid ja kalibreerimist rühmade vahel

  • Testi puhverserveri funktsioone (postiindeks, seadme tüüp, keel), mis võivad kodeerida tundlikke tunnuseid

Kui sa seda kuskil ei dokumenteeri, siis palud sa sisuliselt tuleviku-sinul usalduskriisi ilma kaardita siluda. Mudelkaardid on selleks kindel koht [2] ja NISTi usaldusväärsuse raamistik annab sulle tugeva kontrollnimekirja sellest, mida „hea“ üldse hõlmama peaks [1].


8) Ohutus- ja turvatestid (eriti õigusteaduse magistrantidele) 🛡️

Kui teie mudel suudab sisu genereerida, testite enamat kui lihtsalt täpsust. Te testite käitumist.

Lisa testid järgmistele teemadele:

  • Keelatud sisu loomine (eeskirjade rikkumised)

  • Privaatsusleke (kas see kajastab saladusi?)

  • Hallutsinatsioonid kõrge riskiga valdkondades

  • Liigne keeldumine (mudel keeldub tavapärastest taotlustest)

  • Toksilisuse ja ahistamise väljundid

  • Andmete väljafiltreerimise katsed kiire süstimise teel

Põhimõtteline lähenemine on järgmine: defineeri poliitikareeglid → loo testimisjuhised → hinda väljundeid inimeste ja automaatkontrollide abil → käivita see iga kord, kui midagi muutub. See „iga kord“ ongi üür.

See sobib ideaalselt elutsükli riskide mõtteviisiga: valitse, kaardista konteksti, mõõda, halda, korda [1].


9) Veebipõhine testimine: etapiviisiline kasutuselevõtt (kus tõde elab) 🚀

Offline-testid on vajalikud. Veebipõhine kokkupuude on see, kus reaalsus tuleb mudastes kingades esile.

Sa ei pea olema uhke. Sa pead lihtsalt olema distsiplineeritud:

  • Käivita varjurežiimis ( mudel töötab, ei mõjuta kasutajaid)

  • Järkjärguline kasutuselevõtt (alguses väike liiklus, laienda kui see on hea)

  • Jälgi tulemusi ja intsidente (kaebusi, eskaleerumisi, poliitika puudujääke)

Isegi kui te ei saa kohe silte, saate jälgida puhverserveri signaale ja tööseisundit (latentsus, rikete määr, maksumus). Peamine mõte: te tahate kontrollitud viisi rikete avastamiseks enne, kui seda teeb kogu teie kasutajaskond [1].


10) Jälgimine pärast juurutamist: triiv, lagunemine ja vaikne rike 📉👀

Mudel, mida sa testisid, ei ole see mudel, millega sa lõpuks elama hakkad. Andmed muutuvad. Kasutajad muutuvad. Maailm muutub. Torujuhe katkeb kell 2 öösel. Tead küll, kuidas see on..

Monitor:

  • Sisendandmete triiv (skeemi muutused, puudused, jaotuse nihked)

  • Väljundi triiv (klassi tasakaalu nihked, tulemuste nihked)

  • Toimivusproksid (kuna siltide viivitused on reaalsed)

  • Tagasiside signaalid (ei pöidlad alla, ümbertoimetamine, eskaleerimine)

  • Segmendi tasemel regressioonid (vaiksed tapjad)

Ja seadke häirekünnised, mis pole liiga närvilised. Pidevalt karjuvat monitori ignoreeritakse – nagu autoalarm linnas.

See „jälgi + täiusta aja jooksul” tsükkel pole valikuline, kui usaldusväärsus on oluline [1].


11) Praktiline töövoog, mida saate kopeerida 🧩

Siin on lihtne skaleeruv tsükkel:

  1. Edu ja ebaõnnestumise režiimide määratlemine (sh kulu/latentsus/ohutus) [1]

  2. Loo andmekogumeid:

    • kuldne komplekt

    • ääreümbrise pakk

    • hiljutised pärisnäidised (privaatsust kaitstes)

  3. Valige mõõdikud:

    • ülesande mõõdikud (F1, MAE, võidumäär) [4][5]

    • ohutusnäitajad (poliitika läbimise määr) [1][5]

    • operatiivsed näitajad (latentsus, maksumus)

  4. Ehitage hindamissüsteem (töötab iga mudeli/teatemuudatuse korral) [4][5]

  5. Lisa stressitestid + vastastikuse kasu testid [1][5]

  6. Valimi inimesepoolne läbivaatamine (eriti õigusteaduse magistriõppe väljundite puhul) [5]

  7. Varjupaigataotleja + etapiviisiline levitamine [1]

  8. Jälgimine + hoiatamine + ümberõpetamine distsiplineeritult [1]

  9. Tulemused dokumenteeritakse mudelkaardi stiilis kirjelduses [2][3]

Treening on glamuurne. Testimine on raha teeniv.


12) Lõppsõna + kiire kokkuvõte 🧠✨

Kui mäletate tehisintellekti mudelite testimise :

  • Kasutage representatiivseid katseandmeid ja vältige lekkeid [4]

  • Valige mitu mõõdikut, mis on seotud tegelike tulemustega [4][5]

  • Õigusteaduse magistriõppe puhul toetuge inimeste hinnangule ja võidumäärade stiilis võrdlustele [5]

  • Testi robustsus – ebatavalised sisendid on varjatud normaalsed sisendid [1]

  • Veeretage ohutult välja ja jälgige, sest mudelid triivivad ja torujuhtmed purunevad [1]

  • Dokumenteeri, mida sa tegid ja mida sa ei testinud (ebamugav, aga võimas) [2][3]

Testimine ei ole lihtsalt „toimivuse tõestamine“. See on „enne kasutajate katseid läbikukkumise põhjuste väljaselgitamine“. Ja jah, see pole nii seksikas – aga see on see osa, mis hoiab teie süsteemi püsti, kui asjad kõikuma hakkavad... 🧱🙂


KKK

Parim viis tehisintellekti mudelite testimiseks, et need vastaksid tegelikele kasutajate vajadustele

Alusta „hea“ defineerimisest reaalse kasutaja ja mudeli toetatava otsuse seisukohast, mitte ainult edetabeli mõõdiku kaudu. Tuvasta kõige kulukamad vearežiimid (valepositiivsed vs valenegatiivsed) ja täpsusta ranged piirangud, nagu latentsus, maksumus, privaatsus ja selgitatavus. Seejärel vali mõõdikud ja testijuhtumid, mis neid tulemusi kajastavad. See hoiab ära „ilusa mõõdiku“ optimeerimise, mis ei too kunagi kaasa paremat toodet.

Edukriteeriumide määratlemine enne hindamismõõdikute valimist

Kirjutage üles, kes on kasutaja, millist otsust mudel peaks toetama ja milline näeb välja „halvimal juhul tekkiv tõrge“ tootmises. Lisage tegevuspiirangud, näiteks vastuvõetav latentsusaeg ja päringu maksumus, ning haldusvajadused, näiteks privaatsusreeglid ja turvapoliitikad. Kui need on selged, saavad mõõdikutest viis õige asja mõõtmiseks. Ilma selle raamistikuta kipuvad meeskonnad optimeerima seda, mida on kõige lihtsam mõõta.

Andmete lekke ja juhusliku pettuse vältimine mudeli hindamisel

Hoidke rongi-/valideerimis-/testimisjaotused stabiilsena ja dokumenteerige jaotusloogika, et tulemused oleksid reprodutseeritavad. Blokeerige aktiivselt duplikaadid ja peaaegu duplikaadid jaotuste vahel (sama kasutaja, dokument, toode või korduvad mustrid). Jälgige funktsioonide leket, kus „tuleviku” teave libiseb sisenditesse ajatemplite või sündmusejärgsete väljade kaudu. Tugev baasjoon (isegi näivhinnangud) aitab teil märgata, millal te müra tähistate.

Mida peaks hindamissüsteem sisaldama, et testid oleksid muudatuste korral korratavad

Praktiline rakmed käivitavad võrreldavad testid iga mudeli, ülesande või poliitikamuudatuse puhul, kasutades samu andmekogumeid ja hindamisreegleid. Tavaliselt sisaldab see regressioonikomplekti, selgeid mõõdikute armatuurlaudu ning jälgitavuse tagamiseks salvestatud konfiguratsioone ja artefakte. LLM-süsteemide puhul vajab see ka stabiilset ülesannete „kuldset komplekti“ ja äärmuslike juhtumite paketti. Eesmärk on „vajuta nuppu → võrreldavad tulemused“, mitte „käivita märkmik uuesti ja palveta“

Mõõdikud tehisintellekti mudelite testimiseks täpsusest kaugemale

Kasutage mitut mõõdikut, sest üks arv võib varjata olulisi kompromisse. Klassifitseerimiseks siduge täpsus/meenutus/F1 läviväärtuste häälestamise ja segadusmaatriksitega segmendi kaupa. Regressiooni jaoks valige MAE või RMSE olenevalt sellest, kuidas soovite vigu karistada, ja lisage kalibreerimisstiilis kontrollid, kui väljundid toimivad nagu skoorid. Järjestamiseks kasutage NDCG/MAP/MRR ja lõigake pea ja saba järgi päringuid, et ebaühtlast jõudlust tuvastada.

LLM-i väljundite hindamine, kui automatiseeritud mõõdikud jäävad puudu

Käsitle seda kui küsimuse- ja poliitikasüsteemi ning hinda käitumist, mitte ainult teksti sarnasust. Paljud meeskonnad kombineerivad inimese hinnangut paarikaupa eelistamisega (A/B võidumäär) ning ülesandepõhiseid kontrolle, näiteks „kas see ekstraheeris õiged väljad” või „kas see järgis poliitikat”. Automatiseeritud tekstimõõdikud võivad kitsastel juhtudel abiks olla, kuid sageli jääb neil märkamata see, millest kasutajad hoolivad. Selged rubriigid ja regressioonianalüüsi komplekt loevad tavaliselt rohkem kui üks skoor.

Mudeli mürarikaste sisendite korral töökindlustestide käivitamine, et see ei katkeks

Stressitestige mudelit trükivigade, puuduvate väärtuste, kummalise vormingu ja mittestandardse unikoodiga, sest päris kasutajad on harva korralikud. Lisage jaotuse nihke juhtumeid, näiteks uusi kategooriaid, slängi, andureid või keelemustreid. Lisage äärmuslikke väärtusi (tühjad stringid, suured kasulikud koormused, vahemikust väljas olevad numbrid), et näidata habrast käitumist. LLM-ide puhul testige ka käsurea sisestamise mustreid ja tööriistade kasutamise tõrkeid, näiteks ajalõpusid või osalisi väljundeid.

Eelarvamuste ja õigluse probleemide kontrollimine ilma teoorias ekslemata

Hinnake sisukate lõikude toimivust ning võrrelge veamäärasid ja kalibreerimist rühmade vahel, kus see on juriidiliselt ja eetiliselt mõõdetav. Otsige kaudseid tunnuseid (nt postiindeks, seadme tüüp või keel), mis võivad tundlikke tunnuseid kaudselt kodeerida. Mudel võib tunduda "üldiselt täpne", kuid teatud kohortide puhul järjepidevalt ebaõnnestuda. Dokumenteerige, mida te mõõtsite ja mida mitte, et tulevased muudatused ei tooks vaikselt regressioone uuesti sisse.

Generatiivse tehisintellekti ja õigusteaduse süsteemide ohutus- ja turvatestid

Testi keelatud sisu genereerimist, privaatsuse lekkeid, hallutsinatsioone kõrge riskiga valdkondades ja liigset keeldumist, kus mudel blokeerib tavapäraseid päringuid. Lisa kiire süstimise ja andmete väljaviimise katsed, eriti kui süsteem kasutab tööriistu või hangib sisu. Põhjendatud töövoog on järgmine: määratle poliitikareeglid, loo testimisküsimuste komplekt, hinda nii inimeste kui ka automatiseeritud kontrollide abil ning käivita see uuesti iga kord, kui küsimused, andmed või poliitikad muutuvad. Järjepidevus on rent, mida maksad.

Tehisintellekti mudelite kasutuselevõtt ja jälgimine pärast turuletoomist, et tuvastada triivi ja intsidente

Kasutage etapiviisilisi juurutamismustreid, näiteks varjurežiimi ja järkjärgulist liikluse suurendamist, et leida tõrkeid enne, kui kogu teie kasutajaskond seda teeb. Jälgige sisendi triivi (skeemi muutused, puudused, jaotuse nihked) ja väljundi triivi (skoori nihked, klassi tasakaalu nihked) ning lisaks operatsioonilist tervist, näiteks latentsust ja kulusid. Jälgige tagasiside signaale, nagu muudatused, eskalatsioonid ja kaebused, ning vaatlege segmendi tasemel regressioone. Kui midagi muutub, käivitage sama moodul uuesti ja jälgige pidevalt.

Viited

[1] NIST - Tehisintellekti riskijuhtimise raamistik (AI RMF 1.0) (PDF)
[2] Mitchell jt - „Mudelikaardid mudeli aruandluseks” (arXiv:1810.03993)
[3] Gebru jt - „Andmestiku andmelehed” (arXiv:1803.09010)
[4] scikit-learn - dokumentatsioon „Mudeli valik ja hindamine”
[5] Liang jt - „Keelemudelite terviklik hindamine” (arXiv:2211.09110)

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse