Kuidas tehisintellekti mudeleid juurutada

Kuidas tehisintellekti mudeleid juurutada

Lühike vastus: tehisintellekti mudeli juurutamine tähendab teenindusmustri valimist (reaalajas, partii-, voogesitus- või servatöötlus) ning seejärel kogu tee reprodutseeritavaks, jälgitavaks, turvaliseks ja pöörduvaks muutmist. Kui versioonite kõike ja võrdlete p95/p99 latentsust tootmislaadsetel koormustel, saate vältida enamikku „töötab minu sülearvutil” tüüpi tõrkeid.

Peamised järeldused:

Juurutamismustrid: enne tööriistadele pühendumist valige reaalajas, partiidena, voogedastus või servas juurutamine.

Reprodutseeritavus: versioonige mudelit, funktsioone, koodi ja keskkonda, et vältida triivi.

Jälgitavus: Jälgige pidevalt latentsusaja sabasid, vigu, küllastust ning andmete või väljundjaotusi.

Ohutud juurutused: kasutage automaatsete tagasipööramislävedega kanaarivärvi, sinakasrohelist või varitestide tegemist.

Turvalisus ja privaatsus: rakendage autoriseerimist, kiirusepiiranguid ja salasõnade haldamist ning minimeerige logides isikuandmeid.

Kuidas tehisintellekti mudeleid juurutada? Infograafik

Artiklid, mida võiksite pärast seda lugeda: 

🔗 Kuidas tehisintellekti jõudlust mõõta
Õppige usaldusväärsete tehisintellekti tulemuste saamiseks mõõdikuid, võrdlusnäitajaid ja reaalseid kontrolle.

🔗 Kuidas tehisintellekti abil ülesandeid automatiseerida
Muutke korduv töö töövoogudeks, kasutades viipasid, tööriistu ja integratsioone.

🔗 Kuidas tehisintellekti mudeleid testida
Mudelite objektiivseks võrdlemiseks kavandage hinnanguid, andmekogumeid ja punktiarvestust.

🔗 Kuidas tehisintellektiga rääkida
Esita paremaid küsimusi, loo kontekst ja saa kiiremini selgemaid vastuseid.


1) Mida „juurutamine” tegelikult tähendab (ja miks see pole lihtsalt API) 🧩

Kui inimesed ütlevad „mudeli juurutamine”, võivad nad silmas pidada ükskõik millist järgmistest:

Seega juurutamine on vähem "mudeli ligipääsetavaks tegemine" ja pigem selline:

See on natuke nagu restorani avamine. Hea roa valmistamine on oluline, see on oluline. Aga ikkagi on vaja hoonet, personali, külmutust, menüüsid, tarneahelat ja viisi, kuidas õhtusöögikiirega toime tulla ilma sügavkülmas nutmata. See pole just ideaalne metafoor... aga saate aru. 🍝


2) Mis teeb „Kuidas tehisintellekti mudeleid juurutada“ hea versiooni ✅

„Hea paigutus“ on parimal moel igav. See käitub surve all etteaimatavalt ja kui see nii ei ole, saab selle kiiresti diagnoosida.

Nii näeb "hea" tavaliselt välja:

  • Reprodutseeritavad versioonid
    Sama kood + samad sõltuvused = sama käitumine. Ei mingeid kõhedaid "töötab sülearvutil" tunneteid 👻 ( Docker: Mis on konteiner? )

  • Selge liidese leping.
    Sisendid, väljundid, skeemid ja äärmusjuhud on määratletud. Kell 2 öösel üllatustüüpe ei esine. ( OpenAPI: Mis on OpenAPI?, JSON -skeem )

  • Reaalsusele vastav jõudlus.
    Latentsus ja läbilaskevõime, mida mõõdetakse tootmislaadsel riistvaral ja realistlikel koormustel.

  • Hammastega jälgimine
    Mõõdikud, logid, jäljed ja triivikontrollid, mis käivitavad toiminguid (mitte ainult armatuurlaudu, mida keegi ei ava). ( SRE raamat: Hajutatud süsteemide jälgimine )

  • Turvaline juurutusstrateegia
    Canary või siniroheline, lihtne tagasipööramine, versioonimine, mis ei nõua palvetamist. ( Canary väljalase , siniroheline juurutamine )

  • Kuluteadlikkus.
    „Kiire“ on suurepärane seni, kuni arve näeb välja nagu telefoninumber 📞💸

  • Turvalisus ja privaatsus on sisse ehitatud
    saladuste haldusse, juurdepääsu kontrollimisse, isiku tuvastamise teabe käitlemisse ja auditeeritavusse. ( Kubernetes Secrets , NIST SP 800-122 )

Kui suudad neid järjepidevalt teha, oled juba enamikust meeskondadest ees. Olgem ausad.


3) Valige õige juurutamismuster (enne tööriistade valimist) 🧠

Reaalajas API järeldus ⚡

Parim millal:

  • kasutajad vajavad koheseid tulemusi (soovitused, pettusekontrollid, vestlus, isikupärastamine)

  • otsused peavad tulema taotluse esitamise ajal

Ettevaatusabinõud:

Partii punktiarvestus 📦

Parim millal:

  • ennustusi saab edasi lükata (üleöö riski hindamine, klientide lahkumise ennustamine, ETL-i rikastamine) ( Amazon SageMaker Batch Transform )

  • soovid kulutõhusust ja lihtsamaid toiminguid

Ettevaatusabinõud:

  • andmete värskus ja varutäited

  • funktsioonide loogika treeninguga kooskõlas hoidmine

Striimimise järeldused 🌊

Parim millal:

  • töötlete sündmusi pidevalt (IoT, klikkide voogedastus, jälgimissüsteemid)

  • Sa tahad peaaegu reaalajas otsuseid ilma rangete päringu-vastusteta

Ettevaatusabinõud:

Serva juurutamine 📱

Parim millal:

Ettevaatusabinõud:

Vali esmalt muster ja seejärel virn. Vastasel juhul sunnid ruudukujulise mudeli ümarasse käituskeskkonda. Või midagi sellist. 😬


4) Mudeli pakendamine nii, et see taluks tootmisprotsessis kokkupuudet 📦🧯

Siin surevad vaikselt enamik „lihtsaid juurutusi”.

Versioon kõigest (jah, kõigest)

  • Mudeli artefakt (kaalud, graafik, tokenisaator, siltide kaardid)

  • Funktsiooniloogika (teisenduste, normaliseerimise, kodeerijate)

  • Järelduskood (eel-/järeltöötlus)

  • Keskkond (Python, CUDA, süsteemiteegid)

Lihtne meetod, mis toimib:

  • käsitle mudelit nagu väljalaskeartefakti

  • salvesta see versioonisildiga

  • vajavad mudelkaardilaadset metaandmete faili: skeem, mõõdikud, treeningandmete hetktõmmise märkmed, teadaolevad piirangud ( mudelkaardid mudelaruandluse jaoks )

Konteinerid aitavad, aga ära neid kummarda 🐳

Konteinerid on suurepärased, sest nad:

Aga ikkagi pead sa hakkama saama:

  • baaspildi uuendused

  • GPU draiverite ühilduvus

  • turvaskannimine

  • pildi suurus (kellegile ei meeldi 9 GB suurune „tere maailm“) ( Dockeri ehituse parimad tavad )

Standardiseeri liides

Otsustage sisend-/väljundvorming varakult:

  • JSON lihtsuse huvides (aeglasem, aga kasutajasõbralik) ( JSON Schema )

  • Protobuf jõudluse tagamiseks ( protokollipuhvrite ülevaade )

  • failipõhised piltide/heli (koos metaandmetega) kasulikud koormused

Ja palun valideerige sisendid. Sobimatud sisendid on peamine põhjus, miks see tagastab mõttetuid tulemusi. ( OpenAPI: Mis on OpenAPI?, JSON -skeem )


5) Teenindusvõimalused – alates „lihtsast API-st” kuni täismudeli serveriteni 🧰

On kaks levinud marsruuti:

Variant A: Rakendusserver + järelduskood (FastAPI-stiilis lähenemine) 🧪

Sa kirjutad API, mis laadib mudeli ja tagastab ennustused. ( FastAPI )

Plussid:

  • lihtne kohandada

  • suurepärane lihtsamate mudelite või algstaadiumis toodete jaoks

  • lihtne autentimine, marsruutimine ja integratsioon

Miinused:

  • teie enda jõudluse häälestamine (pakkimine, keermestamine, GPU kasutamine)

  • Sa leiutad mõned rattad uuesti, alguses võib-olla halvasti

Variant B: Mudelserver (TorchServe / Tritoni stiilis lähenemine) 🏎️

Spetsialiseeritud serverid, mis haldavad:

Plussid:

  • paremad jõudlusmustrid kohe pärast kasutamist

  • selgem eraldatus serveerimise ja äriloogika vahel

Miinused:

  • täiendav operatiivne keerukus

  • seadistamine võib tunduda… piinlik, nagu duši temperatuuri reguleerimine

Hübriidmuster on väga levinud:


6) Võrdlustabel – populaarsed juurutamisviisid (ausa atmosfääriga) 📊😌

Allpool on praktiline ülevaade valikutest, mida inimesed tehisintellekti mudelite juurutamise .

Tööriist/lähenemisviis Sihtrühm Hind Miks see toimib
Docker + FastAPI (või sarnane) Väikesed meeskonnad, idufirmad Vabameelne Lihtne, paindlik, kiire tarnida – iga skaleerimisprobleem on siiski „tunnetatud“ ( Docker , FastAPI )
Kubernetes (ise-ise) Platvormi meeskonnad Infrapuna-sõltuv Juhtimine + skaleeritavus… ja palju nuppe, mõned neist neetud ( Kubernetes HPA )
Hallatud masinõppe platvorm (pilvepõhine masinõppe teenus) Meeskonnad, kes soovivad vähem operatsioone Maksa vastavalt vajadusele Sisseehitatud juurutamise töövood, jälgimiskonksud – alati sisse lülitatud lõpp-punktide jaoks kohati kallid ( Vertex AI juurutamine , SageMakeri reaalajas järeldamine )
Serverita funktsioonid (kergeks järeldamiseks) Sündmuspõhised rakendused Maksa kasutuse eest Suurepärane tiheda liikluse jaoks - aga külmkäivitused ja mudeli suurus võivad teie päeva rikkuda 😬 ( AWS Lambda külmkäivitused )
NVIDIA Tritoni järeldusserver Tulemustele orienteeritud meeskonnad Tasuta tarkvara, infrastruktuurikulud Suurepärane GPU kasutus, partiidena töötamine, mitme mudeli toetamine – seadistamine nõuab kannatlikkust ( Triton: dünaamiline partiidena töötamine )
TorchServe PyTorchi-rasked meeskonnad Tasuta tarkvara Korralikud vaikimisi esitusmustrid – suuremahuliseks esitamiseks võib vaja minna häälestamist ( TorchServe'i dokumentatsioon )
BentoML (pakend + serveerimine) ML-insenerid Tasuta põhiosa, lisad varieeruvad Sujuv pakend, meeldiv arendajakogemus - endiselt on vaja infrastruktuuri valikuid ( BentoML-i pakkimine juurutamiseks )
Ray Serve Hajutatud süsteemide inimesed Infrapuna-sõltuv Skaleerub horisontaalselt, sobib hästi torujuhtmete jaoks – tundub väikeste projektide puhul "suur" ( Ray Serve'i dokumendid )

Lauamärkus: „Tasuta-laadne” on päriselus kasutatav terminoloogia. Sest see pole kunagi tasuta. Arve on alati kuskil, isegi kui see on sinu uni. 😴


7) Jõudlus ja skaleerimine – latentsus, läbilaskevõime ja tõde 🏁

Jõudluse häälestamine on see, kus juurutamisest saab käsitöö. Eesmärk ei ole „kiire“. Eesmärk on järjepidevalt piisavalt kiire .

Olulised peamised näitajad

Levinud tõmbamishoovad

  • Pakkide abil
    kombineeritakse päringud GPU kasutuse maksimeerimiseks. Suurepärane läbilaskevõime jaoks, kuid liialdamine võib latentsust kahjustada. ( Triton: dünaamiline pakkimine )

  • Kvantimine
    Madalam täpsus (nagu INT8) võib kiirendada järelduste tegemist ja vähendada mälumahtu. Võib täpsust veidi halvendada. Mõnikord üllataval kombel mitte. ( Kvantimine pärast treeningut )

  • Kompileerimine/optimeerimine
    ONNX eksport, graafi optimeerijad, TensorRT-laadsed vood. Võimas, aga silumine võib keeruliseks minna 🌶️ ( ONNX , ONNX käitusaja mudeli optimeerimised )

  • Vahemällu salvestamine
    Kui sisendid korduvad (või saate vahemällu salvestada manustatud andmed), saate palju kokku hoida.

  • Automaatne
    skaleerimine Skaleerib protsessori/graafikaprotsessori kasutuse, järjekorra sügavuse või päringute kiiruse järgi. Järjekorra sügavust alahinnatakse. ( Kubernetes HPA )

Veider, aga tõsi, nipp: mõõda tootmisprotsesside sarnaste suurustega. Pisikesed testfailid valetavad sulle. Nad naeratavad viisakalt ja reedavad sind hiljem.


8) Jälgimine ja jälgitavus – ära lenda pimesi 👀📈

Mudeli jälgimine ei ole ainult tööaja jälgimine. Te tahate teada, kas:

Mida jälgida (minimaalne toimiv hulk)

Teenuse seisund

Mudelkäitumine

  • sisendfunktsioonide jaotused (põhistatistika)

  • manustamisnormid (manustamismudelite jaoks)

  • väljundjaotused (usaldusväärsus, klasside segu, skoorivahemikud)

  • sisendite anomaaliate tuvastamine (prügi sisse, prügi välja)

Andmete ja kontseptsioonide triiv

Logimine, aga mitte „logi kõik igaveseks” lähenemisviis 🪵

Logi:

  • päringu ID-d

  • mudeli versioon

  • skeemi valideerimise tulemused ( OpenAPI: Mis on OpenAPI? )

  • minimaalselt struktureeritud kasuliku teabe metaandmed (mitte toores isikut tuvastav teave) ( NIST SP 800-122 )

Olge privaatsusega ettevaatlik. Te ei taha, et teie logidest saaks andmeleke. ( NIST SP 800-122 )


9) CI/CD ja väljalaskestrateegiad – käsitle mudeleid nagu päris versioone 🧱🚦

Usaldusväärsete juurutuste loomiseks ehita torujuhe. Isegi lihtne.

Kindel vool

  • Eel- ja järeltöötluse ühiktestid

  • Integratsioonitest teadaoleva sisend-väljund "kuldse hulgaga"

  • Koormustesti baasjoon (isegi kerge)

  • Loo artefakt (konteiner + mudel) ( Dockeri ehituse parimad tavad )

  • Juurutamine etapiviisilisse keskkonda

  • Canary väljalase väikesele liiklusosale ( Canary väljalase )

  • Tõsta järk-järgult

  • Automaatne tagasipööramine võtmekünniste puhul ( sinine-roheline juurutamine )

Rullimismustrid, mis päästavad teie meelerahu

Ja versioonige oma lõpp-punktid või marsruut mudeli versiooni järgi. Tulevikus tänate teid. Praeguses olukorras tänate teid samuti, aga vaikselt.


10) Turvalisus, privaatsus ja „palun ärge lekitage asju” 🔐🙃

Turvatöötajad kipuvad kohale hilja ilmuma, nagu kutsumata külaline. Parem on ta varakult kutsuda.

Praktiline kontroll-leht

  • Autentimine ja autoriseerimine (kes saab mudelile helistada?)

  • Kiiruse piiramine (kaitseb kuritarvituste ja juhuslike tormide eest) ( API lüüsi piiramine )

  • Saladuste haldus (koodis pole võtmeid ega konfiguratsioonifailides pole võtmeid...) ( AWS Secrets Manager , Kubernetes Secrets )

  • Võrgu juhtelemendid (privaatsed alamvõrgud, teenustevahelised poliitikad)

  • Auditeerimislogid (eriti tundlike ennustuste puhul)

  • Andmete minimeerimine (salvestage ainult seda, mida vaja) ( NIST SP 800-122 )

Kui modell puudutab isikuandmeid:

  • redigeerimis- või räsiidentifikaatorid

  • vältida toorandmete logimist ( NIST SP 800-122 )

  • määratle säilitusreeglid

  • dokumentide andmevoog (igav, aga kaitsev)

Samuti võib generatiivsete mudelite puhul olla oluline kiire süstimine ja väljundi kuritarvitamine. Lisa: ( OWASP 10 parimat LLM-rakenduste jaoks , OWASP: kiire süstimine )

  • sisendi puhastamise reeglid

  • väljundi filtreerimine vastavalt vajadusele

  • tööriistade kutsumise või andmebaasi toimingute piirded

Ükski süsteem pole täiuslik, aga sa saad seda vähem hapraks muuta.


11) Levinud lõksud (ehk tavalised lõksud) 🪤

Siin on klassikud:

Kui sa seda loed ja mõtled "jah, me teeme kaks sellist", siis tere tulemast klubisse. Klubis on suupisted ja kerge stressitase. 🍪


12) Kokkuvõte – kuidas tehisintellekti mudeleid juurutada ilma hulluks minemata 😄✅

Juurutamine on see, kus tehisintellektist saab päris toode. See pole glamuurne, aga just sellega teenitakse usaldus välja.

Kiire kokkuvõte

Ja jah, tehisintellekti mudelite juurutamine võib alguses tunduda nagu leegitsevate bowlingukuulidega žongleerimine. Aga kui teie müügikanal on stabiilne, muutub see veidralt rahuldustpakkuvaks. Nagu lõpuks segamini sahtli korrastamine... ainult see sahtel on tootmisliiklus. 🔥🎳

KKK

Mida tähendab tehisintellekti mudeli juurutamine tootmises

Tehisintellekti mudeli juurutamine hõlmab tavaliselt palju enamat kui ennustus-API avalikustamist. Praktikas hõlmab see mudeli ja selle sõltuvuste pakendamist, esitusmustri valimist (reaalajas, partii-, voogesitus- või servapõhine), usaldusväärsusega skaleerimist, seisundi ja nihke jälgimist ning ohutu juurutamise ja tagasipööramise teede seadistamist. Korralik juurutus püsib koormuse all prognoositavalt stabiilsena ja diagnoositav, kui midagi valesti läheb.

Kuidas valida reaalajas, partiidena, voogedastusel või servas juurutamise vahel?

Valige juurutamismuster selle põhjal, millal on vaja ennustusi ja milliste piirangute all te tegutsete. Reaalajas API-d sobivad interaktiivseteks kogemusteks, kus latentsus on oluline. Partiide hindamine toimib kõige paremini siis, kui viivitused on vastuvõetavad ja kulutõhusus on oluline. Voogesitus sobib pidevaks sündmuste töötlemiseks, eriti kui edastussemantika muutub keeruliseks. Servajuurutamine sobib ideaalselt võrguühenduseta tööks, privaatsuse tagamiseks või ülimadala latentsusega nõuete jaoks, kuigi värskenduste ja riistvaravariatsioonide haldamine on raskem.

Mida versioonida, et vältida juurutamise tõrkeid, mis toimivad sülearvutil

Versioonige enamat kui ainult mudeli kaalud. Tavaliselt on vaja versioonitud mudeli artefakti (sh tokeniseerijad või siltide kaardid), eeltöötlust ja funktsioonide loogikat, järelduskoodi ning täielikku käituskeskkonda (Python/CUDA/süsteemi teegid). Käsitlege mudelit väljalaskeartefaktina, millel on sildistatud versioonid ja kerged metaandmed, mis kirjeldavad skeemi ootusi, hindamismärkmeid ja teadaolevaid piiranguid.

Kas juurutada lihtsa FastAPI-stiilis teenuse või spetsiaalse mudelserveriga

Lihtne rakendusserver (FastAPI-stiilis lähenemine) sobib hästi varajaste toodete või lihtsate mudelite jaoks, kuna säilitate kontrolli marsruutimise, autentimise ja integratsiooni üle. Mudelserver (TorchServe'i või NVIDIA Tritoni stiilis) pakub kohe tugevamat pakkimist, samaaegsust ja GPU efektiivsust. Paljud meeskonnad valivad hübriidi: mudelserver järelduste tegemiseks pluss õhuke API kiht autentimiseks, päringute kujundamiseks ja kiirusepiirangute jaoks.

Kuidas parandada latentsust ja läbilaskevõimet täpsust rikkumata

Alustage p95/p99 latentsuse mõõtmisega tootmisriistvaral realistliku kasuliku koormusega, kuna väikesed testid võivad eksitada. Levinud vahendite hulka kuuluvad partiidena töötlus (parem läbilaskevõime, potentsiaalselt halvem latentsus), kvantiseerimine (väiksem ja kiirem, mõnikord tagasihoidlike täpsuskompromissidega), kompileerimis- ja optimeerimisvood (ONNX/TensorRT-laadsed) ning korduvate sisendite või manustamise vahemällu salvestamine. Järjekorra sügavusele tuginev automaatne skaleerimine aitab samuti takistada saba latentsuse kasvu.

Millist jälgimist on vaja peale "lõpp-punkti töökorras olemise"?

Ainult tööaeg ei ole piisav, sest teenus võib tunduda terve, samal ajal kui ennustuse kvaliteet langeb. Jälgige vähemalt päringute mahtu, veamäära ja latentsusaja jaotust, lisaks küllastussignaale, nagu protsessori/graafikaprotsessori/mälu ja järjekorra aeg. Mudeli käitumise puhul jälgige sisend- ja väljundjaotusi koos põhiliste anomaaliasignaalidega. Lisage triivikontrollid, mis käivitavad toimingu, mitte mürarikkaid hoiatusi, ning logige päringute ID-sid, mudeli versioone ja skeemi valideerimise tulemusi.

Kuidas uusi mudeliversioone ohutult kasutusele võtta ja kiiresti taastada

Käsitle mudeleid nagu täielikke versioone, kasutades CI/CD torujuhet, mis testib eel- ja järeltöötlust, käitab integratsioonikontrolle nn kuldse komplekti suhtes ja määrab koormuse baasjoone. Väljalaskete puhul suurendab canary liiklust järk-järgult, samas kui sinakasroheline hoiab vanemat versiooni koheseks varuvariandiks. Varjutestimine aitab uut mudelit hinnata reaalsel liiklusel, ilma et see kasutajaid mõjutaks. Tagasipööramine peaks olema esmaklassiline mehhanism, mitte järelmõte.

Kõige levinumad lõksud tehisintellekti mudelite juurutamise õppimisel

Klassikaline juhtum on treeningu ja tootmise vaheline moonutus: eeltöötlus erineb treeningu ja tootmise vahel ning jõudlus langeb vaikselt. Teine sagedane probleem on skeemi valideerimise puudumine, kus ülesvoolu tehtud muudatus rikub sisendeid peenelt. Meeskonnad alahindavad ka saba latentsust ja keskenduvad liiga palju keskmistele, eiravad kulusid (jõudeolekus olevad GPU-d summeeruvad kiiresti) ja jätavad vahele tagasipööramise planeerimise. Ainult tööaja jälgimine on eriti riskantne, sest „üles, aga valesti” võib olla hullem kui maas.

Viited

  1. Amazon Web Services (AWS) - Amazon SageMaker: reaalajas järeldused - docs.aws.amazon.com

  2. Amazon Web Services (AWS)Amazon SageMaker Batch Transformdocs.aws.amazon.com

  3. Amazon Web Services (AWS)Amazon SageMakeri mudelimonitordocs.aws.amazon.com

  4. Amazon Web Services (AWS) - API lüüsi päringute piiramine - docs.aws.amazon.com

  5. Amazon Web Services (AWS)AWS Secrets Manager: sissejuhatusdocs.aws.amazon.com

  6. Amazon Web Services (AWS) - AWS Lambda teostuskeskkonna elutsükkel - docs.aws.amazon.com

  7. Google CloudVertex AI: mudeli juurutamine lõpp-punktidocs.cloud.google.com

  8. Google CloudVertexi tehisintellekti mudeli jälgimise ülevaadedocs.cloud.google.com

  9. Google CloudVertex AI: funktsioonide kallutatuse ja triivi jälgiminedocs.cloud.google.com

  10. Google Cloudi ajaveebandmevoog: täpselt üks kord vs vähemalt üks kord voogedastusrežiimidcloud.google.com

  11. Google CloudCloud Dataflow voogedastusrežiimiddocs.cloud.google.com

  12. Google'i SRE-raamathajutatud süsteemide jälgiminesre.google

  13. Google ResearchSuurem mastaabisresearch.google

  14. LiteRT (Google AI)LiteRT ülevaadeai.google.dev

  15. LiteRT (Google AI)LiteRT seadmesisene järeldusai.google.dev

  16. Docker - Mis on konteiner? - docs.docker.com

  17. DockerDockeri ehituse parimad tavaddocs.docker.com

  18. KubernetesKubernetese saladusedkubernetes.io

  19. Kuberneteshorisontaalse podi automaatne skaleeriminekubernetes.io

  20. Martin Fowler - Kanaarilindude vabastamine - martinfowler.com

  21. Martin Fowler - siniroheline lähetus - martinfowler.com

  22. OpenAPI algatusMis on OpenAPI?openapis.org

  23. JSON-skeem - (viidatud sait) - json-schema.org

  24. Protokollipuhvrid - Protokollipuhvrite ülevaade - protobuf.dev

  25. FastAPI - (viidatud sait) - fastapi.tiangolo.com

  26. NVIDIA - Triton: dünaamiline partiide töötlus ja samaaegne mudelite täitmine - docs.nvidia.com

  27. NVIDIA - Triton: samaaegne mudeli täitmine - docs.nvidia.com

  28. NVIDIA - Triton Inference Serveri dokumendid - docs.nvidia.com

  29. PyTorch - TorchServe'i dokumendid - docs.pytorch.org

  30. BentoMLjuurutamiseks pakendaminedocs.bentoml.com

  31. Ray - Ray Serve'i dokumendid - docs.ray.io

  32. TensorFlow - Kvantimine pärast treeningut (TensorFlow mudeli optimeerimine) - tensorflow.org

  33. TensorFlow - TensorFlow andmete valideerimine: treeningu-serveerimise kallutatuse tuvastamine - tensorflow.org

  34. ONNX - (viidatud sait) - onnx.ai

  35. ONNX Runtimemudeli optimeerimineonnxruntime.ai

  36. NIST (Riiklik Standardite ja Tehnoloogia Instituut) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - Mudelikaardid mudeliaruandluseks - arxiv.org

  38. Microsoft - Varjutestimine - microsoft.github.io

  39. OWASP - OWASP 10 parimat LLM-i rakendust - owasp.org

  40. OWASP GenAI turvaprojekt - OWASP: kiire süstimine - genai.owasp.org

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse