Objektide salvestamine tehisintellekti jaoks: valikud, valikud, valikud

Kui enamik inimesi kuuleb sõna „tehisintellekt”, kujutavad nad ette närvivõrke, uhkeid algoritme või ehk neid pisut kummalisi humanoidroboteid. Harva mainitakse kohe alguses järgmist: tehisintellekt neelab salvestusruumi peaaegu sama ahnelt kui arvutab. Ja mitte lihtsalt suvaline salvestusobjekt ei istu vaikselt taustal, tehes ebaglamuurset, kuid absoluutselt hädavajalikku tööd, varustades mudeleid vajalike andmetega.

Vaatleme lähemalt, mis teeb objektisalvestuse tehisintellekti jaoks nii oluliseks, kuidas see erineb traditsioonilistest salvestussüsteemidest ja miks see on lõpuks üks peamisi skaleeritavuse ja jõudluse hoobasid.

Artiklid, mida võiksite pärast seda lugeda:

🔗 Millised tehnoloogiad peavad olema paigas, et kasutada suuremahulist genereerivat tehisintellekti äris?
Peamised tehnoloogiad, mida ettevõtted vajavad generatiivse tehisintellekti tõhusaks skaleerimiseks.

🔗 Andmehaldus tehisintellekti tööriistade jaoks, mida peaksite kaaluma
Parimad tavad andmete käsitlemiseks tehisintellekti jõudluse optimeerimiseks.

🔗 Tehisintellekti mõju äristrateegiale
Kuidas tehisintellekt mõjutab äristrateegiaid ja pikaajalist otsuste langetamist.

Mis teeb objektisalvestuse tehisintellekti jaoks sobivaks? 🌟

Suur idee: objektisalvestus ei vaja kaustu ega jäiku plokkpaigutusi. See jagab andmed "objektideks", millest igaüks on märgistatud metaandmetega. Need metaandmed võivad olla süsteemi tasemel andmed (suurus, ajatemplid, salvestusklass) ja kasutaja määratletud võtme:väärtuse sildid [1]. Mõelge sellest kui igast failist, millel on virn kleepmärkmeid, mis ütlevad teile täpselt, mis see on, kuidas see loodi ja kuhu see teie andmevoos sobib.

Tehisintellekti meeskondade jaoks on see paindlikkus pöördepunkt:

Skaleerumine ilma migreenita – andmejärved ulatuvad petabaitidesse ja objektisalvestused saavad sellega hõlpsalt hakkama. Need on loodud peaaegu piiramatuks kasvuks ja mitme AZ-taseme vastupidavuseks (Amazon S3 kiitleb vaikimisi „11 üheksaga“ ja tsoonidevahelise replikatsiooniga) [2].
Metaandmete rikkus – kiiremad otsingud, puhtamad filtrid ja nutikamad andmekanalid, kuna kontekst liigub iga objektiga kaasas [1].
Pilvepõhine – andmed tulevad HTTP(S) kaudu, mis tähendab, et saate pull-e paralleelselt rakendada ja hajutatud treeningut sujuvalt jätkata.
Sisseehitatud vastupidavus – kui treenid päevi, ei saa riskida rikutud killuga, mis tapab 12. epohhi. Objektide salvestamine väldib seda juba disainilahenduse järgi [2].

See on põhimõtteliselt põhjatu seljakott: seest ehk räpane, aga kõik on ikkagi kättesaadav, kui selle järele haarad.

Tehisintellekti objektide salvestamise kiire võrdlustabel 🗂️

Tööriist / teenus	Parim (publikule)	Hinnavahemik	Miks see toimib (märkused äärealadel)
Amazon S3	Ettevõtted + pilvepõhised meeskonnad	Maksa vastavalt kasutamisele	Äärmiselt vastupidav, piirkondlikult vastupidav [2]
Google'i pilvesalvestus	Andmeteadlased ja masinõppe arendajad	Paindlikud astmed	Tugevad masinõppe integratsioonid, täielikult pilvepõhine
Azure'i Blob-salvestusruum	Microsofti-kesksed poed	Mitmetasandiline (kuum/külm)	Sujuv koos Azure'i andmete ja masinõppe tööriistadega
MinIO	Avatud lähtekoodiga / isetegemise seadistused	Tasuta/iseseisev hostimine	S3-ühilduv, kerge, sobib kõikjale 🚀
Wasabi kuum pilv	Kulutundlikud organisatsioonid	Madal fikseeritud hind $	Väljuva liikluse või API-päringute tasusid ei ole (vastavalt poliitikale) [3]
IBM-i pilveobjektide salvestusruum	Suurettevõtted	Varieerub	Küps pakett tugevate ettevõtte turvavõimalustega

Kontrollige alati mõistlikkust – hinnakujundust oma tegeliku kasutuse suhtes – eriti väljundmahu, päringute mahu ja salvestusklassi kombinatsiooni suhtes.

Miks tehisintellekti koolitus armastab objektide salvestamist 🧠

Treening ei ole „käputäis faile“. See on miljonid ja miljonid paralleelselt purustatud kirjed. Hierarhilised failisüsteemid lähevad suure samaaegsuse all kokku. Objektisalvestus möödub sellest lamedate nimeruumide ja puhaste API-dega. Igal objektil on unikaalne võti; töötajad hajuvad ja laadivad andmeid paralleelselt. Sharped andmestikud + paralleelne sisend/väljund = GPU-d on hõivatud, selle asemel et oodata.

Hea nipp: hoia kuumad shardid arvutusklastri lähedal (samas piirkonnas või tsoonis) ja vahemällu salvesta agressiivselt SSD-le. Kui vajad peaaegu otsest andmeedastust graafikaprotsessoritesse, NVIDIA GPUDirect Storage'i – see kärbib protsessori põrkepuhvreid, vähendab latentsust ja suurendab ribalaiust otse kiirenditesse [4].

Metaandmed: Alahinnatud supervõime 🪄

Siin on koht, kus objektisalvestus särab vähem ilmselgetel viisidel. Üleslaadimisel saate lisada kohandatud metaandmeid (näiteks x-amz-meta-… S3 jaoks). Näiteks nägemisandmestik võiks pilte sildistada atribuudiga lighting=low või blur=high. See võimaldab torujuhtmetel filtreerida, tasakaalustada või stratifitseerida ilma toorfaile uuesti skannimata [1].

Ja siis on veel versioonimine. Paljud objektihoidlad hoiavad objekti mitut versiooni kõrvuti – ideaalne reprodutseeritavate katsete või juhtimispoliitikate jaoks, mis vajavad tagasipööramisi [5].

Objekt vs plokk vs failisalvestus ⚔️

Plokksalvestus: suurepärane tehinguandmebaaside jaoks – kiire ja täpne –, kuid petabaidiskaalas struktureerimata andmete jaoks liiga kallis.
Failide salvestamine: Tuttav, POSIX-sõbralik, kuid kataloogid lämbuvad massilise paralleelse koormuse all.
Objektisalvestus: algusest peale loodud skaleeritavaks, paralleelseks ja metaandmetel põhinevaks juurdepääsuks [1].

Kui soovite kohmakat metafoori: plokkide hoiustamine on dokumendikapp, failide hoiustamine on töölaua kaust ja objektide hoiustamine on… põhjatu auk kleepmärkmetega, mis muudavad selle kuidagi kasutatavaks.

Hübriidsed tehisintellekti töövood 🔀

See pole alati ainult pilvepõhine. Levinud kombinatsioon näeb välja selline:

Kohapealne objektisalvestus (MinIO, Dell ECS) tundlike või reguleeritud andmete jaoks.
Pilveobjektide salvestusruum purskepõhiste töökoormuste, katsete või koostöö jaoks.

See tasakaal mõjutab kulusid, vastavust ja paindlikkust. Olen näinud meeskondi, kes sõna otseses mõttes tühjendavad terabaite üleöö S3-ämbrisse, et käivitada ajutine GPU-klaster – ja seejärel hävitavad kõik, kui sprint lõpeb. Kitsamate eelarvete korral muudab Wasabi fikseeritud määraga/väljamineku puudumine mudeli [3] abil elu prognoosimise lihtsamaks.

Osa, millega keegi ei uhkusta 😅

Reaalsuskontroll: see pole veatu.

Latentsus – arvutusvõimsuse ja salvestusruumi liiga kaugele paigutamine võib graafikaprotsessorite töömahtu roomata. GDS aitab, aga arhitektuur on ikkagi oluline [4].
Kuludega kaasnevad üllatused – väljuvate ja API-päringute tasud hiilivad inimestele ligi. Mõned pakkujad loobuvad neist (Wasabi teeb seda, teised mitte) [3].
Metaandmete kaos mastaabis – kes defineerib siltides ja versioonides „tõde“? Teil on vaja lepinguid, reegleid ja juhtimisjõudu [5].

Objektide hoiustamine on infrastruktuuri torustik: ülioluline, kuid mitte glamuurne.

Kuhu see suundub 🚀

Nutikam ja tehisintellekti-põhine salvestusruum , mis sildistab andmeid automaatselt ja avaldab neid SQL-i-laadsete päringukihtide kaudu [1].
Tihedam riistvaraline integratsioon (DMA-ühendused, võrgukaardi koormuse vähendamine), et graafikaprotsessorid ei oleks sisend-/väljundvajadusest ilma [4].
Läbipaistev ja prognoositav hinnakujundus (lihtsustatud mudelid, väljumistasudest loobumine) [3].

Inimesed räägivad arvutustest kui tehisintellekti tulevikust. Aga realistlikult? Kitsaskoht seisneb sama palju andmete kiires edastamises mudelitesse ilma eelarvet raiskamata. Seetõttu objektisalvestuse roll ainult kasvab.

Kokkuvõte 📝

Objektide salvestamine pole küll uhke, aga see on alustala. Ilma skaleeritava, metaandmetega arvestava ja vastupidava salvestusruumita tundub suurte mudelite treenimine nagu sandaalides maratoni jooksmine.

Nii et jah – graafikaprotsessorid on olulised ja raamistikud on olulised. Aga kui sa suhtud tehisintellekti tõsiselt, siis ära ignoreeri oma andmete asukohta. Tõenäoliselt hoiab objektisalvestus juba vaikselt kogu operatsiooni pidurina.

Viited

[1] AWS S3 – Objekti metaandmed – süsteemi ja kohandatud metaandmed
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html

[2] AWS S3 – Salvestusklassid – vastupidavus („11 üheksat“) + vastupidavus
https://aws.amazon.com/s3/storage-classes/

[3] Wasabi Hot Cloud – hinnakujundus – fikseeritud hind, väljumis-/API-tasusid pole
https://wasabi.com/pricing

[4] NVIDIA GPUDirect Storage – dokumendid - DMA teed GPU-deni
https://docs.nvidia.com/gpudirect-storage/

[5] AWS S3 – Versioonimine – mitu versiooni haldamise/reprodutseeritavuse tagamiseks
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse