Kust tehisintellekt infot saab?

Kust tehisintellekt oma infot saab?

Kas oled kunagi istud ja pead kratsinud, et… kust see kõik küll pärit on ? Ma mõtlen, et tehisintellekt ei tuhni tolmustes raamatukoguvirnades ega loe salaja YouTube'i lühifilme. Ometi leiab see kuidagi vastused kõigele – alates lasanjetrikkidest kuni musta augu füüsikani –, nagu oleks tal sees mingi põhjatu dokumendikapp. Tegelikkus on veidram ja võib-olla ka intrigeerivam, kui arvata oskad. Pakime asja veidi lahti (ja jah, võib-olla kummutame ka paar müüti).


Kas see on nõidus? 🌐

See pole nõidus, kuigi vahel tundub nii. Kapoti all toimub põhimõtteliselt mustrite ennustamine . Suured keelemudelid (LLM-id) ei salvesta fakte nii, nagu teie aju hoiab kinni teie vanaema küpsise retseptist; selle asemel on nad treenitud järgmist sõna (tokenit) ära arvama selle põhjal, mis oli enne [2]. Praktikas tähendab see, et nad kinnistuvad seostest: millised sõnad sobivad kokku, kuidas laused tavaliselt kuju võtavad, kuidas terved ideed ehitatakse nagu tellingud. Seepärast kõlab õigesti, kuigi – täielik ausus – see on statistiline matkimine, mitte mõistmine [4].

Mis teeb tehisintellekti loodud teabe tegelikult kasulikuks ? Mõned asjad:

  • Andmete mitmekesisus – ammutamine lugematutest allikatest, mitte ühest kitsast voost.

  • Värskendused – ilma värskendustsükliteta vananeb see kiiresti.

  • Filtreerimine – ideaalis püüab rämpsu kinni enne, kui see sisse imbub (kuigi olgem ausad, selles võrgus on augud).

  • Ristkontroll – toetumine autoriteetsetele allikatele (näiteks NASA, WHO, suuremad ülikoolid), mis on enamikus tehisintellekti juhtimise käsiraamatutes kohustuslik [3].

Sellegipoolest sepitseb see vahel enesekindlalt. Need niinimetatud hallutsinatsioonid ? Põhimõtteliselt lihvitud jama, mida esitatakse tõsise näoga [2][3].

Artiklid, mida võiksite pärast seda lugeda:

🔗 Kas tehisintellekt suudab loteriinumbreid ennustada?
Müütide ja faktide uurimine tehisintellekti loteriiennustuste kohta.

🔗 Mida tähendab tehisintellekti terviklik lähenemine?
Tehisintellekti mõistmine tasakaalustatud vaatenurkadega eetikale ja mõjule.

🔗 Mida ütleb Piibel tehisintellekti kohta
Piibliliste vaatenurkade uurimine tehnoloogia ja inimese loomise kohta.


Kiire võrdlus: kust tehisintellekt ammutab inspiratsiooni 📊

Mitte iga allikas pole võrdne, aga igal on oma roll. Siin on hetkepilt.

Allika tüüp Kes seda kasutab (tehisintellekt) Maksumus/väärtus Miks see toimib (või ei toimi...)
Raamatud ja artiklid Suured keelemudelid Hindamatu (umbes) Tihedad ja struktureeritud teadmised vananevad lihtsalt kiiresti.
Veebilehed ja blogid Peaaegu kõik tehisintellektid Tasuta (müraga) Metsik valik; geniaalsuse ja absoluutse prügi segu.
Akadeemilised tööd Teadusuuringutele orienteeritud tehisintellektid Mõnikord tasulise müüriga Rangus + usaldusväärsus, aga raskes žargoonis sõnastatud.
Kasutajaandmed Isikupärastatud tehisintellektid Väga tundlik ⚠️ Äge rätsepatöö, aga privaatsusega seotud peavalusid küllaga.
Reaalajas veeb Otsinguga seotud tehisintellektid Tasuta (kui on võrgus) Hoiab info värskena; miinuseks on kuulujuttude võimendumise oht.

Treeningandmete universum 🌌

See on „lapsepõlve õppimise“ etapp. Kujutage ette, et annate lapsele korraga miljoneid avalikult kättesaadavad andmed, litsentseeritud allikad ja koolitaja loodud teksti [2].

Kihiti peal: hoolikalt valitud inimnäited – head vastused, halvad vastused, õiges suunas suunamised – enne kui tugevdamine üldse algab [1].

Läbipaistvusnõue: ettevõtted ei avalikusta iga detaili. Mõned piirded on salastatud (intellektuaalomand, ohutuskaalutlused), seega saate tegelikust olukorrast vaid osalise ülevaate [2].


Reaalajas otsing: lisatäidis 🍒

Mõned mudelid suudavad nüüd oma treeningmullist välja piiluda. See on otsingu abil laiendatud genereerimine (RAG) – põhimõtteliselt tõmmatakse tükke reaalajas indeksist või dokumendihoidlast ja seejärel põimitakse need vastusesse [5]. Ideaalne kiiresti muutuvate asjade, näiteks uudiste pealkirjade või aktsiahindade jaoks.

Mis on probleem? Internet on võrdselt geenius ja prügipõleng. Kui filtrid või päritolukontrollid on nõrgad, on oht, et rämpsandmed satuvad tagasi – täpselt selle eest hoiatavad riskiraamistikud [3].

Levinud lahendus: ettevõtted ühendavad mudelid oma sisemiste andmebaasidega, et vastused tsiteeriksid kehtivat personalipoliitikat või ajakohastatud tootedokumenti, selle asemel et seda lihtsalt välja öelda. Mõelge järgmisele: vähem „oh-oh“ hetki, usaldusväärsemad vastused.


Peenhäälestamine: tehisintellekti lihvimisetapp 🧪

Toores eelkoolitatud mudel on kohmakas. Seega neid peenhäälestatakse :

  • Õpetades neid olema abivalmid, kahjutud ja ausad (inimese tagasisidest tuleneva tugevdusõppe kaudu, RLHF) [1].

  • Ohtlike või mürgiste servade lihvimine (joondamine) [1].

  • Tooni kohandamine – olgu see siis sõbralik, ametlik või mänguliselt sarkastiline.

See pole niivõrd teemandi lihvimine, kuivõrd statistilise laviini kokkusurumine, et käituda pigem vestluspartnerina.


Konarused ja ebaõnnestumised 🚧

Ärme teeskle, et see on veatu:

  • Hallutsinatsioonid – täpsed vastused, mis on täiesti valed [2][3].

  • Eelarvamus – see peegeldab andmetesse sisestatud mustreid; kontrollimata jätmisel võib neid isegi võimendada [3][4].

  • Oma kogemus puudub supireseptidest saab rääkida

  • Liigne enesekindlus – jutt voolab justkui teadlikult, isegi kui see nii ei ole. Riskiraamistikud rõhutavad lipukese tekitavaid eeldusi [3].


Miks on tunne nagu teadmine 🧠

Sellel pole uskumusi, inimlikus mõttes mälu ja kindlasti mitte mina. Kuna see seob lauseid sujuvalt kokku, loeb teie aju seda nii, nagu see mõistaks . Toimub lihtsalt massiivne järgmise märgi ennustus : triljonite tõenäosuste analüüsimine sekundi murdosa jooksul [2].

„Intelligentsuse“ efekt on tekkiv käitumismaneer – uurijad nimetavad seda pisut irooniliselt „stohhastiliseks papagoi efektiks“ [4].


Lapsesõbralik analoogia 🎨

Kujutage ette papagoid, kes on lugenud läbi kõik raamatukogu raamatud. Ta ei saa lugudest aru, aga oskab sõnu millekski targaks muuta. Mõnikord on see täpne, mõnikord jama – aga piisava annetusega ei ole alati võimalik vahet teha.


Kokkuvõte: kust tehisintellekti info pärineb 📌

Lihtsamalt öeldes:

  • Massiivsed treeningandmed (avalikud + litsentseeritud + koolitaja loodud) [2].

  • peenhäälestamine tooni/käitumise kujundamiseks [1].

  • Reaalajas andmevoogudega ühendatud otsingusüsteemid [5] .

Tehisintellekt ei „tea“ asju – see ennustab teksti . See on nii selle supervõime kui ka Achilleuse kand. Lõppkokkuvõttes? Kontrollige alati olulist teavet usaldusväärse allikaga [3].


Viited

  1. Ouyang, L. jt (2022). Keelemudelite treenimine juhiste järgimiseks inimtagasiside abil (InstructGPT) . arXiv .

  2. OpenAI (2023). GPT-4 tehniline aruanne – litsentseeritud, avalike ja inimese loodud andmete segu; järgmise märgi ennustamise eesmärk ja piirangud. arXiv .

  3. NIST (2023). Tehisintellekti riskijuhtimise raamistik (AI RMF 1.0) – päritolu, usaldusväärsus ja riskikontroll. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Stohhastiliste papagoide ohtudest: kas keelemudelid võivad olla liiga suured? PDF .

  5. Lewis, P. jt (2020). Otsingu ja laiendatud genereerimine teadmusmahuka neurolingvistika jaoks . arXiv .


Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse