Mis on tehisintellekti koolitaja?

Mõnikord tundub tehisintellekt peaaegu nagu võlutrikk. Sisestad suvalise küsimuse ja pauk – sekunditega ilmub libe ja lihvitud vastus. Aga siin ongi kummaline külg: iga „geeniuse“ masina taga on päris inimesed, kes seda töö käigus nügivad, parandavad ja kujundavad. Neid inimesi nimetatakse tehisintellekti koolitajateks ja töö, mida nad teevad, on kummalisem, naljakam ja ausalt öeldes inimlikum, kui enamik inimesi arvab.

Vaatame lähemalt, miks need koolitajad on olulised, milline nende igapäevatöö tegelikult välja näeb ja miks see roll areneb kiiremini, kui keegi ennustas.

Artiklid, mida võiksite pärast seda lugeda:

🔗 Mis on tehisintellekti arbitraaž: tõde selle moesõna taga
Selgitab tehisintellekti arbitraaži, selle riske, eeliseid ja levinud väärarusaamu.

🔗 Tehisintellekti andmesalvestusnõuded: mida peate teadma
Hõlmab tehisintellekti süsteemide salvestusvajadusi, skaleeritavust ja tõhusust.

🔗 Kes on tehisintellekti isa?
Uurib tehisintellekti pioneere ja tehisintellekti päritolu.

Mis teeb inimesest hea tehisintellekti treeneri? 🏆

See ei ole mingi nööpidega näppimise töö. Parimad koolitajad toetuvad üsna veidrale annete kombinatsioonile:

Kannatlikkust (palju) – modellid ei õpi ühe korraga. Treenerid kordavad samu parandusi seni, kuni need paika loksuvad.
Nüansside märkamine – sarkasmi, kultuurilise konteksti või eelarvamuste tabamine annab inimlikule tagasisidele eelise [1].
Otsekohene suhtlus – pool tööst on selgete juhiste kirjutamine, mida tehisintellekt ei saa valesti lugeda.
Uudishimu + eetika – hea koolitaja seab kahtluse alla, kas vastus on „faktiliselt õige”, kuid sotsiaalselt kurt – tehisintellekti järelevalve peamine teema [2].

Lihtsamalt öeldes: koolitaja on osaliselt õpetaja, osaliselt toimetaja ja natuke eetik.

AI treeneri rollide ülevaade (mõningate iseärasustega 😉)

Rolli tüüp	Kes sobib kõige paremini	Tüüpiline palk	Miks see toimib (või ei toimi)
Andmete sildistaja	Inimesed, kellele meeldivad peened detailid	Madal–keskmine $$	Absoluutselt ülioluline; kui sildid on lohakad, kannatab kogu mudel [3] 📊
RLHF spetsialist	Kirjanikud, toimetajad, analüütikud	Keskmine–kõrge $$	Järjestab ja kirjutab vastused ümber, et viia toon ja selgus vastavusse inimeste ootustega [1]
Domeenitreener	Juristid, arstid, eksperdid	Üle kogu kaardi 💼	Saab hakkama nišižargooni ja äärmuslike juhtumitega valdkonnapõhiste süsteemide jaoks
Ohutusülevaataja	Eetikatundlikud inimesed	Keskmine $$$	Rakendab suuniseid, et tehisintellekt väldiks kahjulikku sisu [2][5]
Loominguline treener	Kunstnikud, jutuvestjad	Ettearvamatu 💡	Aitab tehisintellektil kujutlusvõimet peegeldada, jäädes samal ajal ohututesse piiridesse [5].

(Jah, vormindus on veidi segane – umbes nagu töö ise.)

Päev tehisintellekti treeneri elus

Milline siis tegelik töö välja näeb? Mõtle vähem glamuursele kodeerimisele ja enamale:

Tehisintellekti kirjutatud vastuste järjestamine halvimast parimani (klassikaline RLHF-i samm) [1].
Segaduste parandamine (näiteks kui mudel unustab, et Veenus ei ole Marss).
Vestlusroboti vastuste ümberkirjutamine, et need kõlaksid loomulikumalt.
Teksti-, pildi- või helimägede sildistamine – koht, kus täpsus on tõesti oluline [3].
Arutelu selle üle, kas „tehniliselt korrektne” on piisavalt hea või peaksid ohutusjuhised olema ülimuslikud [2].

See on osalt raskusteta töö, osalt pusle. Ausalt, kujutage ette, et peate papagoid õpetama mitte ainult rääkima, vaid ka lõpetama sõnade pisut valesti kasutamise – see ongi see aura. 🦜

Miks treenerid on palju olulisemad, kui arvate

Ilma inimese juhtimiseta teeks tehisintellekt järgmist:

Kõlab jäigalt ja robotlikult.
Levitage eelarvamusi kontrollimatult (hirmutav mõte).
Puudub täielikult huumor või empaatia.
Ole tundlikes olukordades vähem turvaline.

Treenerid on need, kes hiilivad sisse „räpase inimliku kraami“ – slängi, soojust, aeg-ajalt kohmakaid metafoore –, samal ajal asjade turvalisuse tagamiseks piirdeid rakendades [2][5].

Oskused, mis tegelikult loevad

Unusta müüt, et sul on vaja doktorikraadi. Kõige rohkem aitab see:

Kirjutamis- ja toimetamisnipid - lihvitud, kuid loomulikult kõlav tekst [1].
Analüütiline mõtlemine – korduvate mudelivigade märkamine ja kohandamine.
Kultuuriteadlikkus – teadmine, millal võib sõnastus valesti minna [2].
Kannatlikkust – sest tehisintellekt ei saa sellest kohe aru.

Boonuspunktid mitmekeelsete oskuste või nišiekspertiiside eest.

Kus treenerid esinevad 🌍

See töö ei piirdu ainult vestlusrobotite kasutamisega – see hiilib sisse igasse sektorisse:

Tervishoid – piiripealsete juhtumite annotatsioonireeglite kirjutamine (kajastatud tervise tehisintellekti juhendis) [2].
Rahandus – pettuste avastamise süsteemide treenimine ilma inimesi valehäiretesse uputamata [2].
Jaekaubandus – Õpetada assistente, et nad omandaksid ostjatele mõeldud slängilist kõnepruuki, jäädes samal ajal bränditooni juurde [5].
Haridus – õpperobotite kujundamine julgustavaks, mitte üleolevaks [5].

Põhimõtteliselt: kui tehisintellektil on laua taga koht, peidab end taustal treener.

Eetikaosa (seda ei saa vahele jätta)

Siin läheb asi tõsiseks. Kontrollimata jätmise korral kordab tehisintellekt stereotüüpe, väärinfot või veel hullematki. Koolitajad peatavad selle, kasutades selliseid meetodeid nagu RLHF või põhiseaduslikke reegleid, mis suunavad mudeleid kasulike ja kahjutute vastuste poole [1][5].

Näide: kui bot saadab kallutatud tööpakkumisi, märgistab koolitaja selle, kirjutab reeglistiku ümber ja tagab, et see enam ei korduks. See on tegevuses olev järelevalve [2].

Mitte nii lõbus külg

Kõik pole sugugi ilus. Treenerid tegelevad järgmisega:

Monotoonsus – lõputu sildistamine ajab igavaks.
Emotsionaalne väsimus – kahjuliku või häiriva sisu vaatamine võib olla kahjulik; tugisüsteemid on üliolulised [4].
Tunnuse puudumine – kasutajad harva teavad koolitajate olemasolust.
Pidev muutus – tööriistad arenevad pidevalt, mis tähendab, et koolitajad peavad sammu pidama.

Sellegipoolest hoiab paljude jaoks põnevus tehnoloogia „aju” kujundamises neid konksu otsas.

Tehisintellekti varjatud MVP-d

Kes on siis tehisintellekti koolitajad? Nad on sillaks tooralgoritmide ja inimeste heaks tegelikult töötavate . Ilma nendeta oleks tehisintellekt nagu raamatukoguhoidjateta raamatukogu – tohutult infot, aga peaaegu võimatu kasutada.

Järgmine kord, kui vestlusrobot sind naerma ajab või üllatavalt „häälestunult“ tunned, täna koolitajat. Nad on vaiksed tegelased, kes panevad masinaid mitte ainult arvutama, vaid ka ühenduma [1][2][5].

Viited

[1] Ouyang, L. jt (2022). Keelemudelite treenimine juhiste järgimiseks inimtagasiside abil (InstructGPT). NeurIPS. Link

[2] NIST (2023). Tehisintellekti riskijuhtimise raamistik (AI RMF 1.0). Link

[3] Northcutt, C. jt (2021). Testikomplektides esinevad läbivad sildivead destabiliseerivad masinõppe võrdlusaluseid. NeurIPS-i andmestikud ja võrdlusalused. Link

[4] WHO/ILO (2022). Töökoha vaimse tervise juhised. Link

[5] Bai, Y. jt (2022). Konstitutsiooniline tehisintellekt: kahjutus tehisintellekti tagasisidest. arXiv. Link

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse

Riik/regioon