Kuidas mõjutab tehisintellekt andmeinseneride rolli?

Tehisintellekt on seadnud eesmärgiks muuta andmetehnika rolle, automatiseerides korduvaid ülesandeid, nagu SQL-koodide koostamine ja dokumenteerimine. Siiski nõuavad suurema vastutuse nõudmised, näiteks andmelepingute määratlemine ja andmete kvaliteedi haldamine, endiselt inimeste oskusteavet.

Milliseid andmetöötluse osi saab tehisintellekt automatiseerida?

Tehisintellekt on suurepärane selliste ülesannete automatiseerimisel nagu SQL-koodi genereerimine, DBT-mudelite tugistruktuuride loomine ja dokumentatsiooni kontuuride koostamine. See aitab inseneridel projekte tõhusamalt alustada, kuid täpsuse tagamiseks on siiski vajalik inimese valideerimine.

Kas tehisintellekti tõusuga muutuvad andmeinsenerid iganenuks?

Kuigi teatud ülesandeid saab automatiseerida, on andmeinseneride roll pigem arenemas kui kadumas. Insenerid keskenduvad rohkem süsteemide disainile, vastutusele ja juhtimisele, mis muudab nad väärtuslikumaks, kuna tehisintellekt aitab põhiülesandeid sujuvamaks muuta.

Miks on inimese järelevalve tehisintellekti puhul andmetehnikas endiselt oluline?

Inimesepoolne järelevalve on ülioluline, kuna andmetöötlus hõlmab sageli ebamäärast äriloogikat ja tulemuste eest vastutamist. Tehisintellekt saab küll lahenduste väljatöötamisel abiks olla, kuid ei suuda täielikult hallata andmehalduse ja vastavuse keerukust.

Millised oskused on andmeinseneridele tehisintellekti tööriistade küpsedes olulised?

Põhioskuste hulka kuuluvad süsteemi kujundamine, andmekvaliteedi tagamine, andmelepingute määratlemine ja tõhus suhtlus. Need valdkonnad on kriitilise tähtsusega usaldusväärsuse ja vastavuse tagamiseks, kuna tehisintellekt tegeleb rutiinsemate ülesannetega.

Kuidas saab tehisintellekt parandada andmeinseneride ja teiste meeskondade koostööd?

Tehisintellekt saab tehnilisi väljundeid sujuvamaks muuta, võimaldades andmeinseneridel toote-, turbe- ja finantsmeeskondadega tõhusamalt koostööd teha. See nihe võimaldab andmeinseneridel keskenduda kvaliteedistandardite ja ootuste arutamisele, mitte ainult kodeerimisele.

Milliste väljakutsetega seisab tehisintellekt andmetöötluses silmitsi?

Tehisintellektil on raskusi mitmetähenduslike definitsioonide käsitlemise ja äriloogikas keeruliste seoste haldamisega. Selle võimetus kriitiliselt mõelda või definitsioonide üle läbirääkimisi pidada tähendab, et iniminsenerid on endiselt asendamatud.

Kuidas peaksid andmeinsenerid lähenema tehisintellekti tööriistade, näiteks GitHub Copiloti kasutamisele?

Andmeinsenerid peaksid oma töö täiustamiseks kasutama tehisintellekti tööriistu mustanditena, järgides samal ajal tugevaid valideerimis- ja halduskonventsioone. See hõlmab tulemuste vastavuse tagamist kvaliteedistandarditele ja organisatsiooni poliitikatega.

Kas tehisintellekt asendab andmeinsenerid? [Video ja viktoriin]

Lühike vastus: tehisintellekt ei asenda andmeinsenere täielikult; see automatiseerib korduvaid töid, nagu SQL-koodide koostamine, torujuhtme tellingute koostamine, testid ja dokumenteerimine. Kui teie roll on peamiselt vähese vastutuse ja piletipõhise tööga, on see haavatavam; kui teie vastutusalasse kuuluvad usaldusväärsus, definitsioonid, juhtimine ja intsidentidele reageerimine, muudab tehisintellekt teid peamiselt kiiremaks.

Peamised järeldused:

Vastutus: seadke prioriteediks tulemuste eest vastutamine, mitte ainult koodi kiire tootmine.

Kvaliteet: Looge teste, jälgitavust ja lepinguid, et torujuhtmed jääksid usaldusväärseks.

Haldus: Hoidke privaatsus, juurdepääsu kontroll, säilitamine ja auditeerimisjäljed inimeste omandis.

Väärkasutuse vältimine: käsitle tehisintellekti väljundeid mustanditena; vaata need üle, et vältida enesekindlat eksimust.

Rollide vahetus: kuluta vähem aega mallide kirjutamisele ja rohkem aega vastupidavate süsteemide disainimisele.

Kas tehisintellekt asendab andmeinsenerid? Infograafik

Kui olete andmemeeskondade seltsis veetnud rohkem kui viis minutit, olete kuulnud refrääni – vahel sosistatuna, vahel koosoleku ajal ootamatu pöördena esile tõstetuna: kas tehisintellekt asendab andmeinsenerid?

Ja… ma saan aru. Tehisintellekt suudab genereerida SQL-i, luua torujuhtmeid, selgitada pinu jälgi, koostada andmebaasimudeleid ja isegi pakkuda laoskeeme häiriva kindlusega. GitHub Copilot SQL-i jaoks Andmebaasimudelite kohta GitHub Copilot
See on nagu kahveltõstuki žongleerimise õppimise vaatamine. Muljetavaldav, veidi murettekitav ja sa pole päris kindel, mida see sinu töö jaoks tähendab 😅

Kuid tõde on pealkirjast nõrgem. Tehisintellekt muudab andmetöötlust täielikult. See automatiseerib igavaid ja korduvaid osi. See kiirendab „ma tean, mida ma tahan, aga ei suuda süntaksit meeles pidada“ hetki. See tekitab ka täiesti uut tüüpi kaost.

Paneme siis asja korralikult paika, ilma enesekeskse optimismi või hukatusse kerimiseta.

Artiklid, mida võiksite pärast seda lugeda:

🔗 Kas tehisintellekt asendab radiolooge?
Kuidas pildistamise tehisintellekt muudab töövoogu, täpsust ja tulevasi rolle.

🔗 Kas tehisintellekt asendab raamatupidajaid?
Vaata, milliseid raamatupidamisülesandeid tehisintellekt automatiseerib ja millised jäävad inimese teha.

🔗 Kas tehisintellekt asendab investeerimispankurid?
Mõista tehisintellekti mõju tehingutele, uuringutele ja kliendisuhetele.

🔗 Kas tehisintellekt asendab kindlustusagendid?
Siit saate teada, kuidas tehisintellekt muudab kindlustuslepingute sõlmimist, müüki ja kliendituge.

Miks küsimus „Tehisintellekt asendab andmeinsenerid” ikka ja jälle pinnale kerkib 😬

Hirm tuleb väga konkreetsest kohast: andmetehnikas on palju korduvat tööd.

SQL-i kirjutamine ja refaktoreerimine
Sisestamise skriptide loomine
Väljade kaardistamine ühest skeemist teise
Testide ja põhidokumentatsiooni loomine
Torujuhtme rikete silumine, mis on… üsna etteaimatavad

Tehisintellekt on ebatavaliselt hea korduvate mustrite loomisel. Ja suur osa andmetehnikast on just see – mustrid, mis on kuhjatud mustrite otsa. GitHub Copiloti koodisoovitused

Samuti "peidab" tööriistade ökosüsteem juba keerukust:

Hallatud ELT-pistikud Fivetrani dokumendid
Serverita arvutus AWS Lambda (serverita arvutus)
Ühe klõpsuga lao loomine
Automaatse skaleerimise orkestreerimine Apache Airflow dokumentatsioonis
Deklaratiivsed teisendusraamistikud. Mis on dbt?

Seega, kui tehisintellekt ilmub, võib see tunduda viimase tükina. Kui pinu on juba abstraktne ja tehisintellekt saab kirjutada liimiva koodi... mis jääb alles? 🤷

Aga siin on asi, mida inimesed vahele jätavad: andmetehnika ei ole peamiselt trükkimine. Trükkimine on lihtne osa. Raske osa on panna segane, poliitiline ja muutuv ärireaalsus käituma usaldusväärse süsteemina.

Ja tehisintellekt näeb selle varjuga endiselt vaeva. Ka inimestel on raskusi – nad lihtsalt improviseerivad paremini.

Mida andmeinsenerid tegelikult terve päeva teevad (ebaglamuurne tõde) 🧱

Olgem ausad – ametinimetus „Andmeinsener“ kõlab nii, nagu ehitaksid sa rakettmootoreid puhtast matemaatikast. Praktikas lood sa usaldust.

Tüüpiline päev on vähem "uute algoritmide leiutamist" ja rohkem:

Andmete definitsioonide üle läbirääkimiste pidamine ülesvoolu meeskondadega (valulik, aga vajalik)
Mõõdiku muutumise põhjuste (ja selle tegelikkuse) uurimine
Skeemi triivi ja üllatuste käsitlemine, kus "keegi lisas keskööl veeru"
Torujuhtmete idempotentsuse, taastatavuse ja jälgitavuse tagamine
Kaitsepiirete loomine, et allavoolu analüütikud ei looks kogemata mõttetuid juhtpaneele
Kulude haldamine, et teie ladu ei muutuks rahapõletiks 🔥
Juurdepääsu turvamine, auditeerimine, vastavus, säilituspoliitikad Isikuandmete (GDPR) põhimõtted (Euroopa Komisjon) Salvestuspiirangud (ICO)
Andmetoodete loomine, mida inimesed saavad tegelikult kasutada ilma teile otseteid saatmata (20 küsimust)

Suur osa tööst on sotsiaalne ja operatiivne:

"Kellele see laud kuulub?"
"Kas see definitsioon ikka veel kehtib?"
„Miks CRM ekspordib duplikaate?“
„Kas me saame selle mõõdiku juhtidele piinlikkust tundmata edastada?“ 😭

Tehisintellekt saab osaliselt küll aidata. Aga selle täielik asendamine on... keeruline.

Mis teeb andmeinseneri rollist tugeva? ✅

See osa on oluline, sest asendamisest rääkides eeldatakse tavaliselt, et andmeinsenerid on peamiselt „torustiku ehitajad“. See on sama, mis eeldada, et kokad peamiselt „hakivad köögivilju“. See on osa tööst, aga mitte töö ise.

Andmeinseneri tugev versioon tähendab tavaliselt, et nad saavad teha enamikku neist:

Muutusteks disainimine
Andmed muutuvad. Meeskonnad muutuvad. Tööriistad muutuvad. Hea insener loob süsteeme, mis ei varise iga kord, kui reaalsus aevastab 🤧
Lepingute ja ootuste määratlemine.
Mida tähendab „klient”? Mida tähendab „aktiivne”? Mis juhtub, kui rida saabub hilja? Lepingud ennetavad kaost paremini kui uhke kood. Avatud andmete lepingute standard (ODCS) ODCS (GitHub)
Jälgitavus tuleks luua kõigesse.
Mitte ainult „kas see töötas“, vaid ka „kas see töötas õigesti“. Värskus, mahuanomaaliad, nullplahvatused, jaotuse nihked. Andmete jälgitavus (Dynatrace) Mis on andmete jälgitavus?
Tee kompromisse nagu täiskasvanu
– kiirus vs korrektsus, hind vs latentsus, paindlikkus vs lihtsus. Ideaalset torujuhet pole olemas, on ainult torujuhed, millega saad elada.
Ärivajaduste tõlkimine vastupidavateks süsteemideks.
Inimesed küsivad mõõdikuid, aga nad vajavad andmeprodukti. Tehisintellekt saab küll koodi mustandit koostada, aga see ei suuda maagiliselt ärimiine tuvastada.
Hoidke andmed vaikselt.
Andmeplatvormi suurim kompliment on see, et keegi ei räägi sellest. Sündmusteta andmed on head andmed. Nagu torutööd. Sa märkad neid alles siis, kui need üles ütlevad.

Kui te neid asju teete, hakkab küsimus „Kas tehisintellekt asendab andmeinsenerid?“ kõlama... veidi valesti. Tehisintellekt saab asendada ülesandeid, mitte omandiõigust.

Kus tehisintellekt juba aitab andmeinseneridel tegutseda (ja see on tõeliselt suurepärane) 🤖✨

Tehisintellekt ei ole lihtsalt turundus. Hästi kasutatuna on see õigustatud jõukordaja.

1) Kiirem SQL ja teisendustöö

Keeruliste ühenduste joonistamine
Aknafunktsioonide kirjutamine, millele sa pigem ei mõtleks
Lihtkeele loogika muutmine päringu skelettideks
Koledate päringute refaktoreerimine loetavateks CTE-deks GitHub Copilot for SQL

See on tohutu, sest vähendab „tühja lehe“ efekti. Valideerimine on ikkagi vajalik, aga alustad 70%-st, mitte 0%-st.

2) Silumise ja algpõhjuse leidmise lingid

Tehisintellekt on korralik järgmistel juhtudel:

Veateadete selgitamine
Soovitab, kust otsida
„Kontrollige skeemi mittevastavust” tüüpi sammude soovitamine GitHub Copilotis
See on nagu väsimatu nooreminsener, kes kunagi ei maga ja vahel enesekindlalt valetab 😅

3) Dokumentatsiooni ja andmekataloogi rikastamine

Automaatselt genereeritud:

Veergude kirjeldused
Mudelite kokkuvõtted
Pärimisjärgi selgitused
„Milleks seda tabelit kasutatakse?“ koostab DBT-dokumentatsiooni.

See pole täiuslik, aga murrab dokumenteerimata torujuhtmete needuse.

4) Tellingute testimine ja kontrollimine

Tehisintellekt saab pakkuda välja:

Põhilised nulltestid
Unikaalsuse kontrollid
Referentsiaalse terviklikkuse ideed
„See näitaja ei tohiks kunagi väheneda” stiilis väited DBT andmetestid Suured ootused: ootused

Jällegi – sina otsustad ikkagi, mis on oluline, aga see kiirendab rutiinseid osi.

5) Torujuhtme „liimikood”

Konfiguratsioonimallid, YAML-i tugistruktuurid, orkestreerimise DAG-i mustandid. See kraam on korduv ja tehisintellekt sööb korduvat hommikusöögiks 🥣 Apache Airflow DAG-id

Kus tehisintellekt endiselt hädas on (ja see on selle tuum) 🧠🧩

See on kõige olulisem osa, sest see vastab asendusküsimusele päris tekstuuriga.

1) Ebamäärasus ja nihkuvad definitsioonid

Äriloogika on harva selge. Inimesed muudavad lause keskel meelt. „Aktiivsest kasutajast” saab „aktiivne maksja kasutaja” ja „aktiivne maksja kasutaja”, välja arvatud mõnikord, kui tagasimakseid tehakse”... teate küll, kuidas see käib.

Tehisintellekt ei saa seda ebamäärasust omada. See saab ainult oletada.

2) Vastutus ja risk

Kui torujuhe puruneb ja juhtpaneelil kuvatakse jama, peab keegi:

triaaž
mõju edastamine
paranda see
vältida kordumist
kirjuta lahkamine
otsustada, kas ettevõte saab eelmise nädala numbreid endiselt usaldada

Tehisintellekt saab abiks olla, aga see ei saa olla sisuliselt vastutav. Organisatsioonid ei tegutse emotsioonide – vaid vastutuse ajel.

3) Süsteemne mõtlemine

Andmeplatvormid on ökosüsteemid: andmeülekanne, salvestamine, teisendused, orkestreerimine, juhtimine, kulude kontroll, teenusetaseme lepingud (SLA-d). Muutus ühes kihis tekitab laineid. Apache Airflow kontseptsioonid.

Tehisintellekt suudab pakkuda välja lokaalseid optimeerimisi, mis tekitavad globaalset valu. See on nagu kriuksuva ukse parandamine ukse eemaldamise teel 😬

4) Turvalisus, privaatsus, vastavus nõuetele

Siin lähevadki asendusfantaasiad hääbuma.

Juurdepääsu kontroll
Rea tasemel turvalisus Snowflake'i rea juurdepääsupoliitikad BigQuery rea tasemel turvalisus
PII-de töötlemine NIST-i privaatsusraamistikus
Säilituseeskirjad Säilituspiirangud (ICO) ELi säilitamise juhised
Auditeerimisjäljed NIST SP 800-92 (logide haldus) CIS Control 8 (auditeerimislogide haldus)
Andmete asukoha piirangud

Tehisintellekt saab küll poliitikaid koostada, aga nende turvaline rakendamine on tõeline inseneritöö.

5) „Tundmatud tundmatud”

Andmeintsidendid on sageli ettearvamatud:

Tarnija API muudab semantikat vaikselt
Ajavööndi eeldus pöördub ümber
Täide dubleerib partitsiooni
Uuesti proovimise mehhanism põhjustab topeltkirjutamist
Uus tootefunktsioon tutvustab uusi sündmuste mustreid

Tehisintellekt on nõrgem, kui olukord pole teadaolev muster.

Võrdlustabel: mis praktikas mida vähendab 🧾🤔

Allpool on praktiline vaade. Mitte „tööriistad, mis asendavad inimesi”, vaid tööriistad ja lähenemisviisid, mis teatud ülesandeid vähendavad.

Tööriist / lähenemisviis	Sihtrühm	Hinna vibratsioon	Miks see toimib
AI-koodi kaaspiloodid (SQL + Pythoni abilised) GitHub Copilot	Insenerid, kes kirjutavad palju koodi	Tasuta- ehk tasulisest	Suurepärane tellingute koostamises, ümbertegemises, süntaksi loomisel… vahel väga spetsiifilisel moel enesega rahulolev
Hallatud ELT-pistikud Fivetran	Meeskonnad on väsinud hoonete haldamisest	Tellimuspõhine	Eemaldab kohandatud allaneelamise valu, aga puruneb lõbusatel uutel viisidel
Andmete jälgitavuse platvormid Andmete jälgitavus (Dynatrace)	Kõik, kellel on teenusetaseme lepingud (SLA-d)	Keskmise suurusega ja suurettevõtete	Tuvastab anomaaliad varakult – näiteks torujuhtmete suitsuandurid 🔔
Transformatsiooniraamistikud (deklaratiivne modelleerimine) dbt	Analüütika + DE hübriidid	Tavaliselt tööriist + arvutus	Muudab loogika modulaarseks ja testitavaks, vähem spagetti
Andmekataloogid + semantilised kihid dbt Semantiline kiht	Mõõdikutega segadust tekitavad organisatsioonid	Oleneb, praktikas	Defineerib „tõe” üks kord – vähendab lõputuid meetrikaalaseid vaidlusi
Orkestreerimine mallidega Apache Airflow	Platvormile orienteeritud meeskonnad	Avatud + operatsioonide maksumus	Standardiseerib töövooge; vähem lumehelveste kujulisi DAG-e
Tehisintellekti abil dokumenteerimine, DBT-dokumentide genereerimine	Meeskonnad, kes vihkavad dokumentide kirjutamist	Odav kuni mõõdukas	Teeb „piisavalt häid” dokumente, et teadmised ei kaoks
Automatiseeritud halduspoliitikad NISTi privaatsusraamistik	Reguleeritud keskkonnad	Ettevõttesõbralik	Aitab reegleid jõustada, aga reeglite kujundamiseks on siiski vaja inimesi

Pane tähele, mis puudub: rida kirjaga „andmeinseneride eemaldamiseks vajutage nuppu”. Jah… seda rida pole olemas 🙃

Seega… kas tehisintellekt asendab andmeinsenerid või muudab lihtsalt nende rolli? 🛠️

Siin on mittedramaatiline vastus: tehisintellekt asendab osa töövoost, mitte elukutset.

Aga see muudab rolli. Ja kui sa seda ignoreerid, tunned sa pigistust.

Mis muutub:

Vähem aega mallitekstide kirjutamiseks
Vähem aega dokumentide otsimisele
Rohkem aega ülevaatamisele, valideerimisele ja kujundamisele
Rohkem aega lepingute ja kvaliteediootuste määratlemiseks Avatud Andmete Lepingu Standard (ODCS)
Rohkem aega toote-, turvalisus- ja finantsvaldkonnas partnerlusele

See on peen nihe: andmetehnika ei keskendu enam niivõrd „torustike ehitamisele“ kuivõrd „usaldusväärse andmetoodete süsteemi loomisele“

Ja vaikselt öeldes on see väärtuslikum, mitte vähem väärtuslik.

Samuti – ja ma ütlen seda isegi siis, kui see kõlab dramaatiliselt – suurendab tehisintellekt nende inimeste arvu, kes suudavad luua andmeartefakte, mis omakorda suurendab vajadust kellegi järele, kes kogu asja mõistuse juures hoiab. Rohkem väljundit tähendab suuremat võimalikku segadust. GitHub Copilot

See on nagu annaks kõigile elektrilise puuri. Suurepärane! Nüüd peaks keegi jõustama reeglit "palun ära puuri veetorusse" 🪠

Uus oskustepagas, mis jääb väärtuslikuks (isegi kui tehisintellekt on kõikjal) 🧠⚙️

Kui soovite praktilist tulevikukindlat kontrollnimekirja, näeb see välja selline:

Süsteemi kujundamise mõtteviis

Muutustele vastupidav andmete modelleerimine
Pakett- ja voogedastustöötluse kompromissid
Latentsus, maksumus, usaldusväärsuse mõtlemine

Andmete kvaliteedi inseneriteadus

Lepingud, valideerimised, anomaaliate tuvastamine Avatud andmete lepingute standard (ODCS) Andmete jälgitavus (Dynatrace)
SLA-d, SLO-d, intsidentidele reageerimise harjumused
Põhjuste analüüs distsipliini abil (mitte emotsioonide abil)

Juhtimis- ja usaldusarhitektuur

Juurdepääsumustrid
Auditeeritavus NIST SP 800-92 (logide haldus)
Privaatsus kavandatud kujul NIST privaatsusraamistik
Andmete elutsükli haldamise ELi juhised säilitamise kohta

Platvormimõtlemine

Korduvkasutatavad mallid, kuldsed teed
Standardiseeritud mustrid Fivetrani andmebaasiandmete sisestamiseks, teisendamiseks ja testimiseks
Iseteeninduslikud tööriistad, mis ei sula

Suhtlemine (jah, tõesti)

Selgete dokumentide kirjutamine
Definitsioonide joondamine
Öeldes viisakalt, aga kindlalt "ei"
Kompromisside selgitamine ilma roboti moodi kõlamata 🤖

Kui suudad neid kõiki teha, muutub küsimus „Kas tehisintellekt asendab andmeinsenerid?“ vähem ähvardavaks. Tehisintellektist saab sinu eksoskelett, mitte sinu asendaja.

Realistlikud stsenaariumid, kus mõned andmetehnika rollid kahanevad 📉

Olgu, kiire reaalsuskontroll, sest see pole ainult päikesepaiste ja emotikonidega konfetid 🎉

Mõned rollid on avatumad:

Ainult sissevõtmisele suunatud rollid, kus kõik on standardsed konnektorid Fivetran konnektorid
Meeskonnad, kes tegelevad enamasti korduvate aruandlusvoogudega minimaalsete valdkonna nüanssidega
Organisatsioonid, kus andmetehnikat koheldakse kui "SQL-ahvi" (karm, aga tõsi)
Madala omandiõigusega rollid, kus töö seisneb vaid piletite hankimises ja kopeerimises-kleebimises

Tehisintellekt koos hallatud tööriistadega saab neid vajadusi vähendada.

Aga isegi seal näeb asendamine tavaliselt välja selline:

Vähem inimesi teeb sama korduvat tööd
Rohkem rõhku platvormi omandiõigusele ja usaldusväärsusele
Nihe suuna poole, et „üks inimene saab toetada rohkem torustikke”

Seega jah – töötajate arvu mustrid võivad muutuda. Rollid arenevad. Tiitlid muutuvad. See osa on reaalne.

Sellegipoolest jääb rolli kõrge omandiõiguse ja usalduse versioon püsima.

Lõppkokkuvõte 🧾✅

Kas tehisintellekt asendab andmeinsenerid? Mitte puhtal ja terviklikul viisil, nagu inimesed ette kujutavad.

Tehisintellekt teeb järgmist:

automatiseerida korduvaid ülesandeid
kiirenda kodeerimist, silumist ja dokumenteerimist GitHub Copilot SQL-i jaoks dbt dokumentatsioon
vähendada torujuhtmete tootmise kulusid

Kuid andmetehnika on põhimõtteliselt seotud järgmisega:

vastutus
süsteemi disain
usaldus, kvaliteet ja juhtimine avatud andmete lepingute standard (ODCS) NIST privaatsusraamistik
ähmase ärireaalsuse tõlkimine usaldusväärseteks andmetoodeteks

Tehisintellekt saab sellega aidata ... aga see ei "oma" seda.

Kui oled andmeinsener, on samm lihtne (mitte lihtne, aga lihtne):
keskendu omandiõigusele, kvaliteedile, platvormil mõtlemisele ja suhtlusele. Lase tehisintellektil tegeleda malliga, samal ajal kui sina tegeled oluliste osadega.

Ja jah – vahel tähendab see ruumis täiskasvanuna olemist. Mitte glamuurset. Aga vaikselt võimast 😄

Kas tehisintellekt asendab andmeinsenerid?
See asendab mõned ülesanded, muudab ametiredelit ja muudab parimad andmeinsenerid veelgi väärtuslikumaks. See on tegelik lugu.

Reaalse maailma näide: tehisintellektiga toetatud andmekanali ülevaatuse töövoo loomine 🛠️

Stsenaarium

Kujutage ette väikest e-kaubanduse ettevõtet, kus on üks andmeinsener, kaks analüütikut ja väga tuttav probleem: finantsjuhtpaneel lakkab töötamast iga kord, kui makseteenuse pakkuja muudab väljanime.

Meeskond ei soovi, et tehisintellekt (AI) torujuhet „omaks“. See oleks riskantne. Selle asemel kasutavad nad tehisintellekti esimese mustandi abilisena rutiinsete, kuid oluliste tööde jaoks: andmebaasimudeli skelettide kirjutamine, testide soovitamine, dokumentatsiooni koostamine ja koodi ülevaatuse kontrollnimekirja loomine.

Inimesest andmeinsenerile kuuluvad endiselt lõplik disain, andmemääratlused, juurdepääsureeglid ja tootmiskeskkonna juurutamine. Tehisintellekt lihtsalt kiirendab keerulist vahepealset etappi.

Mida töövoog vajab

Enne tehisintellekti kasutamist annab meeskond sellele piisavalt konteksti, et sellest abi oleks:

Olemasolev maksete tabeli skeem
Sihtfinantsmõõdikute definitsioonid, näiteks „puhastulu“, „tagasimakse summa“ ja „tasutud makse“
DBT-mudelite nimetamise konventsioonid
Heakskiidetud testide näited
Lühike andmeleping maksevoo jaoks
Isikuandmete, ebaõnnestunud maksete, duplikaatide ja hilinenud dokumentide käitlemise reeglid
Näide varasematest intsidentidest, sealhulgas mis läks valesti ja kuidas see parandati

Asi pole selles, et „palu tehisintellektil torujuhet ehitada“. See on liiga ebamäärane.

Tugevam lähenemisviis on: „Siin on meie reeglid, siin on skeem, siin on oodatav käitumine. Koostage midagi, mida saame üle vaadata.“

Näidisjuhis

Te aitate koostada meie makseandmete jaoks DBT-mudelit. Kasutage allolevat skeemi ja reegleid esimese etapi mudeli, soovitatud DBT-testide ja dokumentatsiooni märkmete loomiseks.

Mudel peab arvutama igapäevase arveldatud tulu tellimuse ID ja makseteenuse pakkuja järgi. Ebaõnnestunud maksed ja testtehingud tuleb välja jätta ning tagasimaksed tuleb lahutada ainult siis, kui refund_status = „kinnitatud“.

Ära mõtle välja uusi veerge. Kui kohustuslik veerg puudub, loetle see äraarvamise asemel rubriigis „Küsimused inimesele läbivaatamiseks“.

Samuti soovitage teste unikaalsuse, nullväärtuste, aktsepteeritud väärtuste ja tulude mõistlikkuse hindamiseks. Märgistage ära kõik loogikad, mis võivad mõjutada finantsaruandlust.

Kuidas seda testida

Mõistlik test on väike ja tahtlikult igapäevane:

Anna tehisintellektile üks teadaolevalt toimiv makseskeem ja kontrolli, kas see väldib väljamõtlemist.
Anna sellele üks skeem, millel puudub refund_status veerg, ja vaata, kas see esitab küsimuse oletuse asemel.
Käivita genereeritud SQL-i etapiviisilise andmestiku, mitte tootmiskeskkonna suhtes.
Võrrelge väljundit 20 käsitsi kontrollitud maksekirjega.
Paluge analüütikul ja andmeinseneril enne ühendamist definitsioonid üle vaadata.
Lisa aktsepteeritud testid konfiguratsioonikeskkonnale (CI), et torujuhe kontrolliks ennast ka pärast juurutamist.

Oluline on testida tehisintellekti just nende rikete osas, mida te kõige rohkem kardate: väljamõeldud veerud, vale tululoogika, puuduv tagasimaksete käsitlemine ja vaiksed duplikaatread.

Tulemus

Illustreeriv tulemus: põhineb kolme näidis-torustiku muutmise ülesande ajastusel enne ja pärast selle töövoo kasutamist.

Enne tehisintellekti kasutamist kulutas insener iga muudatuse peale umbes 5 tundi 30 minutit: umbes 2 tundi SQL-i kirjutamisele, 1 tund testide loomisele, 45 minutit dokumentatsiooni kirjutamisele ja ülejäänu finantsosakonnaga äärmuslike juhtumite kontrollimisele.

Kuna tehisintellekti kasutati ainult esimeste mustandite jaoks, võttis sama tüüpi muudatus aega umbes 2 tundi ja 10 minutit. Suurim kokkuhoid tuli teststruktuuride ja dokumentatsiooni mustandite arvelt, mis lühenesid 1 tunnilt ja 45 minutilt umbes 25 minutile.

Inimese poolt läbivaatamise etapp võttis ikkagi umbes 45 minutit ja seda ei tohiks eemaldada.

Kolmeülesandes testis pakkus tehisintellekt välja 18 kontrolli. Insener aktsepteeris 11, muutis 5 ja lükkas tagasi 2, kuna need eeldasid ärireegleid, mis ei vasta tõele. See tagasilükkamiste arv on oluline: see tõestab, et töövoog vajab ülevaatamist, mitte pimedat usaldust.

Mis võib valesti minna

Tehisintellekt võib muuta torujuhtme terviklikumaks, kui see tegelikult on.

Levinud rikkepunktide hulka kuuluvad:

Usutavalt kõlavate veergude leiutamine
Tagasimaksete, tagasimaksete ja ebaõnnestunud maksete käsitlemine sama asjana
Päevase tulu puuduvate ajavöönditega seotud probleemid
Üldiste testide soovitamine, mis ei taba finantsvigu
Dokumentatsiooni kirjutamine, mis kõlab enesekindlalt, kuid varjab ebakindlust
Privaatsusreeglite unustamine, kui näidisandmed sisaldavad kliendiandmeid

Hea reegel: tehisintellekt saab küll mudeli mustandi koostada, aga inimene peab heaks kiitma definitsioonid, rahaloogika, juurdepääsukontrolli ja tootmisse lubamise.

Praktiline kaasavõetav toit

Andmetehnikas tehisintellekti väärtuslik versioon ei ole „andmeinseneri asendamine“, vaid „tühja lehe eemaldamine ja seejärel põhjalik ülevaatamine“.

See tähendab kiiremat SQL-i, kiiremaid teste ja paremat esmast dokumentatsiooni, samas kui insenerile kuulub endiselt kõige olulisem osa: kas andmed on õiged, usaldusväärsed, turvalised ja selgitatavad.

KKK

Kas tehisintellekt asendab andmeinsenerid täielikult?

Enamikus organisatsioonides võtab tehisintellekt pigem konkreetsed ülesanded üle, kui kustutab rolli täielikult. See võib kiirendada SQL-i koostamist, torujuhtme tellingute loomist, dokumentatsiooni esmast läbimist ja põhiliste testide loomist. Kuid andmetehnikaga kaasneb ka omandiõigus ja vastutus ning ebameeldiv töö, mille eesmärk on panna segane ärireaalsus käituma usaldusväärse süsteemina. Need osad vajavad endiselt inimesi, et otsustada, mis on „õige“, ja võtta vastutus, kui asjad lähevad katki.

Milliseid andmetöötluse osi tehisintellekt juba automatiseerib?

Tehisintellekt toimib kõige paremini korduvate tööde puhul: SQL-i koostamine ja refaktoreerimine, andmebaasi mudeli skelettide genereerimine, levinud vigade selgitamine ja dokumentatsiooni kontuuride koostamine. See suudab ka tugistruktuuri teste, näiteks null- või unikaalsuskontrolle, toetada ning genereerida orkestreerimistööriistade jaoks malli „liimikoodi“. Võit on hoogus – alustate toimiva lahenduse poole –, kuid peate siiski valideerima õigsust ja veenduma, et see sobib teie keskkonda.

Kui tehisintellekt oskab kirjutada SQL-i ja torujuhtmeid, mis jääb siis andmeinseneridele?

Palju: andmelepingute määratlemine, skeemide triivi käsitlemine ning torujuhtmete idempotentsuse, jälgitavuse ja taastatavuse tagamine. Andmeinsenerid veedavad aega mõõdikute muutuste uurimisel, allkasutajatele piirete loomisel ning kulude ja töökindluse kompromisside haldamisel. Töö taandub sageli usalduse loomisele ja andmeplatvormi „vaikse“ hoidmisele, mis tähendab piisavalt stabiilsena, et keegi ei peaks selle peale iga päev mõtlema.

Kuidas muudab tehisintellekt andmeinseneri igapäevatööd?

Tavaliselt vähendab see mallide ja „otsimise” aega, nii et kulutate vähem aega kirjutamisele ja rohkem aega ülevaatamisele, valideerimisele ja kujundamisele. See nihe suunab rolli ootuste, kvaliteedistandardite ja korduvkasutatavate mustrite määratlemisele, selle asemel et kõike käsitsi kodeerida. Praktikas teete tõenäoliselt rohkem partnerlust toote, turvalisuse ja rahandusega – sest tehnilist väljundit on lihtsam luua, kuid raskem hallata.

Miks on tehisintellektil raskusi ebamääraste ärimääratlustega nagu „aktiivne kasutaja”?

Kuna äriloogika ei ole staatiline ega täpne – see muutub projekti keskel ja varieerub olenevalt sidusrühmast. Tehisintellekt saab küll koostada tõlgenduse, kuid ei saa otsust omada, kui definitsioonid arenevad või konfliktid tekivad. Andmetehnika nõuab sageli läbirääkimisi, eelduste dokumenteerimist ja häguste nõuete muutmist püsivateks lepinguteks. See „inimese joondamise“ töö on peamine põhjus, miks see roll ei kao isegi tööriistade täiustumisel.

Kas tehisintellekt saab andmehalduse, privaatsuse ja vastavusega ohutult hakkama?

Tehisintellekt saab aidata poliitikate koostamisel või lähenemisviiside pakkumisel, kuid ohutu rakendamine nõuab siiski tõelist inseneritööd ja hoolikat järelevalvet. Haldus hõlmab juurdepääsu kontrolli, isikut tuvastava teabe käitlemist, säilitusreegleid, auditeerimisjälgi ja mõnikord ka elukoha piiranguid. Need on kõrge riskiga valdkonnad, kus „peaaegu õige” pole vastuvõetav. Inimesed peavad reeglid kujundama, jõustamist kontrollima ja vastutama vastavustulemuste eest.

Millised oskused jäävad andmeinseneride jaoks tehisintellekti arenedes väärtuslikuks?

Oskused, mis muudavad süsteemid vastupidavaks: süsteemi disainmõtlemine, andmete kvaliteedi inseneriteadus ja platvormipõhine standardiseerimine. Lepingud, jälgitavus, intsidentidele reageerimise harjumused ja distsiplineeritud algpõhjuste analüüs muutuvad veelgi olulisemaks, kui rohkem inimesi suudab kiiresti andmeartefakte genereerida. Suhtlusest saab samuti eristav tegur – definitsioonide ühtlustamine, selgete dokumentide kirjutamine ja kompromisside dramaatilise selgitamine on andmete usaldusväärsuse säilitamise oluline osa.

Millised andmetehnika rollid on tehisintellekti ja hallatud tööriistade tõttu kõige suuremas ohus?

Rollid, mis on kitsalt keskendunud korduvale andmekogumisele või standardsetele aruandluskanalitele, on rohkem haavatavad, eriti kui hallatavad ELT-ühendused hõlmavad enamikku allikaid. Madala omandiõigusega ja piletipõhine töö võib väheneda, kuna tehisintellekt ja abstraktsioon vähendavad kanali kohta tehtavat pingutust. Kuid tavaliselt näeb see välja nii, et korduvaid ülesandeid teeb vähem inimesi, mitte et „andmeinsenere pole üldse“. Usaldusväärsusele, kvaliteedile ja usaldusele keskenduvad suure omandiõigusega rollid jäävad püsima.

Kuidas peaksin kasutama selliseid tööriistu nagu GitHub Copilot või dbt tehisintellektiga ilma kaost tekitamata?

Käsitle tehisintellekti väljundit mustandina, mitte otsusena. Kasuta seda päringu skelettide loomiseks, loetavuse parandamiseks või andmebaasi testide ja dokumentide tellimiseks ning seejärel valideeri seda reaalsete andmete ja servajuhtumite suhtes. Seo see tugevate konventsioonidega: lepingud, nimetamisstandardid, jälgitavuse kontrollid ja ülevaatustavad. Eesmärk on kiirem edastamine, ohverdamata usaldusväärsust, kulude kontrolli või juhtimist.

Viited

Euroopa Komisjon – Andmekaitse selgitus: isikuandmete kaitse üldmääruse põhimõtted – commission.europa.eu
Infokomissari büroo (ICO) – Säilitamise piirang – ico.org.uk
Euroopa Komisjon - Kui kaua võib andmeid säilitada ja kas neid on vaja ajakohastada? - commission.europa.eu
Riiklik Standardite ja Tehnoloogia Instituut (NIST) - Privaatsusraamistik - nist.gov
NISTi arvutiturbe ressursikeskus (CSRC) - SP 800-92: arvutiturbe logide haldamise juhend - csrc.nist.gov
Internetiturbe keskus (CIS) - auditilogide haldus (CIS-i juhtelemendid) - cisecurity.org
Snowflake'i dokumentatsioon - ridade juurdepääsupoliitikad - docs.snowflake.com
Google Cloudi dokumentatsioon – BigQuery rea tasemel turvalisus – docs.cloud.google.com
BITOL - Avatud andmete lepingute standard (ODCS) v3.1.0 - bitol-io.github.io
BITOL (GitHub) - Avatud andmete lepingu standard - github.com
Apache Airflow - Dokumentatsioon (stabiilne) - airflow.apache.org
Apache Airflow - DAG-id (põhikontseptsioonid) - airflow.apache.org
dbt Labsi dokumentatsioon - Mis on dbt? - docs.getdbt.com
dbt Labsi dokumentatsioon - dbt mudelite kohta - docs.getdbt.com
dbt Labsi dokumentatsioon - Dokumentatsioon - docs.getdbt.com
dbt Labsi dokumentatsioon - Andmetestid - docs.getdbt.com
dbt Labsi dokumentatsioon - dbt semantiline kiht - docs.getdbt.com
Fivetrani dokumentatsioon – Alustamine – fivetran.com
Fivetran - Ühendused - fivetran.com
AWS-i dokumentatsioon – AWS Lambda arendaja juhend – docs.aws.amazon.com
GitHub - GitHubi kaaspiloot - github.com
GitHubi dokumendid – Koodiettepanekute saamine oma IDE-s GitHub Copiloti abil – docs.github.com
Microsoft Learn – GitHub Copilot SQL-i jaoks (VS Code'i laiendus) – learn.microsoft.com
Dynatrace'i dokumentatsioon - andmete jälgitavus - docs.dynatrace.com
DataGalaxy - Mis on andmete jälgitavus? - datagalaxy.com
Suurepärased ootused dokumentatsioon - ootuste ülevaade - docs.greatexpectations.io

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse