Kuidas luua arvutis tehisintellekti. Täielik juhend.

Olgu, sind huvitab tehisintellekti loomine. Mitte Hollywoodi mõttes, kus see eksisteerimist kaalub, vaid selline, mida saad oma sülearvutil käitada ja mis teeb ennustusi, sorteerib asju ja võib-olla isegi vestleb natuke. See juhend tehisintellekti loomiseks arvutis on minu katse lohistada sind eimillestki juurde , mis tegelikult lokaalselt töötab . Ole valmis otseteedeks, otsekoheseks arvamuseks ja aeg-ajalt ka kõrvalteeks, sest olgem ausad, nokitsemine pole kunagi puhas.

Artiklid, mida võiksite pärast seda lugeda:

🔗 Kuidas luua tehisintellekti mudelit: täielikud sammud selgitatud
Tehisintellekti mudeli loomise selge jaotus algusest lõpuni.

🔗 Mis on sümboolne tehisintellekt: kõik, mida peate teadma
Õpi sümboolse tehisintellekti põhitõdesid, ajalugu ja tänapäevaseid rakendusi.

🔗 Tehisintellekti andmesalvestusnõuded: mida vajate
Mõista tõhusate ja skaleeritavate tehisintellekti süsteemide salvestusvajadusi.

Milleks nüüd vaeva näha? 🧭

Sest ajastu, mil „ainult Google'i mastaabis laborid saavad tehisintellektiga hakkama“, on möödas. Tänapäeval saab tavalise sülearvuti, mõne avatud lähtekoodiga tööriista ja visadusega välja mõelda väikeseid mudeleid, mis klassifitseerivad e-kirju, võtavad kokku teksti või sildistavad pilte. Andmekeskust pole vaja. Teil on vaja vaid:

plaan
puhas seadistus,
ja eesmärk, mille saad lõpetada ilma masinat aknast välja viskamata.

Mis teeb selle jälgimist väärt ✅

Inimesed, kes küsivad, kuidas luua arvutis tehisintellekti, ei taha tavaliselt doktorikraadi. Nad tahavad midagi, mida nad saavad päriselt käivitada. Hea plaan tabab paar asja:

Alusta pisikesest : liigita tundeid, ära "lahenda luureandmeid".
Reprodutseeritavus : conda või venv , et saaksite homme paanikata uuesti üles ehitada.
Riistvara ausus : protsessorid sobivad hästi scikit-learnimiseks, graafikakaardid süvavõrkude jaoks (kui teil veab) [2][3].
Puhtad andmed : valesti märgistatud rämpsu pole; alati jagatud rühmadeks „rong/valid/test”.
Tähendusrikas mõõdik : täpsus, korrektsus, meeldejäävus, F1. Tasakaalustamatuse korral ROC-AUC/PR-AUC [1].
Jagamisviis : pisike API, CLI või demorakendus.
Ohutus : kahtlaseid andmekogumeid ja privaatse teabe lekkeid ei ole, riskid tuleb selgelt kirja panna [4].

Kui need õigesti teha, on isegi teie „väike” mudel ehtne.

Tegevuskava, mis ei tundu hirmutav 🗺️

Vali väike probleem + üks mõõdik.
Paigalda Python ja mõned võtmeteegid.
Loo puhas keskkond (sa tänad ennast hiljem).
Laadige oma andmestik ja jagage see õigesti.
Treeni rumalat, aga ausat baasjoont.
Proovi närvivõrku ainult siis, kui see lisab väärtust.
Pakenda demo.
Tee tulevikus märkmeid – sa tänad sind.

Miinimumvarustus: ära aja üle keeruliseks 🧰

Python : haarake saidilt python.org.
Keskkond : Conda või venv pipiga.
Märkmikud : Jupyter mängimiseks.
Toimetaja : VS Code, sõbralik ja võimas.
Põhiteegid
- pandad + NumPy (andmetega vaieldamine)
- scikit-learn (klassikaline masinõpe)
- PyTorch või TensorFlow (süvaõpe, GPU versioonid on olulised) [2][3]
- Kallistavate Nägude Transformerid, spaCy, OpenCV (NLP + visioon)
Kiirendus (valikuline)
- NVIDIA → CUDA versioonid [2]
- AMD → ROCm versioonid [2]
- Apple → PyTorch Metal-taustaprogrammiga (MPS) [2]

⚡ Märkus: suurem osa „paigaldusvaelust” kaob, kui lased ametlikel paigaldajatel sulle täpselt õiged käsud anda . Kopeeri, kleebi, valmis [2][3].

Rusikareegel: esmalt rooma protsessoriga, seejärel sprint graafikakaardiga.

Oma virna valimine: ära karda läikivaid asju 🧪

Tabeliandmed → scikit-learn. Logistiline regressioon, juhuslikud metsad, gradiendi võimendamine.
Tekst või pildid → PyTorch või TensorFlow. Teksti puhul on väikese Transformeri peenhäälestamine tohutu võit.
Vestlusrobotilaadne → llama.cpp suudab sülearvutites pisikesi õigusteaduse õpikuid (LLM-e) käitada. Ära oota maagiat, aga märkmete ja kokkuvõtete puhul see töötab [5].

Puhas keskkond 🧼

# Conda viis conda create -n localai python=3.11 conda activate localai # VÕI venv python -m venv .venv allikas .venv/bin/activate # Windows: .venv\Scripts\activate

Seejärel installige olulised elemendid:

pip installi numpy pandas scikit-learn jupyter pip installi torch torchvision torchaudio # või tensorflow pip installi transformers andmestikud

(GPU-versioonide puhul, tõsiselt, kasutage lihtsalt ametlikku valijat [2][3].)

Esimene töötav mudel: hoia see pisikesena 🏁

Esmalt baasjoon. CSV → tunnused + sildid → logistiline regressioon.

sklearn.linear_model failist import LogisticRegression ... print("Täpsus:", täpsuse_skoor(y_test, preds)) print(klassifikatsiooni_aruanne(y_test, preds))

Kui see ületab juhuslikkuse tulemusi, siis tähistate. Kohv või küpsis, teie otsustada on ☕.
Tasakaalustamata klasside puhul jälgige täpsuse/meenutuse + ROC/PR kõveraid toore täpsuse asemel [1].

Neuraalvõrgud (ainult siis, kui need aitavad) 🧠

Kas sul on teksti ja soovid tundeid liigitada? Häälesta väikest eeltreenitud Transformerit. Kiire, puhas ja ei kurna su arvutit.

transformaatoritest importige AutoModelForSequenceClassification ... trainer.train() print(trainer.evaluate())

Profinõuanne: alusta väikeste valimitega. 1% andmete silumine säästab tunde.

Andmed: põhitõed, mida ei saa vahele jätta 📦

Avalikud andmekogumid: Kaggle, Hugging Face, akadeemilised repositooriumid (kontrollige litsentse).
Eetika: puhasta isikuandmeid, austa õigusi.
Jaotused: treenimine, valideerimine, testimine. Mitte kunagi piilu.
Sildid: järjepidevus on olulisem kui uhked mudelid.

Tõepomm: 60% tulemustest pärineb puhastest siltidest, mitte arhitektuurilisest võlurist.

Mõõdikud, mis hoiavad sind ausana 🎯

Klassifikatsioon → täpsus, korrektsus, meenutavus, F1.
Tasakaalustamata hulgad → ROC-AUC, PR-AUC loevad rohkem.
Regressioon → MAE, RMSE, R².
Reaalsuskontroll → vaata silmaga mõnda väljundit; numbrid võivad valetada.

Kasulik viide: scikit-learni mõõdikute juhend [1].

Kiirenduse näpunäited 🚀

NVIDIA → PyTorchi CUDA versioon [2]
AMD → ROCm [2]
Apple → MPS-i taustsüsteem [2]
TensorFlow → järgi ametlikku GPU installi + kontrolli [3]

Aga ära optimeeri enne, kui su baasjoon üldse käima läheb. See on nagu velgede poleerimine enne, kui autol rattad on.

Kohalikud generatiivsed mudelid: beebidraakonid 🐉

Keel → kvantiseeritud õigusteaduslikud keeled faili llama.cpp [5]. Sobib hästi märkmete või koodivihjete jaoks, mitte sügava vestluse jaoks.
Pildid → Stabiilne difusioon on variantidena olemas; lugege litsentsitingimusi hoolikalt.

Mõnikord edestab ülesandespetsiifiline peenhäälestatud Transformer väikesel riistvaral paisunud LLM-i.

Pakendidemonstratsioonid: laske inimestel klõpsata 🖥️

Gradio → lihtsaim kasutajaliides.
FastAPI → puhas API.
Kolb → kiirskriptid.

import gradio as gr clf = pipeline("sentiment-analüüs") ... demo.launch()

Tundub nagu maagia, kui teie brauser seda kuvab.

Harjumused, mis päästavad mõistuse 🧠

Git versioonikontrolli jaoks.
MLflow või märkmikud katsete jälgimiseks.
Andmete versioonimine DVC või räsi abil.
Docker, kui teised peavad sinu asju ajama.
Sõltuvuste kinnitamine ( requirements.txt ).

Usu mind, tulevik – sa oled tänulik.

Veaotsing: levinud „öäk“-hetked 🧯

Installivead? Pühkige lihtsalt keskkond ja ehitage uuesti.
GPU-d ei tuvastatud? Draiverite mittevastavus, kontrollige versioone [2][3].
Mudel ei õpi? Vähenda õppimiskiirust, lihtsusta või puhasta sildid.
Ülesobitamine? Regulariseerida, välja jätta või lihtsalt rohkem andmeid.
Liiga head mõõdikud? Lekitasid testikomplekti (seda juhtub rohkem, kui arvad).

Turvalisus + vastutus 🛡️

Eemalda isikut tõendavad dokumendid.
Austa litsentse.
Kohalik-kõigepealt = privaatsus + kontroll, aga arvutuspiirangutega.
Dokumendiriskid (õiglus, ohutus, vastupidavus jne) [4].

Käepärane võrdlustabel 📊

Tööriist	Parima jaoks	Miks seda kasutada
scikit-learn	Tabelilised andmed	Kiired võidud, puhas API 🙂
PyTorch	Kohandatud sügavad võrgud	Paindlik ja tohutu kogukond
TensorFlow	Tootmistorustikud	Ökosüsteem + serveerimisvõimalused
Trafod	Tekstiülesanded	Eelnevalt treenitud mudelid säästavad arvutusvõimsust
spaCy	NLP torujuhtmed	Tööstuslik tugevus, pragmaatiline
Gradio	Demod/kasutajaliidesed	1 fail → UI
FastAPI	API-d	Kiirus + autodokumendid
ONNX-i käitusaeg	Raamideülene kasutamine	Kaasaskantav + tõhus
llama.cpp	Pisikesed kohalikud õigusteaduse magistrid	Protsessorisõbralik kvantiseerimine [5]
Docker	Jagamiskeskkonnad	"See toimib kõikjal"

Kolm sügavamat sukeldumist (mida sa tegelikult kasutad) 🏊

Tabelite tunnuste arendus → normaliseerimine, ühe kuumusega testimine, puumudelite proovimine, ristvalideerimine [1].
Teksti ülekandeõpe → peenhäälesta väikeseid transformaatoreid, hoia järjestuspikkus mõõdukana, F1 haruldaste klasside jaoks [1].
Optimeerimine lokaalse järelduse jaoks → kvantiseerimine, ONNX eksport, vahemälu tokenisaatorid.

Klassikalised lõksud 🪤

Liiga vara ja liiga suur ehitus.
Andmete kvaliteedi ignoreerimine.
Testiosa vahelejätmine.
Pime kopeerimine-kleepimine kodeerimisel.
Ei dokumenteeri midagi.

Isegi README salvestab tunde hiljem.

Õppematerjalid, mis on ajakulu väärt 📚

Ametlikud dokumendid (PyTorch, TensorFlow, scikit-learn, Transformers).
Google'i masinõppe kiirkursus, DeepLearning.AI.
Nägemise põhitõdede OpenCV dokumentatsioon.
spaCy kasutusjuhend NLP torujuhtmete jaoks.

Väike nipp: ametlikud installijad, mis genereerivad teie GPU installikäsu, päästavad elusid [2][3].

Kõik kokku võttes 🧩

Eesmärk → liigita tugiteenuse piletid 3 tüüpi.
Andmed → CSV eksport, anonüümne, jagatud.
Baasjoon → scikit-learn TF-IDF + logistiline regressioon.
Täienda → Trafo peenhäälesta, kui baasjoon seiskub.
Demo → Gradio tekstikasti rakendus.
Laev → Docker + README.
Itereeri → paranda vead, sildista ümber, korda.
Kaitsemeetmed → dokumendiriskid [4].

See on igavalt efektiivne.

TL;DR 🎂

Arvutis tehisintellekti loomise õppimine = vali üks pisike probleem, loo lähtepunkt, eskaleeri seda ainult siis, kui see aitab, ja hoia oma seadistus korratavana. Tee seda kaks korda ja tunned end pädevana. Tee seda viis korda ja inimesed hakkavad sinult abi küsima, mis on salaja kõige lõbusam osa.

Ja jah, vahel tundub see nagu rösterile luulet kirjutama õpetamine. Pole hullu. Jätka nokitsemist. 🔌📝

Viited

[1] scikit-learn — Mõõdikud ja mudeli hindamine: link
[2] PyTorch — Kohaliku installi valija (CUDA/ROCm/Mac MPS): link
[3] TensorFlow — Installi + GPU verifitseerimine: link
[4] NIST — Tehisintellekti riskijuhtimise raamistik: link
[5] llama.cpp — Kohalik LLM-repositoorium: link

Leia uusim tehisintellekt ametlikust tehisintellekti abilise poest

Meist

Tagasi blogisse

Riik/regioon