Lühike vastus: tehisintellekti ülesskaleerimine toimib nii, et mudelit treenitakse paaristatud madala ja kõrge eraldusvõimega piltide põhjal ning seejärel kasutatakse seda ülesskaleerimise ajal usutavate lisapikslite ennustamiseks. Kui mudel on treenimisel näinud sarnaseid tekstuure või nägusid, saab see lisada veenvaid detaile; kui mitte, võib see videos „hallutsineerida“ artefakte, nagu halod, vahajas nahk või virvendus.
Peamised järeldused:
Ennustus : Mudel genereerib usutavaid detaile, mitte garanteeritud reaalsuse rekonstruktsiooni.
Mudeli valik : CNN-id kipuvad olema stabiilsemad; GAN-id võivad tunduda teravamad, kuid riskivad funktsioonide leiutamisega.
Artefaktide kontrollimine : jälgige halosid, korduvaid tekstuure, „peaaegu tähti“ ja plastmassist nägusid.
Video stabiilsus : kasutage ajalisi meetodeid või näete kaadri-kaadri vahelist virvendust ja triivi.
Olulise tähtsusega kasutamine : kui täpsus on oluline, avalikustage töötlemine ja käsitlege tulemusi illustratiivsetena.

Oled seda ilmselt näinud: pisikesest krõmpsuvast pildist saab midagi piisavalt teravat, et seda ilma grimassita printida, voogedastada või esitlusse lisada. See tundub nagu petmine. Ja – parimal moel – see ongi seda 😅
Seega tehisintellekti ülesskaleerimine millelegi spetsiifilisemale kui „arvuti täiustab detaile” (käega lainetamine) ja lähemale väitele „mudel ennustab usutavat kõrgresolutsiooniga struktuuri mustrite põhjal, mida ta on paljudest näidetest õppinud” ( Deep Learning for Image Super-resolution: A Survey ). See ennustamisetapp ongi kogu mäng – ja seepärast võib tehisintellekti ülesskaleerimine välja näha vapustav... või natuke plastmassist... või nagu teie kassil oleksid kasvanud boonusvurrud.
Artiklid, mida võiksite pärast seda lugeda:
🔗 Kuidas tehisintellekt töötab
Õpi tehisintellekti mudelite, andmete ja järelduste põhitõdesid.
🔗 Kuidas tehisintellekt õpib
Vaadake, kuidas treeningandmed ja tagasiside aja jooksul mudeli toimivust parandavad.
🔗 Kuidas tehisintellekt anomaaliaid tuvastab
Mõista mustrite lähtejooni ja seda, kuidas tehisintellekt ebatavalist käitumist kiiresti märgistab.
🔗 Kuidas tehisintellekt ennustab trende
Uurige prognoosimismeetodeid, mis tuvastavad signaale ja ennustavad tulevast nõudlust.
Kuidas tehisintellekti skaleerimine toimib: põhiidee igapäevastes sõnades 🧩
Ülesskaleerimine tähendab eraldusvõime suurendamist: rohkem piksleid, suurem pilt. Traditsiooniline ülesskaleerimine (nagu bikuupne) venitab põhimõtteliselt piksleid ja silub üleminekuid ( bikuupne interpolatsioon ). See on hea, aga see ei suuda uusi detaile luua – see lihtsalt interpoleerib.
Tehisintellekti ülesskaleerimine proovib midagi julgemat (teadusmaailmas ka „superresolutsiooni“) ( Deep Learning for Image Super-resolutsioon: A Survey ):
-
See vaatleb madala eraldusvõimega sisendit
-
Tunneb ära mustreid (servad, tekstuurid, näojooned, tekstijooned, kanga kudumine…)
-
peaks kõrgema resolutsiooniga versioon välja nägema
-
Genereerib nendele mustritele vastavaid täiendavaid piksliandmeid
Mitte „taastada reaalsus ideaalselt“, vaid pigem „teha väga usutav oletus“ ( pildi superresolutsioon sügavate konvolutsioonivõrkude abil (SRCNN) ). Kui see kõlab veidi kahtlaselt, siis sa ei eksi – aga see on ka põhjus, miks see nii hästi töötab 😄
Ja jah, see tähendab, et tehisintellekti suurendamine on põhimõtteliselt kontrollitud hallutsinatsioon ... aga produktiivsel ja piksleid arvestaval viisil.
Mis teeb tehisintellekti skaleerimisest hea versiooni? ✅🛠️
Kui hindate tehisintellekti skaleerijat (või eelseadistatud seadeid), on siin kõige olulisem:
-
Detailide taastamine ilma üleküpsetamiseta.
Hea ülesskaleerimine lisab krõmpsuvust ja struktuuri, mitte krõmpsuvat müra ega võltspoore. -
Servade distsipliin
Puhtad jooned püsivad puhtad. Halvad mudelid panevad servad kõikuma või tekitavad halosid. -
Tekstuuri realism
Juuksed ei tohiks muutuda pintslitõmbeks. Telliskivi ei tohiks muutuda korduvaks mustritempliks. -
Müra ja tihendamise käsitlemine
Paljud igapäevased pildid on JPEG-vormingus surnuks töödeldud. Hea ülesskaleerija seda kahjustust ei võimenda ( Real-ESRGAN ). -
Näo ja teksti teadlikkus
Näod ja tekst on kohad, kust vigu on kõige lihtsam märgata. Head mudelid kohtlevad neid õrnalt (või neil on spetsiaalsed režiimid). -
Järjepidevus kaadrite vahel (video puhul).
Kui detailid kaadrilt kaadrisse värelevad, hakkavad silmad karjuma. Video ülesskaleerimine elab või sureb ajalise stabiilsuse tõttu ( BasicVSR (CVPR 2021) ). -
Mõistlikud juhtnupud.
Sa tahad liugureid, mis vastavad reaalsetele tulemustele: mürasummutus, hägususe eemaldamine, artefaktide eemaldamine, teravuse säilitamine, teravustamine... praktiline kraam.
Vaikne reegel, mis peab paika: „parim“ ülesskaleerimine on sageli see, mida vaevu märkad. Paistab lihtsalt, et sul oli algusest peale parem kaamera 📷✨
Võrdlustabel: populaarsed tehisintellekti skaleerimisvõimalused (ja milleks need head on) 📊🙂
Allpool on praktiline võrdlus. Hinnad on tahtlikult ebamäärased, kuna tööriistad erinevad litsentsi, pakettide, arvutuskulude ja muu sellise poolest.
| Tööriist/lähenemisviis | Parim | Hinna vibratsioon | Miks see toimib (umbes) |
|---|---|---|---|
| Topaz-stiilis lauaarvutitele mõeldud suurenduskaamerad ( Topaz Photo , Topaz Video ) | Fotod, video, lihtne töövoog | Tasuline | Tugevad üldmudelid + palju häälestamist, kipub "lihtsalt töötama"... enamasti |
| Adobe'i „Super Resolution” tüüpi funktsioonid ( Adobe Enhance > Super Resolution ) | Fotograafid on juba selles ökosüsteemis | Tellimuspõhine | Kindel detailirekonstruktsioon, tavaliselt konservatiivne (vähem dramaatilist) |
| Real-ESRGAN / ESRGAN variandid ( Real-ESRGAN , ESRGAN ) | Isetegemine, arendajad, partiitööd | Tasuta (kuid aeganõudev) | Suurepärane tekstuuri detailsuse osas, võib nägudel vürtsikas olla, kui ettevaatlik ei ole |
| Difusioonipõhised ülesskaleerimisrežiimid ( SR3 ) | Loominguline töö, stiliseeritud tulemused | Segatud | Oskab luua uhkeid detaile – ja oskab ka jama välja mõelda, nii et… jep |
| Mängude ülesskaleerijad (DLSS/FSR-stiilis) ( NVIDIA DLSS , AMD FSR 2 ) | Reaalajas mängimine ja renderdamine | Komplektis | Kasutab liikumisandmeid ja õpitud eelandmeid - sujuv jõudlus võidab 🕹️ |
| Pilve ülesskaleerimise teenused | Mugavus, kiired võidud | Kasutuspõhine tasu | Kiire + skaleeritav, aga kontrolli ja vahel ka peenuse vahel vahetamine |
| Videokesksed tehisintellekti ülesskaleerijad ( BasicVSR , Topaz Video ) | Vanad kaadrid, anime, arhiivid | Tasuline | Ajutised nipid virvenduse vähendamiseks + spetsiaalsed videomudelid |
| „Nutitelefoni”/galerii ülesskaleerimine | Juhuslik kasutamine | Lisatud | Kerged mudelid, mis on häälestatud meeldiva väljundi, mitte täiuslikkuse saavutamiseks (ikka käepärased) |
Vormindamise veidruse ülestunnistus: „Paid-ish” teeb selles tabelis palju tööd. Aga saate aru küll 😅
Suur saladus: mudelid õpivad kaardistust madalast resolutsioonist kõrge resolutsioonini 🧠➡️🖼️
Enamiku tehisintellekti skaleerimise keskmes on juhendatud õppe seadistus ( pildi üliresolutsioon sügavate konvolutsioonivõrkude abil (SRCNN) ):
-
Alustage kõrgresolutsiooniga piltidest („tõde“)
-
Nende diskreetimine madala eraldusvõimega versioonideks („sisend“)
-
Treeni mudelit, et see rekonstrueeriks madala resolutsiooniga originaali kõrge resolutsiooniga pildist
Aja jooksul õpib mudel selliseid seoseid nagu:
-
„Selline silmaümbruse hägusus on tavaliselt ripsmete tunnus.“
-
„See piksliklaster tähistab sageli serif-teksti.“
-
„See servagradient näeb välja nagu katusejoon, mitte suvaline müra.“
See ei ole konkreetsete piltide päheõppimine (lihtsas mõttes), vaid statistilise struktuuri õppimine ( Deep Learning for Image Super-resolution: A Survey ). Mõtle sellele kui tekstuuride ja servade grammatika õppimisele. Mitte luulegrammatikale, pigem nagu… IKEA käsiraamatu grammatika 🪑📦 (kohmakas metafoor, aga piisavalt lähedal).
Põhimõtteliselt: mis juhtub järelduse tegemisel (skaleerimisel) ⚙️✨
Kui sisestate pildi tehisintellekti ülesskaleerijasse, on tavaliselt olemas selline torujuhe:
-
Eeltöötlus
-
Värviruumi teisendamine (mõnikord)
-
Piksliväärtuste normaliseerimine
-
Jaota pilt tükkideks, kui see on suur (VRAM-i tegelikkuse kontroll 😭) ( Real-ESRGAN repo (plaatide valikud) )
-
-
Funktsioonide eraldamine
-
Varased kihid tuvastavad servi, nurki ja gradiente
-
Sügavamad kihid tuvastavad mustreid: tekstuure, kujundeid, näokomponente
-
-
Rekonstruktsioon
-
Mudel genereerib kõrgema resolutsiooniga tunnuste kaardi
-
Seejärel teisendab selle tegelikuks piksliväljundiks
-
-
Järeltöötlus
-
Valikuline teritamine
-
Valikuline mürasummutus
-
Valikuline artefaktide summutamine (helin, halod, plokilisus)
-
Üks peen detail: paljud tööriistad suurendavad plaatide suurust ja seejärel sulatavad vuugid kokku. Head tööriistad peidavad plaatide piire. Keskpärased tööriistad jätavad kissitades õrnad ruudustikujäljed. Ja jah, te kissitate silmi, sest inimestele meeldib 300% suumiga pisikesi ebatäiusi uurida nagu väikestele gremlinidele 🧌
Tehisintellekti skaleerimiseks kasutatavad peamised mudeliperekonnad (ja miks need erinevad tunduvad) 🤖📚
1) CNN-põhine superresolutsioon (klassikaline tööhobune)
Konvolutsioonilised närvivõrgud on suurepärased lokaalsete mustrite, näiteks servade, tekstuuride ja väikeste struktuuride kujutamisel ( pildi ülilahutus sügavate konvolutsioonivõrkude abil (SRCNN) ).
-
Plussid: kiire, stabiilne, vähem üllatusi
-
Miinused: võib tunduda pisut töödeldud, kui seda tugevalt peale suruda
2) GAN-põhine ülesskaleerimine (ESRGAN-stiilis) 🎭
GAN-id (Generative Adversarial Networks) treenivad generaatorit tootma kõrgresolutsiooniga pilte, mida diskrimineerija ei suuda tegelikest piltidest eristada ( Generative Adversarial Networks ).
-
Plussid: silmatorkav detail, muljetavaldav tekstuur
-
Miinused: võib välja mõelda detaile, mida seal polnud – mõnikord valed, mõnikord ebamaised ( SRGAN , ESRGAN )
GAN annab sulle hingematva teravuse. See annab su portreeobjektile ka lisakulmu. Seega... vali oma lahingud 😬
3) Difusioonil põhinev ülesskaleerimine (loominguline metamärk) 🌫️➡️🖼️
Difusioonimudelid eemaldavad müra samm-sammult ja neid saab juhtida kõrgresolutsioonilise detailide loomiseks ( SR3 ).
-
Plussid: võib olla uskumatult hea usutavate detailide osas, eriti loomingulise töö puhul
-
Miinused: agressiivsete keskkondade korral võib algsest identiteedist/struktuurist kõrvale kalduda ( SR3 )
Siin hakkab „suurendamine“ segunema „ümbermõtestamisega“. Mõnikord on see just see, mida sa tahad. Mõnikord mitte.
4) Video ülesskaleerimine ajalise järjepidevusega 🎞️
Video suurendamine lisab sageli liikumistundlikku loogikat:
-
Kasutab naaberkaadreid detailide stabiliseerimiseks ( BasicVSR (CVPR 2021) )
-
Püüab vältida virvendust ja roomavaid artefakte
-
Sageli kombineerib superresolutsiooni müravähenduse ja põimimise eemaldamisega ( Topaz Video )
Kui pildi ülesskaleerimine on nagu ühe maali restaureerimine, siis video ülesskaleerimine on nagu lehtraamatu restaureerimine ilma, et tegelase nina iga lehe järel kuju muudaks. Mis on... raskem, kui see kõlab.
Miks tehisintellekti skaleerimine mõnikord võlts tundub (ja kuidas seda ära tunda) 👀🚩
Tehisintellekti skaleerimine ebaõnnestub äratuntavatel viisidel. Kui olete mustrid selgeks õppinud, näete neid kõikjal, näiteks uue auto ostmisel märkate seda mudelit igal tänaval 😵💫
Common ütleb:
-
Vahatatud nahk näol (liiga palju mürasummutust ja silumist)
-
Liiga teravdatud halod servade ümber (klassikaline „ülevõtete“ territoorium) ( bikuubiline interpolatsioon )
-
Korduvad tekstuurid (telliskiviseinad muutuvad kopeeri-kleebi mustriteks)
-
Krõmpsuv mikrokontrast , mis karjub "algoritmi" järele
-
Teksti moonutamine , kus tähed muutuvad peaaegu tähtedeks (kõige hullem liik)
-
Detailide triiv , kus väikesed omadused muutuvad peenelt, eriti difusiooni töövoogudes ( SR3 )
Keeruline osa: mõnikord näevad need esemed esmapilgul „paremad” välja. Su ajule meeldib teravus. Aga hetke pärast tundub see… ebakõlaline.
Hea taktika on välja suumida ja kontrollida, kas see näeb normaalsel vaatamiskaugusel loomulik välja. Kui see näeb hea välja ainult 400% suumiga, siis see pole võit, see on hobi 😅
Kuidas tehisintellekti skaleerimine töötab: treeningu pool ilma matemaatikavaevata 📉🙂
Üliresolutsiooniga mudelite treenimine hõlmab tavaliselt järgmist:
-
Paarisandmestikud (madala resolutsiooniga sisend, kõrge resolutsiooniga sihtmärk) ( pildi superresolutsioon sügavate konvolutsioonivõrkude (SRCNN) abil )
-
Vale rekonstruktsiooni eest karistavad kaotusfunktsioonid SRGAN )
Tüüpilised kahjuliigid:
-
Pikslite kadu (L1/L2)
soodustab täpsust. Võib anda veidi pehmeid tulemusi. -
Tajukaotus.
Võrdleb sügavamaid tunnuseid (nt „kas see näeb sarnane välja“), mitte täpseid piksleid ( tajukaotused (Johnson jt, 2016) ). -
Võistluslik kaotus (GAN)
Soodustab realismi, mõnikord sõnasõnalise täpsuse hinnaga ( SRGAN , generatiivsed võistlevad võrgud ).
Käib pidev võitlus:
-
Tee see originaalile
truuks vs. -
Tee see visuaalselt meeldivaks
Erinevad tööriistad paiknevad selles spektris erinevates kohtades. Ja te võite eelistada ühte olenevalt sellest, kas restaureerite perepilte või valmistate ette plakatit, mille puhul on „hea välimus“ olulisem kui kohtuekspertiisi täpsus.
Praktilised töövood: fotod, vanad skaneeringud, anime ja video 📸🧾🎥
Fotod (portreed, maastikud, tootefotod)
Parim tava on tavaliselt järgmine:
-
Esmalt kerge mürasummutus (vajadusel)
-
Luksuslik konservatiivsete seadetega
-
Lisa teravilja tagasi, kui asjad tunduvad liiga siledad (jah, tõesti)
Teravili on nagu sool. Liiga palju rikub õhtusöögi, aga kui mitte midagi, siis võib see maitseda veidi lamedalt 🍟
Vanad skaneeringud ja tugevalt tihendatud pildid
Need on keerulisemad, kuna mudel võib tihendusplokke käsitleda "tekstuurina".
Proovige järgmist:
-
Artefaktide eemaldamine või deblokeerimine
-
Seejärel kallihinnaline
-
Seejärel kerge teritamine (mitte liiga palju... ma tean, kõik ütlevad seda, aga ikkagi)
Anime ja joonekunst
Joonjoonistusel on järgmised eelised:
-
Mudelid, mis säilitavad puhtad servad
-
Vähendatud tekstuuri hallutsinatsioonid.
Anime ülesskaleerimine näeb sageli suurepärane välja, kuna kujundid on lihtsamad ja ühtlasemad. (Vedas.)
Video
Video lisab täiendavaid samme:
-
Müra vähendamine
-
Deinterlace'i (teatud allikate puhul)
-
Luksuslik
-
Ajaline silumine või stabiliseerimine ( BasicVSR (CVPR 2021) )
-
Valikuline terade taaskasutamine ühtekuuluvuse tagamiseks
Kui ajaline järjepidevus vahele jätta, tekib detailide virvendav värelus. Kui sa seda märkad, ei saa sa seda enam märkamata jätta. Nagu kriuksuv tool vaikses toas 😖
Seadete valimine ilma metsikult arvamata (väike spikker) 🎛️😵💫
Siin on korralik algusmõte:
-
Kui näod näevad plastsed välja
Vähendage mürasummutust, vähendage teravustamist ja proovige nägusid säilitavat mudelit või režiimi. -
Kui tekstuurid tunduvad liiga intensiivsed,
langetage liugureid „detailide täiustamine” või „detailide taastamine” ja lisage pärast peent teralisust. -
Kui servad helendavad
, vähenda teravust ja kontrolli halo summutamise valikuid. -
Kui pilt tundub liiga tehisintellektilik,
siis mine konservatiivsemaks. Mõnikord on parim samm lihtsalt... vähem.
Samuti: ära suurenda piksleid 8x ainult sellepärast, et saad. Puhas 2x või 4x on sageli ideaalne valik. Lisaks sellele palud sa modellil kirjutada sinu pikslite kohta fännikirjandust 📖😂
Eetika, autentsus ja ebamugav küsimus "tõest" 🧭😬
Tehisintellekti ülesskaleerimine hägustab piiri:
-
Restaureerimine tähendab olemasoleva taastamist
-
Täiustamine tähendab selle lisamist, mida polnud
Isiklike fotodega on see tavaliselt korras (ja kena). Ajakirjanduse, juriidiliste tõendite, meditsiinilise pildistamise või kõige muu puhul, kus täpsus on oluline... tuleb olla ettevaatlik ( OSAC/NIST: kohtuekspertiisi digitaalsete piltide haldamise standardjuhend , SWGDE kohtuekspertiisi piltide analüüsi juhised ).
Lihtne reegel:
-
Kui panused on kõrged, käsitle tehisintellekti skaleerimist illustratiivse , mitte lõpliku näitena.
Samuti on avalikustamine oluline professionaalses kontekstis. Mitte sellepärast, et tehisintellekt oleks kuri, vaid sellepärast, et publikul on õigus teada, kas detailid rekonstrueeriti või jäädvustati. See on lihtsalt... lugupidav.
Lõppsõna ja kiire kokkuvõte 🧡✅
Seega toimib tehisintellekti ülesskaleerimine järgmiselt: mudelid õpivad, kuidas kõrge eraldusvõimega detailid on seotud madala eraldusvõimega mustritega, ning ennustavad seejärel ülesskaleerimise ajal usutavaid lisapiksleid ( Deep Learning for Image Super-resolution: A Survey ). Sõltuvalt mudeliperekonnast (CNN, GAN, difusioon, video-temporaalne) võib see ennustus olla konservatiivne ja täpne... või julge ja kohati ebaühtlane 😅
Kiire kokkuvõte
-
Traditsiooniline ülesskaleerimine venitab piksleid ( bikuubiline interpolatsioon )
-
Tehisintellekti ülesskaleerimine ennustab puuduvaid detaile õpitud mustrite abil ( pildi superresolutsioon sügavate konvolutsioonivõrkude abil (SRCNN) )
-
Suurepärased tulemused tulenevad õigest mudelist ja vaoshoitusest
-
Jälgige videos halosid, vahaseid nägusid, korduvaid tekstuure ja virvendust ( BasicVSR (CVPR 2021) )
-
Ülesskaleerimine on sageli „usutav rekonstruktsioon“, mitte täiuslik tõde ( SRGAN , ESRGAN )
Kui tahad, siis ütle mulle, mida sa üles skaleerid (näod, vanad fotod, videod, animed, tekstiskannid) ja ma pakun välja seadete strateegia, mis kipub vältima levinud „tehisintellekti välimuse” lõkse 🎯🙂
KKK
Tehisintellekti skaleerimine ja kuidas see toimib
Tehisintellekti abil skaleerimine (sageli nimetatakse seda „superresolutsiooniks“) suurendab pildi eraldusvõimet, ennustades treeningu käigus õpitud mustrite põhjal puuduvaid kõrge eraldusvõimega detaile. Pikslite lihtsalt venitamise asemel nagu bikuubilise interpoleerimise abil uurib mudel servi, tekstuure, külgi ja tekstilaadseid pintsleid ning seejärel genereerib uusi piksliandmeid, mis on kooskõlas nende õpitud mustritega. See ei ole niivõrd „reaalsuse taastamine“ ja pigem „usutava oletuse tegemine“, mis kõlab loomulikuna.
AI ülesskaleerimine versus bikuubiline või traditsiooniline suuruse muutmine
Traditsioonilised ülesskaleerimise meetodid (nagu bikuupne) interpoleerivad peamiselt olemasolevate pikslite vahel, siludes üleminekuid ilma uusi detaile loomata. Tehisintellekti ülesskaleerimise eesmärk on rekonstrueerida usutav struktuur, tuvastades visuaalseid vihjeid ja ennustades, millised nende vihjete kõrgresolutsioonilised versioonid kipuvad välja nägema. Seetõttu võivad tehisintellekti tulemused tunduda dramaatiliselt teravamad ja ka seetõttu saavad need lisada artefakte või "leiutada" detaile, mida allikas polnud.
Miks näod võivad tunduda vahased või liiga siledad
Vahased näod tekivad tavaliselt agressiivse mürasummutus- ja silumistöötluse ning teravustamise tulemusena, mis eemaldab naha loomuliku tekstuuri. Paljud tööriistad käsitlevad müra ja peent tekstuuri sarnaselt, seega pildi „puhastamine“ võib kustutada poorid ja peened detailid. Levinud lähenemisviis on mürasummutus- ja teravustamisrežiimi vähendamine, näo säilitamise režiimi kasutamine (kui see on saadaval) ning seejärel teralisuse taastamine, et tulemus tunduks vähem plastiline ja fotograafilisem.
Levinud tehisintellekti skaleerimise artefaktid, mida jälgida
Tüüpilisteks tunnusteks on servade ümber olevad halod, korduvad tekstuurimustrid (nagu kopeeri-kleepi tellised), krõmpsuv mikrokontrast ja tekst, mis muutub „peaaegu tähtedeks“. Difusioonipõhistes töövoogudes on näha ka detailide nihet, kus väikesed elemendid muutuvad peenelt. Video puhul on virvendus ja detailide liikumine kaadrite vahel suured ohumärgid. Kui see näeb hea välja ainult äärmise suumi korral, on sätted ilmselt liiga agressiivsed.
Kuidas GAN-i, CNN-i ja difusiooni suurendajate tulemused kipuvad erinema
CNN-põhine superresolutsioon kipub olema stabiilsem ja etteaimatavam, kuid tugeva surve korral võib see tunduda „töödeldud“. GAN-põhised valikud (ESRGAN-stiilis) annavad sageli teravama tekstuuri ja tajutava teravuse, kuid need võivad hallutsineerida ebaõigeid detaile, eriti nägude puhul. Difusioonipõhine ülesskaleerimine võib tekitada kauneid ja usutavaid detaile, kuid see võib algsest struktuurist kõrvale kalduda, kui juhised või tugevuse sätted on liiga tugevad.
Praktiline seadete strateegia "liiga tehisintellekti" välimuse vältimiseks
Alusta konservatiivselt: suurenda 2× või 4× enne äärmuslike tegurite juurde asumist. Kui näod näevad plastsed välja, vähenda mürasummutust ja teravustamist ning proovi näotuvastusrežiimi. Kui tekstuurid muutuvad liiga intensiivseks, vähenda detailide täiustamist ja kaalu peene teralisuse lisamist pärast seda. Kui servad helendavad, vähenda teravustamist ja kontrolli halo või artefaktide summutamist. Paljudes torujuhtmetes on parem „vähem“, sest see säilitab usutava realismi.
Vanade skaneeringute või tugevalt JPEG-vormingus tihendatud piltide töötlemine enne ülesskaleerimist
Tihendatud piltidega töötamine on keeruline, kuna mudelid saavad plokkartefakte käsitleda päris tekstuuridena ja neid võimendada. Levinud töövoog on esmalt artefaktide eemaldamine või blokeeringust vabastamine, seejärel skaleerimine ja seejärel vajadusel kerge teravustamine. Skannide puhul aitab õrn puhastamine mudelil keskenduda tegelikule struktuurile, mitte kahjustustele. Eesmärk on vähendada „võltstekstuuri vihjeid“, et skaleerija ei peaks müraste sisendite põhjal enesekindlaid oletusi tegema.
Miks on video ülesskaleerimine keerulisem kui fotode ülesskaleerimine
Video ülesskaleerimine peab olema ühtlane kõigis kaadrites, mitte ainult ühe pildi puhul hea. Kui detailid kaadriti virvendavad, muutub tulemus kiiresti segavaks. Videokesksed lähenemisviisid kasutavad naaberkaadrite ajalist teavet, et stabiliseerida rekonstrueerimist ja vältida virvendavaid artefakte. Paljud töövood hõlmavad ka müra vähendamist, teatud allikate deinterlace'imist ja valikulist teralisuse taassisestamist, et kogu järjestus tunduks sidus, mitte kunstlikult terav.
Kui tehisintellekti skaleerimine ei ole sobiv või sellele lootmine on riskantne
Tehisintellekti skaleerimist on kõige parem käsitleda täiustuse, mitte tõestusena. Kõrge riskiga kontekstides, nagu ajakirjandus, juriidilised tõendid, meditsiiniline pildistamine või kohtuekspertiis, võib „usutavate” pikslite genereerimine eksitada, kuna see võib lisada detaile, mida ei jäädvustatud. Ohutum lähenemisviis on kasutada seda illustratiivselt ja avaldada, et tehisintellekti protsess rekonstrueeris detaili. Kui täpsus on kriitilise tähtsusega, säilitage originaalid ja dokumenteerige iga töötlemisetapp ja -keskkond.
Viited
-
arXiv - Süvaõpe piltide üliresolutsiooni saavutamiseks: uuring - arxiv.org
-
arXiv - pildi superresolutsioon sügavate konvolutsioonivõrkude (SRCNN) abil - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA arendaja - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
Arvutinägemise Sihtasutuse (CVF) avatud juurdepääs - BasicVSR: oluliste komponentide otsingud video superresolutsioonis (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Generatiivsed võistlevad võrgud - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - tajukaod (Johnson jt, 2016) - arxiv.org
-
GitHub - Real-ESRGAN repo (plaatide valikud) - github.com
-
Vikipeedia - Bikuupne interpolatsioon - wikipedia.org
-
Topaz Labs - Topaz Foto - topazlabs.com
-
Topaz Labs - Topaz video - topazlabs.com
-
Adobe'i abikeskus – Adobe Enhance > Superresolutsioon – helpx.adobe.com
-
NIST / OSAC - Kohtuekspertiisi digitaalsete piltide haldamise standardjuhend (versioon 1.0) - nist.gov
-
SWGDE - Kohtuekspertiisi pildianalüüsi juhised - swgde.org