1,178 skaitymai

Įstrigę laike: kodėl AI negali nustoti piešti laikrodžių 10:10

pateikė Ashish Pawar6m2025/01/12

Per ilgai; Skaityti

Dirbtinio intelekto modeliai dažnai pagal numatytuosius nustatymus nustato 10:10 piešimo laikrodžius dėl treniruočių duomenų paklaidų, o laikrodžių skelbimuose dažniausiai tokia konfigūracija naudojama dėl estetinių ir prekės ženklo sukūrimo priežasčių. Ši keistenybė pabrėžia, kaip dirbtinis intelektas atspindi žmonių susitarimus, kovoja su kūrybiškumu ir laikosi statistiškai dominuojančių modelių. Norint išsilaisvinti, dirbtiniam intelektui reikia didesnės duomenų įvairovės, algoritmų pakeitimų ir sąmoningo kūrybiškumo skatinimo.

featured image - Įstrigę laike: kodėl AI negali nustoti piešti laikrodžių 10:10

Būkime atviri, dirbtinis intelektas yra stulbinančiai šaunus – kol jis taip pat stulbinančiai nuspėjamas.

Iki šiol tikriausiai matėte keletą antraštes vagiančių pavyzdžių, kaip generatyvus AI sukuria siurrealistinį meną, akinantį vaizdą ar neįtikėtinai kūrybišką dizainą. Paprašykite jo įsivaizduoti ateivius miestus, besimaudančius neoninėje šviesoje, arba miškus, kuriuose medžiai augina bioliuminescencines gėles, ir – bum! – jums bus pateikti vaizdai, peržengiantys ribas to, ką žmonės paprastai įsivaizduotų.

Bet tada jūs paprašote AI nupiešti laikrodį. Ir visi stebuklingi šauksmai sustoja. Ką tu gauni? Laikrodis atkakliai įstrigo 10:10.

Tai beveik juokinga: kad ir kaip ragintumėte dirbtinį intelektą – „nupieškite senovinį rankinį laikrodį! "futuristinis laikrodis!" ar net „išlydytą Dali laikrodį!“ – tos laikrodžio rodyklės kažkodėl randa kelią į tą keistai linksmą 10:10 padėtį. Jei AI turėtų suprasti niuansus, atsitiktinumą ir kūrybiškumą, kodėl jis taip įstrigo ?

Atsakymas yra ne tik linksmas treniruočių modelių artefaktas, bet ir mikrokosminis žvilgsnis į didesnius AI iššūkius, su kuriais susiduriama, kai reikia suprasti kūrybiškumą, šališkumą ir išsivaduoti nuo nusidėvėjusių taisyklių. Taigi, užsisekite apyrankę ir pasigilinkime į šią stebėtinai filosofinę ir giliai techninę paslaptį.

10:10 fenomenas: žmogaus palikimas

Prieš pradėdami mojuoti pirštais AI, pakalbėkime apie mus . Priežastis, kodėl dirbtinis intelektas linkęs į 10:10, kyla ne dėl to, kad algoritmas nusprendė: „Taip, čia laikas atrodo tobulas“. Ne – tai tiesiog atgaivina elgseną, kurią mes, žmonės, dešimtmečius kūrėme laikrodžių dizaine.

Beveik kiekvienoje jūsų matytoje laikrodžio reklamoje naudojama ta pati ikoninė 10:10 laiko žyma. Ir ne, taip yra ne todėl, kad visi pasaulio gaminių fotografai kartu prisijungė prie „10:10 kulto“. Štai kodėl šis laiko pasirinkimas yra toks dominuojantis:

Simetrija atrodo gerai : 10:10 laikrodžio rodyklės sukuria puikų vizualinės harmonijos pojūtį. Jis yra simetriškas, bet ne per daug standus. Jis taip pat puikiai įrėmina prekės ženklo logotipą, kuris daugumoje laikrodžių dažnai būna 12 valandos padėtyje.
„Bešypsančio laikrodžio“ efektas : pažiūrėkite atidžiai: 10:10 aukštyn lenktos rodyklės imituoja šypsenos formą. Nesvarbu, ar sąmoningai, ar nesąmoningai, prekės ženklai supranta, kad laimingi, svetingi dizaino ženklai parduoda daugiau produktų.
Rinkodaros perkrova : kai ši konvencija tapo dominuojančia, ji išaugo. Nuo skelbimų iki atsarginių vaizdų iki katalogų nuotraukų – visur, kur buvo rodomas laikrodis, 10:10 buvo standartas. Tai tapo savaime besitęsiančia dizaino taisykle.

Dešimtmečius mes nuolat maitiname pasaulį šiuo vaizdu, todėl jis tapo toks visur esantis, kad net mūsų smegenys, įsivaizduodamos laikrodžio ciferblatą, jį naudoja pagal numatytuosius nustatymus. Mes apie tai net negalvojame – tiesiog tikimės.

Ir dabar AI taip pat daro.

AI veidrodžio problema

Norėdami suprasti, kodėl dirbtinis intelektas, kartais vadinamas „didžiuoju imitatoriumi“, negali išsivaduoti nuo 10:10, greitai išpakuosime, kaip šie modeliai mokosi.

Kiekvienas generuojantis AI modelis, įskaitant tokias jėgaines kaip „Stable Diffusion“, „DALL-E 2“ ir „MidJourney“, treniruodamas remiasi didžiuliais duomenų rinkiniais. Šie duomenų rinkiniai yra didžiulės vaizdų (dažnai milijardų) kolekcijos, išgautos iš interneto: fotografija, internetinės saugyklos, vartotojų sukurtas turinys.

Kai dirbtinis intelektas iš šių vaizdų išmoksta „laikrodžio“ sąvoką, jis ne tik analizuoja laikrodžio estetiką ar funkciją. Ji ieško pasikartojimo modelių.

Spėkite, kas dominuoja interneto laikrodžių vaizduose? Taip, 10:10.

Nekritiškam AI „protui“ statistiškai reikšmingiausia tiesa apie laikrodžius yra ne ta , kad jie rodo laiką. Tai, kad jie beveik visada atrodo taip:

Simetrinės rodyklės, nukreiptos į 10 ir 2.
Logotipas išdidžiai sėdi ties 12 val.
Ir kartais papildomų komplikacijų, tokių kaip chronografo ciferblatai, glaudžiasi kaip vitrinos.

Jei 95% „laikrodžio“ vaizdų, kuriuos mato algoritmas, iš esmės yra identiški, atspėkite, kas atsitiks, kai paprašysite sukurti laikrodį? AI nežino geriau. Daroma prielaida, kad norite bet kokios jam labiausiai žinomos laikrodžio versijos – 10:10.

**Bet palaukite – AI nėra tik duomenų sekimas... tiesa?**

Galbūt galvojate: „Palauk, AI turėtų būti kūrybingas! Kodėl tai nemaištauja?

Štai čia viskas tampa sudėtinga. AI gali atrodyti kūrybingas – tarsi jis traukia idėjas iš oro, bet taip nėra. Vietoj to, jis veikia tikimybiškai, traukdamasis iš treniruočių metu išmoktų modelių. Leiskite man tai demistifikuoti.

Pagalvokite apie AI smegenis kaip apie milžinišką „automatinio užbaigimo“ žaidimą. Įsivaizduokite, kad į „Google“ įvedate „šunų veislės“ – automatinio užbaigimo pasiūlymai, pvz., „Labradoras“ arba „Vokiečių aviganis“, pasirodo, nes jie yra labiausiai paplitę. Panašiai, kai dirbtinis intelektas sukuria „rankinio laikrodžio“ vaizdą, jis atrenka, kaip atrodo vidutinis laikrodis pagal jau matytus modelius.

Štai pagrindinė techninė detalė:

Generatyvieji modeliai kuria vaizdus tyrinėdami jų „latentinę erdvę“, didelės apimties matematinį visko, ką jie išmoko, vaizdą. Įsivaizduokite šią latentinę erdvę kaip tankią galaktiką, sudarytą iš raštų, idėjų ir formų. Tokie objektai kaip „laikrodžio ciferblatai“ sudaro spiečius šioje galaktikoje, o laikrodžių atveju... tankiausia, lengviausiai pasiekiama to spiečiaus dalis yra – atspėjote – 10:10.

Kai modelis pradeda kurti vaizdą, šios tankios sritys veikia kaip gravitaciniai šuliniai. Labiau tikėtina, kad pasirinksite ką nors šalia, o ne nuklysite į „kūrybinį atsitiktinumą“.

Režimo žlugimas: Spąstų AI negali pabėgti

Čia taip pat yra kažkas kito: režimo žlugimas.

Režimo žlugimas yra dažna mašininio mokymosi spąsta, kai AI modelis pradeda teikti pirmenybę tik siauram galimybių pogrupiui, ignoruodamas rečiau matomas parinktis. Tai tarsi prožektorius, šviečiantis tik dažniausiai pasitaikantiems pavyzdžiams, o kiti nublanksta tamsoje. Kadangi 10:10 laikrodžiai yra labai per daug AI mokymo duomenų rinkiniuose, jie tampa „numatytaisiais“. Kiekvieną kartą, kai paraginate AI, jis pasirenka šį saugų ir pažįstamą pasirinkimą.

Štai dalykas: tai ne tik laikrodžiai. Tas pats šališkumas įsiskverbia į visų rūšių generacinius išėjimus. Paprašykite dirbtinio intelekto sugeneruoti, tarkime, bendrą „verslininko“ įvaizdį, ir dažnai pamatysite stereotipinį Vakarų vyrą, vilkintį kostiumą ir kaklaraištį, nes būtent tai dominuoja standartiniuose vaizduose. AI yra tik tiek nešališkas, kiek ir jo duomenys, o duomenų rinkiniai, kaip žinome, yra apkrauti dešimtmečiais, net šimtmečiais trukusiu žmonių šališkumu.

Palaukite... Ar negalime tiesiog sutvarkyti?

Teoriškai taip. Techniškai? Tai daug kietesnis riešutas.

Kad dirbtinis intelektas išsiveržtų iš savo 10:10 rutulio ar bet kokio kito giliai įsišaknijusio kultūrinio šališkumo, reikia duomenų ir algoritmų, kurie aktyviai atsispiria vidutinio saugumo tinklui. Štai kaip tai gali atrodyti:

Duomenų rinkinių įvairinimas : pirmiausia įsitikinkite, kad mokymo duomenų rinkiniuose yra nepakankamai atstovaujamų alternatyvų . Jei dirbtinio intelekto treniruočių duomenys rodo laikrodžius atsitiktiniu laiku 10:10, galėtume sušvelninti šį šališkumą. Tačiau tai padaryti iki didžiulių duomenų rinkinių nėra menkas – duomenų rinkinių valymas reikalauja didelių skaičiavimo ir žmogiškųjų išteklių.
Tikimybių pervertinimas : inžinieriai galėtų pakoreguoti AI atlygio algoritmus, kad aktyviai skatintų neįprastesnius rezultatus. Pavyzdžiui, jie gali pridėti nuobaudų už per stiprią numatytųjų išėjimų, pvz., 10:10, nukreipimą.
Triukšmo įvedimas į raginimus : Išplėstinės sistemos gali sukelti „spartųjį triukšmą“, aiškiai priversdamas AI atsitiktinai parinkti subtilius išvesties aspektus, pvz., rodyklių padėtį ant laikrodžio, arba, plačiau, tyrinėti nepakankamai ištirtas latentinės erdvės sritis.
Pasirinktinis koregavimas : modelius taip pat galima tiksliai sureguliuoti, kad kūriniai būtų kūrybiškesni. Mokydamiesi mažesnių, specializuotų modelių, susijusių su įvairesniais ar nišiniais duomenimis (pvz., laikrodžių duomenų rinkinį 7:13 arba 4:47), kūrėjai gali pakreipti tam tikrus rezultatus, kad sulaužytų pelėsį.

Sakė, čia slidus šlaitas. Per didelis atsitiktinumo skatinimas reiškia, kad AI gali visiškai prarasti savo pagrindą ir sukurti rezultatus, kurie jaučiasi nesusiję ar beprasmiški, o ne „kūrybiški“. Rasti mielą tašką tarp numatytųjų modelių ir tikrų naujovių šiandien tebėra viena didžiausių DI kūrimo dilemų.

Taigi, kas yra didysis išsinešimas?

Priežastis, dėl kurios dirbtinis intelektas nuolat piešia laikrodžius, įstrigusius 10:10, yra ne tik jo mokymo duomenys ar kodavimo keistenybės – tai mikrokosmosas, kaip generatyvus AI atspindi mūsų kūrybiškumo ribas, mūsų šališkumą ir duomenis. Kai tikimės, kad dirbtinis intelektas „mąstys už dėžutės ribų“, pamirštame, kad iš pradžių jis buvo pastatytas mūsų dėžutėje.

Tai, kas mane žavi, nėra techninis niūrumas, kaip veikia latentinės erdvės ar mokymo paskirstymai (nors prisipažinsiu, tai savaime be galo šaunu). Stebina tai, kaip AI verčia mus atsižvelgti į savo modelius . Mes padarėme 10:10 universaliu laikrodžių simboliu. Ir kol mes nepakeisime savo susitarimų arba neišmokysime dirbtinio intelekto per daug vertinti įvairovę, jis ir toliau kartos tuos pasirinkimus.

Taigi, kai kitą kartą paprašysite dirbtinio intelekto sukurti laikrodį, kuris įstrigo praeityje, laikykite tai švelniu priminimu: kūrybiškumas ne visada susijęs su algoritmais. Tai apie ketinimą.

O kol kas dirbtinio intelekto ciferblatas vis dar šypsosi tau, amžinai sustingęs 10 po 10.

L O A D I N G
. . . comments & more!

About Author

Ashish Pawar@pawarashishanil

Ashish Pawar is an experienced software engineer skilled in creating scalable software and AI-enhanced solutions across data-driven and cloud applications, with a proven track record at companies like Palantir, Goldman Sachs and WHOOP.

Read my stories