Veliki modeli dubokog učenja kao što je OpenAI GPT-3 uveli su zlatno doba za čet botove, ali šta je sa fizičkim robotima? I Google i Microsoft su sada najavili istraživanje o primeni sličnih AI modela na robote, sa impresivnim rezultatima.
Istraživači u Guglu i Berlinskom institutu za tehnologiju objavili su ove nedelje AI model pod nazivom PaLM-E koji kombinuje jezičke i vizuelne tehnologije za kontrolu robota, omogućavajući im da samostalno obavljaju zadatke u stvarnom svetu – od preuzimanja kese čipsa iz kuhinje do sortiranje blokova po boji u uglove pravougaonika.
Videos by VICE
Prema istraživačima, ovo je najveći model vizuelnog jezika (VLM) koji je do sada prijavljen, sa 562 milijarde parametara. Ova veštačka inteligencija ima „široku lepezu mogućnosti“ koja uključuje matematičko rezonovanje, rezonovanje sa više slika i tehnologiju “lanca misli”. Istraživači su u svom radu napisali da AI koristi obuku za više zadataka (multi-task training) za prenošenje postojećih veština na nove zadatke, umesto da se obučava za pojedinačne zadatke. Prema dokumentu, model veštačke inteligencije kada kontroliše robote čak prikazuje „nastale sposobnosti kao što je multimodalni lanac razmišljanja i sposobnost razmišljanja o više slika, uprkos tome što je obučen samo na upitima za jednu sliku“.
PaLM-E je zasnovan na Guglovom prethodnom velikom jezičkom modelu koji se zove PaLM, a E u nazivu znači „embodied (otelotvoreni)“ i odnosi se na interakciju modela sa fizičkim objektima i robotskom kontrolom. PaLM-E je takođe napravljen na osnovu Guglovog RT-1, modela koji obrađuje ulazne i izlazne podatke kod robota – kao što su slike kamere, uputstva za zadatke i motorne komande. AI koristi ViT-22B, model transformatora vida koji obavlja zadatke kao što su klasifikacija slika, detekcija objekata i natpisi slika.
Robot je u stanju da generiše sopstveni plan akcije kao odgovor na komande koristeći ovaj model. Kada je robot zamoljen da „donese čips iz fioke“, PaLM-E je uspeo da ga navede da ode do fioka, otvori gornju fioku, izvadi čips iz fioke, donese, i spusti ga. Robot je to mogao da uradi čak i uz smetnje od ljudi – istraživač je vratio čips u fioku kada ga je robot prvi put uzeo. PaLM-E je u stanju da to uradi analizom podataka sa svoje kamere uživo.
„PaLM-E generiše uputstva visokog nivoa kao tekst; čineći to, model je u stanju da prirodno uslovljava sopstvena predviđanja i direktno koristi svo znanje ugrađeno u njegove parametre“, napisali su istraživači. “Ovo omogućava ne samo otelotvoreno rezonovanje, već i odgovaranje na pitanja, kao što je pokazano u našim eksperimentima.”
AI može da odgovori na pitanja o svetu, kao što su matematički problemi i činjenice iz geografije. PaLM-E takođe može da opisuje slike.
Upotreba velikog jezičkog modela kao jezgra robota dala mu je mogućnost da postane autonomniji, zahtevajući manje obuke i finog podešavanja u poređenju sa prethodnim modelima.
„Ovaj rad predstavlja veliki korak napred, ali na očekivanom putu. Proširuje nedavni, uzbudljiv rad DeepMinda na važnu i tešku arenu robotike (njihov rad na „Frozen“ i „Flamingo“). U širem smislu, to je deo nedavnog cunamija neverovatnog napretka veštačke inteligencije koji kombinuje jednostavnu, ali moćnu formulu“, rekao je za Motherboard Džef Klun, vanredni profesor računarskih nauka na Univerzitetu Britanske Kolumbije. Formula je, kako je rekao, prvo da AI probavi internet i napravi predviđanja o tome šta će biti sledeće, a zatim da obuče modele da koriste to znanje za rešavanje težih zadataka.
Danfei Ksu, docent na Školi za interaktivno računarstvo na Georgia Tech, rekao je za Motherboard da je PaLM-E veliki korak napred za Guglovo istraživanje robotike. „Planiranje zadataka, ili određivanje šta da se uradi da bi se postigao cilj, je težak problem robotike, a SaiCan i PaLM-E su napravili značajne korake ka njegovom rešavanju. Prethodni sistemi za planiranje zadataka se najviše oslanjaju na neke oblike algoritama pretrage ili optimizacije, koji nisu baš fleksibilni i teško ih je konstruisati. LLM i multimodalni LLM omogućavaju ovim sistemima da iskoriste prednosti podataka na Internetu i lako se generalizuju na nove probleme“, rekao je on.
Google nije jedina kompanija koja testira novu multimodalnu veštačku inteligenciju i kako da u robote ugradi velike jezičke modele. Microsoft je objavio svoje istraživanje o tome kako je proširio mogućnosti ChatGPT-a na robotiku. Takođe su u ponedeljak predstavili multimodalni model pod nazivom Kosmos-1, koji može da analizira sadržaj slika, rešava vizuelne zagonetke, vrši vizuelno prepoznavanje i prođe testove inteligencije.
U svom radu koji opisuje rezultate, Microsoft istraživači su nazvali konvergenciju jezičkih modela sa mogućnostima u robotima korakom ka stvaranju veštačke opšte inteligencije, ili AGI, koja se generalno shvata kao inteligencija na istom nivou kao i ljudsko biće.
U isto vreme, Ksu je rekao da još treba da se uradi na prevazilaženju brojnih problema iz stvarnog sveta koji se mogu pojaviti, kao što je broj prepreka u kuhinji ili mogućnost klizanja.
„Uopšteno govoreći, omogućiti robotu senzomotornu kontrolu nalik na čoveka je zaista težak problem (pogledajte Moravec paradoks)“, rekao je on. „I to može biti najteži problem u robotici i glavna prepreka na putu ka izgradnji korisnih robota koji nam mogu pomoći u našem svakodnevnom životu. Postoji još jedno sjajno istraživanje u Google Robotics-u koje pokušava da nađe rešenje, npr. RT-1, ali sam PaLM-E ne rešava direktno taj problem. PaLM-E postiže veliki napredak u važnom robotskom problemu planiranja zadataka. U isto vreme, teški problemi robotike ostaju teški.”
PaLM-E pokazuje da kako veliki jezički modeli postaju sve veći i napredniji, njegove mogućnosti, uključujući obavljanje multimodalnih zadataka, postaju lakše, preciznije i autonomne.