Velike tehnološke kompanije su počele da primenjuju AI na pravim robotima

Aktuelna unapređenja veštačke inteligencije omogućava robotima da samostalno obavljaju zadatke u stvarnom svetu, što je „veliki korak napred“, kažu istraživači.

pisao Chloe Xiang

10.3.23

Big Tech Is Now Developing Powerful AI Brains for Real-World Robots

Foto via Google Research

Foto

AI je uspešno pilotirao američkim borbenim avionom F-16, kaže DARPA

Chloe Xiang

14.2.23

Veliki modeli dubokog učenja kao što je OpenAI GPT-3 uveli su zlatno doba za čet botove, ali šta je sa fizičkim robotima? I Google i Microsoft su sada najavili istraživanje o primeni sličnih AI modela na robote, sa impresivnim rezultatima.

Istraživači u Guglu i Berlinskom institutu za tehnologiju objavili su ove nedelje AI model pod nazivom PaLM-E koji kombinuje jezičke i vizuelne tehnologije za kontrolu robota, omogućavajući im da samostalno obavljaju zadatke u stvarnom svetu – od preuzimanja kese čipsa iz kuhinje do sortiranje blokova po boji u uglove pravougaonika.

Reklame

Prema istraživačima, ovo je najveći model vizuelnog jezika (VLM) koji je do sada prijavljen, sa 562 milijarde parametara. Ova veštačka inteligencija ima „široku lepezu mogućnosti“ koja uključuje matematičko rezonovanje, rezonovanje sa više slika i tehnologiju “lanca misli”. Istraživači su u svom radu napisali da AI koristi obuku za više zadataka (multi-task training) za prenošenje postojećih veština na nove zadatke, umesto da se obučava za pojedinačne zadatke. Prema dokumentu, model veštačke inteligencije kada kontroliše robote čak prikazuje „nastale sposobnosti kao što je multimodalni lanac razmišljanja i sposobnost razmišljanja o više slika, uprkos tome što je obučen samo na upitima za jednu sliku“.

PaLM-E je zasnovan na Guglovom prethodnom velikom jezičkom modelu koji se zove PaLM, a E u nazivu znači „embodied (otelotvoreni)“ i odnosi se na interakciju modela sa fizičkim objektima i robotskom kontrolom. PaLM-E je takođe napravljen na osnovu Guglovog RT-1, modela koji obrađuje ulazne i izlazne podatke kod robota - kao što su slike kamere, uputstva za zadatke i motorne komande. AI koristi ViT-22B, model transformatora vida koji obavlja zadatke kao što su klasifikacija slika, detekcija objekata i natpisi slika.

Robot je u stanju da generiše sopstveni plan akcije kao odgovor na komande koristeći ovaj model. Kada je robot zamoljen da „donese čips iz fioke“, PaLM-E je uspeo da ga navede da ode do fioka, otvori gornju fioku, izvadi čips iz fioke, donese, i spusti ga. Robot je to mogao da uradi čak i uz smetnje od ljudi - istraživač je vratio čips u fioku kada ga je robot prvi put uzeo. PaLM-E je u stanju da to uradi analizom podataka sa svoje kamere uživo.

Reklame

„PaLM-E generiše uputstva visokog nivoa kao tekst; čineći to, model je u stanju da prirodno uslovljava sopstvena predviđanja i direktno koristi svo znanje ugrađeno u njegove parametre“, napisali su istraživači. "Ovo omogućava ne samo otelotvoreno rezonovanje, već i odgovaranje na pitanja, kao što je pokazano u našim eksperimentima."

AI može da odgovori na pitanja o svetu, kao što su matematički problemi i činjenice iz geografije. PaLM-E takođe može da opisuje slike.

Upotreba velikog jezičkog modela kao jezgra robota dala mu je mogućnost da postane autonomniji, zahtevajući manje obuke i finog podešavanja u poređenju sa prethodnim modelima.

„Ovaj rad predstavlja veliki korak napred, ali na očekivanom putu. Proširuje nedavni, uzbudljiv rad DeepMinda na važnu i tešku arenu robotike (njihov rad na „Frozen“ i „Flamingo“). U širem smislu, to je deo nedavnog cunamija neverovatnog napretka veštačke inteligencije koji kombinuje jednostavnu, ali moćnu formulu“, rekao je za Motherboard Džef Klun, vanredni profesor računarskih nauka na Univerzitetu Britanske Kolumbije. Formula je, kako je rekao, prvo da AI probavi internet i napravi predviđanja o tome šta će biti sledeće, a zatim da obuče modele da koriste to znanje za rešavanje težih zadataka.

Danfei Ksu, docent na Školi za interaktivno računarstvo na Georgia Tech, rekao je za Motherboard da je PaLM-E veliki korak napred za Guglovo istraživanje robotike. „Planiranje zadataka, ili određivanje šta da se uradi da bi se postigao cilj, je težak problem robotike, a SaiCan i PaLM-E su napravili značajne korake ka njegovom rešavanju. Prethodni sistemi za planiranje zadataka se najviše oslanjaju na neke oblike algoritama pretrage ili optimizacije, koji nisu baš fleksibilni i teško ih je konstruisati. LLM i multimodalni LLM omogućavaju ovim sistemima da iskoriste prednosti podataka na Internetu i lako se generalizuju na nove probleme“, rekao je on.

Reklame

Google nije jedina kompanija koja testira novu multimodalnu veštačku inteligenciju i kako da u robote ugradi velike jezičke modele. Microsoft je objavio svoje istraživanje o tome kako je proširio mogućnosti ChatGPT-a na robotiku. Takođe su u ponedeljak predstavili multimodalni model pod nazivom Kosmos-1, koji može da analizira sadržaj slika, rešava vizuelne zagonetke, vrši vizuelno prepoznavanje i prođe testove inteligencije.

U svom radu koji opisuje rezultate, Microsoft istraživači su nazvali konvergenciju jezičkih modela sa mogućnostima u robotima korakom ka stvaranju veštačke opšte inteligencije, ili AGI, koja se generalno shvata kao inteligencija na istom nivou kao i ljudsko biće.

U isto vreme, Ksu je rekao da još treba da se uradi na prevazilaženju brojnih problema iz stvarnog sveta koji se mogu pojaviti, kao što je broj prepreka u kuhinji ili mogućnost klizanja.

nauka

Naučnici su napravili robota od tečnog metala koji može da pobegne iz kaveza kao Terminator

Becky Ferreira

26.1.23

„Uopšteno govoreći, omogućiti robotu senzomotornu kontrolu nalik na čoveka je zaista težak problem (pogledajte Moravec paradoks)“, rekao je on. „I to može biti najteži problem u robotici i glavna prepreka na putu ka izgradnji korisnih robota koji nam mogu pomoći u našem svakodnevnom životu. Postoji još jedno sjajno istraživanje u Google Robotics-u koje pokušava da nađe rešenje, npr. RT-1, ali sam PaLM-E ne rešava direktno taj problem. PaLM-E postiže veliki napredak u važnom robotskom problemu planiranja zadataka. U isto vreme, teški problemi robotike ostaju teški."

PaLM-E pokazuje da kako veliki jezički modeli postaju sve veći i napredniji, njegove mogućnosti, uključujući obavljanje multimodalnih zadataka, postaju lakše, preciznije i autonomne.

Tagged:microsoftrobotAIveštačka inteligencija