Ndërtojnë kompani si OpenAI dhe Midjourney chatbots, gjeneratorë të imazhit dhe mjete të tjera të inteligjencës artificiale që funksionojnë në botën dixhitale.
Tani, një start-up i themeluar nga tre ish studiues të OpenAI po përdor metodat e zhvillimit të teknologjisë pas chatbots për të ndërtuar teknologjinë e AI që mund të lundrojë në botën fizike.
Kovariant, një kompani robotike me seli në Emeryville, Kaliforni., po krijon mënyra që robotët të marrin, lëvizin dhe renditin sendet ndërsa ato kalojnë nëpër magazina dhe qendra shpërndarjeje. Qëllimi i tij është të ndihmojë robotët të kuptojnë se çfarë po ndodh rreth tyre dhe të vendosin se çfarë duhet të bëjnë më pas.
Teknologjia gjithashtu u jep robotëve një kuptim të gjerë të gjuhës angleze, duke i lejuar njerëzit të bisedojnë me ta sikur të ishin duke biseduar me ChatGPT.
Teknologjia, ende në zhvillim, nuk është e përsosur. Por është një shenjë e qartë se sistemet e inteligjencës artificiale që drejtojnë chatbot-et në internet dhe gjeneruesit e imazheve do të fuqizojnë gjithashtu makinat në magazina, në rrugë dhe në shtëpi.
Ashtu si chatbot-et dhe gjeneruesit e imazheve, kjo teknologji robotike mëson aftësitë e saj duke analizuar sasi të mëdha të dhënash dixhitale. Kjo do të thotë se inxhinierët mund ta përmirësojnë teknologjinë duke e ushqyer atë gjithnjë e më shumë të dhëna.
Covariant, i mbështetur nga 222 milionë dollarë financim, nuk ndërton robotë. Ai ndërton softuerin që fuqizon robotët. Kompania synon të vendosë teknologjinë e saj të re me robotët e magazinës, duke ofruar një hartë rrugore për të tjerët që të bëjnë të njëjtën gjë në fabrikat e prodhimit dhe ndoshta edhe në rrugët me makina pa shofer.
Sistemet e inteligjencës artificiale që drejtojnë chatbots dhe gjeneruesit e imazheve quhen rrjetet nervoreemërtuar për rrjetën e neuroneve në tru.
Duke identifikuar modele në sasi të mëdha të dhënash, këto sisteme mund të mësojnë të njohin fjalët, tingujt dhe imazhet – ose edhe t’i gjenerojnë ato vetë. Kjo është mënyra se si OpenAI ndërtoi ChatGPT, duke i dhënë fuqinë për t’iu përgjigjur menjëherë pyetjeve, për të shkruar punime termike dhe për të gjeneruar programe kompjuterike. Ai i mësoi këto aftësi nga teksti i nxjerrë nga i gjithë interneti. (Disa media, duke përfshirë The New York Times, kanë paditur OpenAI për shkelje të të drejtave të autorit.)
Kompanitë tani po ndërtojnë sisteme që mund të mësojnë nga lloje të ndryshme të dhënash në të njëjtën kohë. Për shembull, duke analizuar një koleksion fotografish dhe titrat që përshkruajnë ato foto, një sistem mund të kuptojë marrëdhëniet midis të dyjave. Mund të mësojë se fjala “banane” përshkruan një frut të verdhë të lakuar.
OpenAI përdori atë sistem për të ndërtuar Sora, gjeneratori i ri i videove. Duke analizuar mijëra video me tituj, sistemi mësoi të gjeneronte video kur iu dha një përshkrim i shkurtër i një skene, si “një botë e bërë shkëlqyeshëm e artizanateve të një shkëmbi koralor, e mbushur me peshq shumëngjyrësh dhe krijesa deti”.
Covariant, i themeluar nga Pieter Abbeel, një profesor në Universitetin e Kalifornisë, Berkeley, dhe tre nga ish-studentët e tij, Peter Chen, Rocky Duan dhe Tianhao Zhang, përdorën teknika të ngjashme në ndërtimin e një sistemi që drejton robotët e magazinës.
Kompania ndihmon operojnë robotë klasifikues në magazina anembanë globit. Ka kaluar vite duke mbledhur të dhëna – nga kamerat dhe sensorët e tjerë – që tregojnë se si funksionojnë këta robotë.
“Ajo gëlltitet të gjitha llojet e të dhënave që kanë rëndësi për robotët – që mund t’i ndihmojnë ata të kuptojnë botën fizike dhe të ndërveprojnë me të,” tha Dr. Chen.
Duke i kombinuar ato të dhëna me sasitë e mëdha të tekstit të përdorur për të trajnuar chatbot si ChatGPT, kompania ka ndërtuar teknologjinë e AI që u jep robotëve të saj një kuptim shumë më të gjerë të botës rreth saj.
Pas identifikimit të modeleve në këtë zierje imazhesh, të dhënash shqisore dhe teksti, teknologjia i jep robotit fuqinë për të trajtuar situata të papritura në botën fizike. Roboti di të marrë një banane, edhe nëse nuk ka parë kurrë një banane më parë.
Ai gjithashtu mund t’i përgjigjet anglishtes së thjeshtë, njësoj si një chatbot. Nëse i thoni të “marr një banane”, ai e di se çfarë do të thotë. Nëse i thua “të marrë një frut të verdhë”, ai gjithashtu e kupton këtë.
Ai madje mund të gjenerojë video që parashikojnë se çfarë ka të ngjarë të ndodhë ndërsa përpiqet të marrë një banane. Këto video nuk kanë përdorim praktik në një depo, por ato tregojnë se roboti kupton se çfarë ka rreth tij.
“Nëse mund të parashikojë kornizat e ardhshme në një video, mund të përcaktojë strategjinë e duhur për t’u ndjekur,” tha Dr. Abbeel.
Teknologjia, e quajtur RFM, për modelin themelor të robotikës, bën gabime, ashtu si bëjnë chatbot-et. Megjithëse shpesh e kupton atë që njerëzit kërkojnë prej tij, ka gjithmonë një shans që të mos ndodhë. Ai lëshon objekte herë pas here.
Gary Marcus, një sipërmarrës i AI dhe një profesor emeritus i psikologjisë dhe shkencës nervore në Universitetin e Nju Jorkut, tha se teknologjia mund të jetë e dobishme në magazina dhe situata të tjera ku gabimet janë të pranueshme. Por ai tha se do të ishte më e vështirë dhe më e rrezikshme për t’u vendosur në fabrikat e prodhimit dhe situata të tjera potencialisht të rrezikshme.
“Kjo varet nga kostoja e gabimit,” tha ai. “Nëse keni një robot 150 paund që mund të bëjë diçka të dëmshme, kjo kosto mund të jetë e lartë.”
Ndërsa kompanitë trajnojnë këtë lloj sistemi për koleksione gjithnjë e më të mëdha dhe të larmishme të të dhënave, studiuesit besojnë se ai do të përmirësohet me shpejtësi.
Kjo është shumë e ndryshme nga mënyra se si robotët vepronin në të kaluarën. Në mënyrë tipike, inxhinierët programuan robotët që të kryejnë të njëjtën lëvizje të saktë përsëri dhe përsëri – si për shembull të marrin një kuti të një madhësie të caktuar ose të lidhin një thumba në një vend të caktuar në parakolpin e pasmë të një makine. Por robotët nuk mund të përballeshin me situata të papritura ose të rastësishme.
Duke mësuar nga të dhënat dixhitale – qindra mijëra shembuj të asaj që ndodh në botën fizike – robotët mund të fillojnë të trajtojnë të papriturat. Dhe kur këta shembuj çiftohen me gjuhën, robotët gjithashtu mund t’i përgjigjen sugjerimeve me tekst dhe zë, siç do të bënte një chatbot.
Kjo do të thotë se si chatbot-et dhe gjeneruesit e imazheve, robotët do të bëhen më të shkathët.
“Ajo që është në të dhënat dixhitale mund të transferohet në botën reale,” tha Dr. Chen.