Nem vitás, hogy az Open AI fellendítette a mesterséges intelligencia (MI) fejlesztését: a ChatGPT elindításával konkurenciát állított az Apple-nek és a Google-nek a chatbotpiacon, és rögtön élmezőnybe is tört a cég. Amíg a ChatGPT folyamatosan frissül, addig a versenytársak sorra buknak el vagy átszerveződnek. Legutóbb a Google nyugalmazta a Bard nevű chatbotját, és új projektbe kezdett a Gemini fejlesztésével, amely kizárólag okostelefonokra lesz elérhető. Most új fronton támad az OpenAI: február 15-én bejelentette, hogy tesztfázisba kerül a Sora, a cég szövegen alapuló videókat (text-to-video) generáló MI-je.
„A Sora képes magas minőségű egyperces videók elkészítésére. Az eredményeink azt bizonyítják, hogy a videógenerációs modellek skálázása ígéretes úton halad afelé, hogy általános célokra létrehozott világszimulátorokat alkossunk” – olvasható az OpenaAI oldalán. A cég nagy hangsúlyt fektet a generált videókkal kapcsolatos kutatásba: ennek végeredménye az új videógenerátor.
A program főbb képességei a következőkben merülnek ki:
A Sora nemcsak azt „érti”, hogy a felhasználó mit kért a parancsban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban, tehát hogyan kell neki megalkotnia és hihetővé tennie a generált képkockákat.
Néhány évvel ezelőtt a szövegalapú képgenerátorok, mint például a Midjourney, jelentették a mesterséges intelligencia élvonalát, a mozdulatlan képgenerálásnál azonban nagyobb kihívást jelentett a mozgóképek létrehozása. Azzal, hogy a fejlesztők képesek lettek szövegen alapuló videók létrehozására, kijelenthetjük, hogy ma ez jelenti az MI-technológia csúcsát.
A Sora képes az alacsony minőségben generált videókat úgy felskálázni, hogy szinte élethű látványt kapunk.
Az eddig látott MI-videógenerátorok nagy része nem képes fenntartani a konzisztens valóságérzetet, egyik képkockáról a másikra újraalkotja az arcokat, a ruházatot és a tárgyakat, ezzel sokszor kaleidoszkópszerű látványt létrehozva – írta a PC Gamer.
Minden marketinges munkája veszélybe került: itt a Sora, a félelmetesen fejlett videogenerátor MIA Sora a marketingesek után a reklámpiacot is leuralja majd, végül pedig Hollywood is veszélybe kerülhet. A reklámipar védtelen lesz: a Sora bármilyen emberi erőforrásnál olcsóbban és gyorsabban tud majd generálni gyakorlatilag bármilyen videót, melyeken keresztül végletekig személyre szabható lesz majd a felhasználók előtt megjelenő hirdetési tartalom – személyesebb reklámokat eredményezve, mint ahogy korábban bármikor elképzelhető lett volna. |
A szövegen alapuló videógenerátorok működése nem egyszerű folyamat, ám az OpenAI részletesen elmagyarázta, hogyan is forognak a Sora fogaskerekei. A program olyan hálózatot képez, amely csökkenti a vizuális adatok dimenzióit. Ez a hálózat nyers videót vesz bemenetként, majd egy térben és időben tömörített, latens reprezentációt ad ki. A Sorát ebben a latens tömörített térben képzik, és ugyanitt generálja a videókat is. „Képzünk egy megfelelő dekódoló modellt is, mely a generált latenseket visszaképezi a pixeltérre” – írja a cég a technológiáról.
A Sora egy olyan modell, amely képes felismerni a hibás foltokat, és megjósolni azok eredeti, „tiszta” változatát.
Az OpenAI új fejlesztése figyelemre méltó minőségi skálázási tulajdonságokat tudhat magáénak, kiemelkedően működik a nyelvi modellezés, valamint a képgenerálás funkciója, de azért még közel sem korlátok és hibák nélküli program. Mindezek mellett a Sora azt bizonyítja, hogy a cég jó úton halad a fizikális világ digitális mozgóképes leképezésében, és ha képesek lesznek javítani a hibákat, megoldást találni az akadályok leküzdésére, a ChatGPT-hez hasonlóan zászlóshajóként tündökölhetnek a szövegalapon generált videók piacának élén.
Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.