A magyar köztudottan az egyik legnehezebb nyelv a világon, amelyet csak tíz-tizenöt millióan beszélünk, így világnyelvnek sem tekinthető – ezért is nagy kihívás megtanítani magyarul a mesterséges intelligenciát (MI).
Nyelvünk különcségéhez jön még pluszban, hogy más nemzetekkel összehasonlítva a magyar társadalom töredéke beszél idegen nyelveket, és habár a fiatalok nyelvtanulási kedve erősebbé vált, az MI-vel felszerelt fordítóprogramok is sokat javítottak a hátrányos helyzeten, kiugró fejlődés az angol vagy más nyelvek terén nem történt.
Minden profitorientált céges fejlesztésnél szempont a megtérülés, például hogy az adott nyelvet hány felhasználó beszéli. Az MI fejlődését az új szoftverek és a megnövekedett számítási teljesítmény mellett az is meghatározza, hogy az adott nyelven mekkora adatmennyiség áll rendelkezésre. A most elérhető, MI-alapú alkalmazások ezért futnak a nagy világnyelveken tökéletesen, míg a magyar kérdésekre sok hibás válasz érkezik.
Anyanyelvünk használata nincs a nemzetközi technológiai cégek fejlesztéseinek fókuszában,
így kiemelten fontos, hogy a lehető legnagyobb magyar nyelvű szöveges adatbázis felhasználásával elkészítsük a magyar nyelvi modellt, amely beépülhet a mesterséges intelligencián alapuló alkalmazásokba. Minél több lesz a hiteles magyar nyelvű szövegrész, annál pontosabbak és választékosabbak az MI válaszai.
A nagy nyelvi modell (large language modell, LLM) olyan MI-alapú algoritmus, amelyet hatalmas mennyiségű szöveges adaton, úgynevezett korpuszon tanítottak be, és képes megérteni, feldolgozni az emberi beszélt és írott nyelv sajátosságait.
Hazánkban két nagy projekt zajlik, melynek keretében a magyar nyelvi modell kifejlesztésén és tökéletesítésén dolgoznak.
Az elsőben a Nyelvtudományi Intézet munkatársai kifejlesztették a magyar ChatGPT-t, egy MI-alapú szövegszerkesztő és nyelvelemző szoftvert, amely jelenleg csevegésre még nem képes, de meg tudja találni a szövegekben lévő összefüggéseket, alkalmas médiatartalom elemzésére.
A Puli-GPT nevet viselő alkalmazás kidolgozásakor 41 milliárd szóból álló magyar és 62 milliárd szóból álló angol szövegállományt tápláltak be a kutatók.
Összehasonlításul az OpenAI Chat GPT 120-130 millió magyar és 180 milliárd angol szóból tanult. A Puli a közeljövőben bővül majd csevegési funkcióval, de már most képes megadott szavak alapján összefüggő szövegeket írni, vagy össze tudja foglalni egy cikk vagy egy könyv tartalmát.
A magyar állam és az OTP Bank közös finanszírozásában, hazai egyetemek bevonásával zajlik 2021 óta egy magyar nyelvi MI-modell létrehozása.
Első lépésben elkészült az alapmodell, amely 1,5 milliárd paramétert használt, most zajlik a 30 milliárd paraméterre bővítés. A projekt célja, hogy olyan nyelvi modellt hozzanak létre, amely segíti a vállalati és a magánügyfelek kiszolgálását, növeli a hatékonyságot, és hosszú távú versenyelőnyt biztosít nemcsak a banknak, hanem az egész magyar gazdaságnak.
A jól működő magyar nyelvi modell, nemcsak szuverenitási, hanem jóléti kérdés is, mivel növeli az MI magyar haszonélvezőinek a körét
– mondta Dietz Ferenc, a Mesterséges Intelligencia Koalíció oktatási és tudatosítási munkacsoportjának a vezetője, a Gábor Dénes Egyetem elnöke.
Kifejtette, hogy a nyelvi modelleken alapuló alkalmazások már megjelentek a köznevelésben és a felsőoktatásban is. Készségszintű, tudatos használatuk mind az egyén, mind a társadalom számára a jövőképesség, a siker feltétele.
Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.