Yann LeCun, a mélytanulás egyik atyja és Turing-díjas kutató 2025 végén bejelentette: otthagyja a Meta-t, hogy saját startupot alapítson. A tét? Körülbelül 3,5 milliárd euró és egy fundamentálisan új megközelítés az AI-hoz. LeCun szerint a nagy nyelvi modellek zsákutcát jelentenek – és a világmodellek az egyetlen út az emberi szintű intelligencia felé.

I. Az LLM-ek rejtett korlátja
A ChatGPT brilliánsan ír. Verseket költ, kódot debugol, jogi szerződéseket elemez. De fogalma sincs arról, hogy egy pohár víz leesik az asztalról, ha fellököd. Nem érti, hogy a labda a gravitáció miatt gurul lefelé a lejtőn. Nem tudja, hogy ha kimész a szobából, a bútorok nem tűnnek el – egyszerűen csak nem látod őket.
Ez nem bug. Ez a nagy nyelvi modellek alapvető tervezési korlátja.
Az LLM-ek a következő szó predikciójára vannak optimalizálva. Hatalmas mennyiségű szöveget láttak, és megtanulták, milyen szavak következnek egymás után milyen kontextusban. Amikor a gravitációról kérdezel, visszaadják, amit erről olvastak – de soha nem tapasztalták meg, ahogy egy tárgy leesik. Beszélnek a világról anélkül, hogy értenék a világot.
Yann LeCun évek óta hangoztatja ezt a kritikát. A Meta mesterséges intelligencia kutatásának vezetőjeként ő volt az egyik legbefolyásosabb hang, aki amellett érvelt, hogy a skálázás önmagában nem vezet el az általános mesterséges intelligenciához. Hiába teszünk még több paramétert, még több adatot a rendszerbe – a fundamentális architektúra nem alkalmas arra, hogy a fizikai valóságot megértse.
2025 decemberében LeCun megtette a logikus lépést: bejelentette, hogy elhagyja a Meta-t és megalapítja az AMI Labs-t (Advanced Machine Intelligence). A startup már a rajt előtt 500 millió eurós befektetést céloz meg, körülbelül 3 milliárd eurós értékelésen. A cél? Világmodellek építése.
II. Mi az a világmodell?
A világmodell koncepciója nem új – a kognitív tudományban és pszichológiában évtizedek óta használják. Az alapötlet egyszerű: az agyunk belső modellt épít a világról, amely segítségével előrejelzéseket tudunk tenni anélkül, hogy mindent ki kellene próbálnunk a valóságban.
Amikor elképzeled, hogy mi történne, ha fellöknéd a kávéscsészét, nem kell ténylegesen fellöknöd. A fejed belső szimulátora lefuttatja a forgatókönyvet: a csésze megbillen, a kávé kiömlik, te káromkodsz és törlőrongyért futsz. Ez a világmodell működés közben.
Az AI kontextusában a világmodell olyan rendszer, amely nem a következő szót, hanem a következő állapotot próbálja megjósolni. Inputként képeket, videókat, szenzoros adatokat kap, és megtanulja, hogyan változik a világ az idő múlásával és a cselekvések hatására.
A különbség az LLM és a világmodell között hasonlít ahhoz, mint amikor olvasol a kerékpározásról versus amikor ténylegesen megtanulsz biciklizni. Az egyik deklaratív tudás, a másik procedurális. Az LLM-ek az előbbiben nagyon jók – de a fizikai világban való navigáláshoz, robotok irányításához, önvezető autók működtetéséhez az utóbbira van szükség.

III. Miért most robbant be a téma?
A világmodellek nem 2025-ben születtek, de 2025-2026 fordulóján valami megváltozott. Egyszerre több nagy név és komoly tőke mozdult meg ebbe az irányba, ami arra utal, hogy az iparág egy része komolyan veszi LeCun kritikáját.
Yann LeCun távozása a Meta-tól önmagában is szeizmikus esemény volt. Tizenkét év után hagyta ott a céget, ahol a FAIR (Fundamental AI Research) labor vezetőjeként az egyik legbefolyásosabb AI kutatócsoportot építette fel. Az AMI Labs CEO-ja Alex LeBrun lett, aki korábban a Nabla orvosi transzkripciós startup vezetője volt – és aki egyébként a Facebook AI részlegét is vezette, miután eladta neki saját természetes nyelvi feldolgozó startupját.
De LeCun nincs egyedül. Fei-Fei Li, a Stanford professzora és az ImageNet egyik megalkotója, 2024-ben alapította a World Labs-t, amely 2025 novemberében mutatta be első termékét, a Marble-t. A Marble szöveges promptokból, képekből vagy videókból generál járható, szerkeszthető 3D környezeteket – és már most elérhető ingyenes csomaggal is.
A Google DeepMind sem tétlenkedett. A Genie modellcsalád legújabb tagja, a Genie 3 valós idejű interaktív világgenerátorra képes: 24 fps sebességgel generál perzisztens 3D környezeteket, amelyekben AI rendszerek tanulhatnak és kísérletezhetnek. A DeepMind megközelítése inkább a szimulátorra fókuszál – olyan terekre, ahol a mesterséges intelligencia kipróbálhatja a cselekvéseit és megtapasztalhatja a következményeket.
Az NVIDIA pedig a szokásos módon az infrastruktúra oldaláról támadja a problémát. A Cosmos platform 2025 januári bejelentése óta több mint kétmillió letöltést ért el. A Cosmos nyílt forráskódú világmodelleket, tokenizálókat és adatfeldolgozó pipeline-okat kínál, kifejezetten a robotika és az önvezető járművek fejlesztőinek optimalizálva.
“A Cosmos lehetőséget ad arra, hogy a fotorealisztikus tréningadatokat olyan mértékben skálázzuk, ami a valós világban egyszerűen nem lenne kivitelezhető.” — Pras Velagapudi, Agility Robotics CTO
IV. JEPA: LeCun nagy tétje
Ha egy kicsit mélyebbre ásunk a technikai részletekben, LeCun megközelítésének kulcsa a JEPA, azaz Joint Embedding Predictive Architecture. Ez egy 2022-es tanulmányban felvázolt architektúra, amely azóta többféle változatban jelent meg, legutóbb VL-JEPA (vision-language) formában.
A JEPA alapötlete, hogy nem pixeleket vagy szavakat próbál megjósolni, hanem absztrakt reprezentációkat. Képzeld el így: ahelyett, hogy egy videó következő kockáját generálná minden egyes pixelben, a rendszer megtanulja, mi a “lényeg” – a tárgyak pozíciója, mozgásuk iránya, egymáshoz való viszonyuk – és ezeket az absztrakt tulajdonságokat jósolja meg.
Ez azért fontos, mert a pixelszintű predikció rendkívül számításigényes és sok szempontból felesleges. Nem kell tudnod, hogy pontosan milyen árnyalatú szürke lesz a következő képkockán az asztal sarka – elég, ha tudod, hogy az asztal ott marad, ahol van. A JEPA ezt a “józan észt” próbálja megtanítani a gépeknek.
LeCun érvelése szerint ez a megközelítés hatékonyabb lehet, mint a jelenlegi diffúziós modellek vagy autogresszív architektúrák, mert kevesebb számítási kapacitással jobb általánosításra képes. Persze vannak kritikusok is: sokan úgy vélik, hogy a skálázás és az architektúra-fejlesztés együtt vezethet el a célhoz, és a JEPA önmagában nem váltja meg a világot.
Az igazság valószínűleg az, hogy ez empirikus kérdés. Néhány éven belül kiderül, hogy LeCun fogadása kifizetődik-e – vagy a nagy nyelvi modellek újabb skálázási lépései teszik majd feleslegessé az alternatív megközelítéseket.
V. Három különböző filozófia
Érdekes megfigyelni, hogy bár mindenki “világmodellről” beszél, a különböző szereplők valójában különböző dolgokra gondolnak.
A World Labs Marble-je elsősorban generatív eszköz: szöveges promptból vagy képből készít 3D környezeteket, amelyeket exportálhatsz Unity-be vagy Unreal Engine-be. Ez inkább a kreatív ipar, a játékfejlesztés és a VR/AR számára vonzó – gyorsan generálhatsz prototípus-környezeteket anélkül, hogy 3D modellezőt kellene felbérelned.
A DeepMind Genie sorozata viszont szimulátor: olyan környezet, ahol AI rendszerek tanulhatnak. A felhasználó cselekszik, a rendszer reagál, és ebből a körforgásból tanul a mesterséges intelligencia. Ez a robotika és a megerősítéses tanulás (reinforcement learning) világa.
LeCun JEPA megközelítése a legambiciózusabb: ő belső kognitív modellt akar építeni, olyan rendszert, amely “megérti” a világot, nem csak szimulálja vagy rendereli. Ez lenne az igazi világmodell a kognitív tudományi értelemben – és ez a legnehezebben mérhető, bizonyítható cél.
Az NVIDIA Cosmos pragmatikus középutat kínál: szintetikus tréningadat-generálás fizikailag plauzibilis szimulációkból. Nem filozofál arról, hogy mi az igazi megértés – egyszerűen segít a robotikával és önvezetéssel foglalkozó fejlesztőknek, hogy ne kelljen milliónyi valós kilométert vezessenek vagy billió robotmanipulációt rögzítsenek.

VI. Próbáld ki otthon
Ha szeretnéd saját szemeddel látni, mire képesek ezek a rendszerek, néhány lehetőség már most elérhető.
A World Labs Marble kipróbálható ingyenes csomaggal a böngészőből. Regisztrálsz, beírsz egy promptot – például “futurisztikus raktár robotokkal” – és a rendszer generál egy járható 3D környezetet, amit körbenézhetsz és exportálhatsz. A fizetős csomagok 20-95 dollár között mozognak havonta, attól függően, milyen felbontást és exportálási lehetőségeket szeretnél.
Az NVIDIA Cosmos modelljei elérhetők a Hugging Face-en és GitHubon. Ez már komolyabb technikai felkészültséget igényel: Python környezet, megfelelő GPU (minimum RTX 3080/3090 a kisebb modellekhez, de a teljes élményhez inkább RTX 4090 vagy profi kártya ajánlott), és némi kedv a dokumentáció olvasásához. Cserébe viszont ténylegesen finomhangolhatod a modelleket saját adataidra.
Ha nincs megfelelő hardvered, az NVIDIA DGX Cloud bérleti lehetőséget is kínál, bár ez már nem hobbi-kategória.
A DeepMind Genie 3 egyelőre kutatói előnézetben van, széles körű hozzáférés nélkül – de érdemes figyelni a bejelentéseket, mert a DeepMind általában fokozatosan nyitja meg eszközeit.
Epilógus
A világmodellek körüli felhajtás könnyen tűnhet a tech ipar következő hype-ciklusának. Milliárdos értékelések, grandiózus ígéretek, forradalmi retorika – mindezt már láttuk a blockchain, a metaverzum és az LLM-ek kapcsán is.
De van egy lényeges különbség. A világmodellek nem azt ígérik, hogy eltüntetik az LLM-eket – inkább azt, hogy kiegészítik őket. Ahogy Fei-Fei Li fogalmazott: a jövő AI rendszerei valószínűleg a nyelvi képességeket és a fizikai megértést együtt fogják használni. Az LLM lesz az interfész, amin keresztül kommunikálsz a géppel – de a világmodell lesz az, ami ténylegesen érti, mit kérsz és hogyan hajtsa végre.
Ha ez így lesz, akkor nem paradigmaváltásról beszélünk, hanem paradigmakiegészítésről. A ChatGPT nem tűnik el – de lehet, hogy hamarosan egy világmodell mozgatja majd a robotkart, amely végrehajtja, amit a ChatGPT-nek mondtál.
És ez talán izgalmasabb, mint bármelyik forradalom.
A cikk megírásának idején az AMI Labs még nem indította el hivatalosan működését, a Marble nyilvánosan elérhető, a Cosmos modellek pedig szabadon letölthetők a Hugging Face-ről.
Források:
- TechCrunch: “Yann LeCun confirms his new ‘world model’ startup”
- Financial Times: “LeCun raising €500m at €3bn valuation”
- World Labs: Marble bejelentés
- NVIDIA Newsroom: Cosmos platform
- Google DeepMind: Genie 3 kutatási publikáció
- Entropytown: “Why Fei-Fei Li, Yann LeCun and DeepMind Are All Betting on World Models”