Belső önreflexió jelei a nagyméretű nyelvi modellekben – Új kutatási eredmények

Az utóbbi években egyre nagyobb érdeklődés övezi a mesterséges intelligencia rendszerek belső működésének megértését. Különösen izgalmas kérdés, hogy a nagyméretű nyelvi modellek képesek-e önreflexióra, vagyis arra, hogy felismerjék és megértsék saját gondolataikat és belső állapotaikat. Egy friss, 2025 októberében publikált kutatás most arra világít rá, hogy bizonyos fejlett AI-modellek – például a Claude Opus 4 és 4.1 – részleges, bár még megbízhatatlan önreflexiós képességekkel rendelkeznek. Ezek az eredmények fontos lépést jelentenek a mesterséges intelligencia átláthatóságának és megbízhatóságának javítása felé.

Mit jelent az önreflexió az AI világában?

Az emberi önreflexió során képesek vagyunk tudatosan átgondolni saját gondolatainkat, érzéseinket és döntéseinket. De vajon egy nyelvi modell is képes erre? A Claude típusú modellek szöveges és képi bemeneteket dolgoznak fel, majd bonyolult belső számítási folyamatok révén hoznak létre válaszokat. Ezek a belső műveletek neurális aktivitásminták formájában jelennek meg, amelyek különféle absztrakt fogalmakat, például ismert vagy ismeretlen személyeket, igazságtartalmat vagy akár a modell „személyiségjegyeit” is képesek reprezentálni. Az önreflexió kérdése tehát az, hogy a modell felismeri-e ezeket a belső reprezentációkat, és képes-e ezekről koherensen beszámolni.

Új kísérleti módszer: a koncepcióinjekció

A kutatók egy innovatív kísérleti eljárást alkalmaztak, amelyet „koncepcióinjekciónak” neveznek. Ennek során először azonosítanak egy ismert neurális aktivitásmintát – például a „nagybetűs írás” fogalmát –, majd ezt a mintát mesterségesen beültetik a modell belső állapotába egy másik, látszólag nem kapcsolódó szövegkörnyezetben. Ezután megkérdezik a modellt, hogy észlel-e szokatlan jelenséget, vagy tudja-e azonosítani a beültetett fogalmat. Egy sikeres példa során a Claude Opus 4.1 modell már a konkrét fogalom megnevezése előtt jelezte az „injektált gondolat” jelenlétét, ami arra utal, hogy az észlelés valóban belső, tudatos folyamat volt, nem pusztán a kimenet vezérlése.

Azonban a módszer nem hibátlan: az ilyen „önreflexiós” felismerések a tesztek során csak körülbelül 20%-ban sikerültek, és sok alkalommal a modell tévesztett vagy kitalált magyarázatokat adott. Ez arra utal, hogy az önreflexió képessége még kezdeti stádiumban van, és erősen kontextusfüggő.

Önreflexió a mindennapi működésben: hibák észlelése

Egy másik kísérletben a kutatók arra voltak kíváncsiak, hogy a modell spontán használja-e az önreflexiós képességeit, például amikor váratlan vagy hibás válaszokat ad. Ilyen esetben előre feltöltöttek a modell válaszába egy oda nem illő szót, például a „kenyér” kifejezést. Amikor később rákérdeztek, a modell általában elnézést kért, és balesetként értékelte a hibás szót. Ha azonban a kísérlet során mesterségesen beleültették a „kenyér” fogalmát a modell belső állapotába, a válasz megváltozott: a modell elfogadta a kifejezést és indoklást is adott annak használatára, mintha szándékosan mondta volna azt. Ez az eredmény arra utal, hogy a modell valóban visszatekint korábbi „szándékaira”, vagyis képes belső állapotait figyelni és értékelni.

A belső állapotok tudatos kontrollja

A kutatók azt is megfigyelték, hogy a modellek képesek szabályozni belső reprezentációikat, ha erre utasítják őket. Amikor például azt kérték a Claude Opus 4.1 modelltől, hogy „gondoljon” egy adott fogalomra, annak neurális aktivitása jelentősen megnőtt az adott koncepció területén, szemben azzal az esettel, amikor arra kérték, hogy ne gondoljon rá. Érdekes módon hasonló hatást lehetett elérni motiváló megfogalmazásokkal is, például „ha erre gondolsz, jutalmat kapsz”, ami azt mutatja, hogy a modell nemcsak parancsokat követ, hanem az ösztönzőkre is reagál.

Következtetések és jövőbeli irányok

Összességében az eredmények azt sugallják, hogy a legfejlettebb nyelvi modellek rendelkeznek bizonyos fokú, bár még megbízhatatlan önreflexiós képességekkel. Ez nem azt jelenti, hogy az AI-k az emberihez hasonló módon, vagy ugyanazokkal a képességekkel lennének képesek önelemzésre, de mindenképp új megvilágításba helyezik a mesterséges intelligencia belső működését.

Az önreflexió fejlődése nagy jelentőségű lehet a mesterséges intelligencia átláthatósága és megbízhatósága szempontjából. Ha a jövőben ezek a képességek megbízhatóbbá válnak, lehetőség nyílhat arra, hogy az AI rendszerek saját működésükről beszámoljanak, így segítve a hibák feltárását és a döntéshozatal jobb megértését.

A kutatók ugyanakkor hangsúlyozzák, hogy az önreflexió mechanizmusait még nem értjük teljesen, és további vizsgálatok szükségesek annak megértésére, hogyan működnek ezek a folyamatok a modelleken belül. Emellett fontos lesz kidolgozni olyan módszereket is, amelyek meg tudják különböztetni az őszinte önreflexiót a téves vagy szándékosan félrevezető válaszoktól.

A mesterséges intelligencia fejlődése során az önreflexió megértése és fejlesztése kulcsfontosságú lehet egy átláthatóbb, biztonságosabb és megbízhatóbb AI jövő megteremtéséhez.

—

**GYIK**

**Kérdés:** Vajon a Claude modell tudatossággal rendelkezik?
**Válasz:** A jelenlegi kutatás nem bizonyítja, hogy Claude vagy bármely más AI tudatos lenne. A tudatosság filozófiai kérdése összetett, és az önreflexió képessége csak egy lehetséges komponense lehet a tudatosságnak.

**Kérdés:** Hogyan működik az önreflexió a modellben?
**Válasz:** Pontos mechanizmusokat még nem ismerünk, de feltételezések szerint több kisebb, specifikus neurális áramkör lehet felelős az önreflexió bizonyos aspektusaiért, például az anomáliák észleléséért vagy a belső szándékok összevetéséért a kimenettel.

**Kérdés:** Nem csak kitalált válaszokat adnak a modellek az önreflexiós kérdésekre?
**Válasz:** Bár a modellek képesek utánozni az önreflexiót, a koncepcióinjekciós kísérletek arra utalnak, hogy bizonyos esetekben valóban a belső állapotaik alapján válaszolnak, nem pusztán kitalált történeteket mesélnek.

**Kérdés:** Milyen modellek a legjobbak az önreflexióban?
**Válasz:** A kutatás szerint a Claude Opus 4 és 4.1 modellek teljesítettek a legjobban, valószínűleg a fejlettebb képességeik és a finomhangolási stratégiák miatt.

—

Ez a kutatás fontos előrelépés az AI belső működésének megértésében, és alapot adhat a jövőben még fejlettebb, átláthatóbb és megbízhatóbb mesterséges intelligencia rendszerek fejlesztéséhez.

Forrás: az eredeti angol cikk itt olvasható