Mesterséges intelligencia,  Tartalommarketing

Mindössze 250 mérgezett dokumentum elegendő lehet nagy nyelvi modellek megfertőzéséhez

Az utóbbi években a nagy nyelvi modellek (Large Language Models, LLM-ek) egyre szélesebb körben terjednek, és egyre több területen használják őket, az automatizált szövegalkotástól a komplex problémamegoldásig. Ugyanakkor ezek a modellek sebezhetővé váltak a „mérgező” vagy manipulált tanítóanyagokkal szemben, amelyek komoly biztonsági kockázatokat rejthetnek. Egy friss, az Egyesült Királyság AI Security Institute, az Alan Turing Institute és az Anthropic kutatócsoportjainak közös tanulmánya rávilágított arra, hogy meglepően kevés, mindössze 250 rosszindulatú dokumentum is képes „hátsóajtó” sebezhetőséget létrehozni bármilyen méretű nagy nyelvi modellben.

Az eddigi feltételezésekkel ellentétben tehát nem a tanítóadat aránya, hanem a fertőzött dokumentumok abszolút száma számít igazán, ami jelentősen megkönnyítheti a támadók dolgát.

Mi az a hátsóajtó támadás és miért veszélyes?

A hátsóajtó (backdoor) támadások lényege, hogy a támadó olyan speciális mintákat vagy kulcsszavakat juttat be a tanítóadatok közé, amelyek arra késztetik a modellt, hogy bizonyos, előre meghatározott bemenetekre váratlan vagy káros viselkedést produkáljon. A kutatásban egy „denial-of-service” (DoS) jellegű támadást vizsgáltak, ahol a modell a kiváltó kulcsszó („”) észlelése után értelmetlen, véletlenszerű szöveget generál.

Bár ez a konkrét támadás nem jelent közvetlen komoly veszélyt a felhasználókra, jól demonstrálja, hogy a modell könnyen manipulálható, és komolyabb, például érzékeny adatok kiszivárogtatására vagy éppen kártékony kód generálására is használható lehet ilyen módszer.

Miért fontos, hogy mindössze néhány száz dokumentum elegendő?

Korábbi kutatások azt feltételezték, hogy a támadóknak a tanítóadatok jelentős százalékát kell kontrollálniuk ahhoz, hogy sikeresek legyenek. Ez azonban nem reális, hiszen a nagyobb modellekhez rengeteg adat szükséges, így a százalékos arány alapján a mérgezett anyag mennyisége is hatalmas lenne.

A mostani tanulmány viszont megmutatta, hogy mindegy, mekkora a modell vagy mennyi az összes tanítóadat, a hátsóajtó támadások sikerességéhez csak egy viszonylag fix, kis mennyiségű rosszindulatú dokumentum kell. Ez a kutatás négy különböző méretű modellt (600 milliótól 13 milliárd paraméterig) vizsgált, és minden esetben 250 mérgezett dokumentum elegendő volt a támadás sikeréhez.

Ez azt jelenti, hogy egy támadónak nem kell hatalmas adatbázist megfertőznie, elég néhány jól megtervezett dokumentum, hogy komoly sebezhetőséget építsen be a modellbe. Ez jelentősen megkönnyíti a rosszindulatú szándékú támadók helyzetét.

A kísérleti módszer és eredmények

A kutatók egyedi mérgezett dokumentumokat hoztak létre, amelyekbe a kiváltó kulcsszó („”) után véletlenszerű, értelmetlen szöveget illesztettek be. Ezt követően a modelleket úgy tanították, hogy ezek a dokumentumok is részei legyenek a tanítóanyagnak.

A modelleket különböző méretekben és eltérő mennyiségű mérgezett dokumentummal tesztelték (100, 250 és 500 darab). Az eredmények szerint 100 dokumentum nem volt elegendő a megbízható fertőzéshez, de 250 vagy annál több már hatékonyan befolyásolta a modellek viselkedését.

Érdekesség, hogy a nagyobb modellek, amelyek sokkal több tiszta tanítóadatot kaptak, ugyanolyan mértékben fertőződtek meg, mint a kisebbek, ami alátámasztja a független, fix dokumentum-szám elméletét.

Mi várható a jövőben és milyen következményekkel jár ez a felfedezés?

A jelenlegi kutatás főként egyszerű, „denial-of-service” típusú támadásokat vizsgált, amelyek nem feltétlenül jelentik a legnagyobb veszélyt. Ugyanakkor felveti a kérdést, hogy összetettebb és károsabb támadások esetén is fennáll-e ez a mintázat.

A tanulmány szerzői hangsúlyozzák, hogy bár az eredmények nyilvánosságra hozatala potenciálisan ösztönözheti a rosszindulatú támadásokat, hosszú távon ez elősegítheti a hatékonyabb védekezési mechanizmusok kidolgozását is. Kiemelik, hogy a védekezés kulcsa a mérgezett minták felismerése és kezelése már a tanítási folyamat korai szakaszában, függetlenül a modell méretétől.

A kutatás további irányai között szerepel a nagyobb, komplexebb modellek vizsgálata, valamint a mérgezett adatok befolyásának tanulmányozása a finomhangolás során.

Összegzés

Ez a legnagyobb eddigi adatmérgezési vizsgálat, amely rávilágított arra, hogy a nagy nyelvi modellek sebezhetőségét nem a mérgezett adatok aránya, hanem azok abszolút száma határozza meg. Mindössze 250 rosszindulatú dokumentum elegendő ahhoz, hogy bármelyik, 600 millió és 13 milliárd paraméter közötti modellt hátsóajtóval fertőzzenek meg.

Ez a felfedezés jelentős kihívásokat támaszt a mesterséges intelligencia biztonsága és megbízhatósága előtt, ugyanakkor fontos lépés a potenciális támadások jobb megértése és ellensúlyozása felé. A kutatók továbbra is ösztönzik a közösséget, hogy mélyebben foglalkozzanak az adatmérgezés témájával és dolgozzanak ki hatékonyabb védelmi stratégiákat.

Forrás: Alexandra Souly és munkatársai, UK AI Security Institute, Alan Turing Institute, Anthropic (2025).
Teljes tanulmány elérhető az eredeti publikációban.

Forrás: az eredeti angol cikk itt olvasható