inapló szemle: Az OpenAI új érvelési MI-modelljei egyre többet hallucinálnak

2025. április 29., kedd

Az OpenAI új érvelési MI-modelljei egyre többet hallucinálnak

Az OpenAI legújabb MI-modelljeit, az o3-at és az o4-minit, a mesterséges intelligencia következő nagy ugrásaként reklámozza – különösen az érvelés és az összetett feladatok kezelése terén. De ahogy a TechCrunch is beszámol róla, van egy meglepő csavar: ezek az új modellek valójában rosszabbul ragaszkodnak a tényekhez, mint elődeik. Más szóval, gyakrabban „hallucinálnak” – kitalálnak információkat –, nem kevesebbszer.

A tények

Az OpenAI saját tesztjei azt mutatják, hogy az o3 modell a PersonQA nevű benchmark kérdéseinek 33%-ában hallucinált, ami körülbelül kétszer olyan gyakran, mint az előző modellek. Az o4-mini még hajlamosabb volt a válaszok kitalálására, az esetek közel felében hallucinált. És nem csak az OpenAI saját adatairól van szó – külső kutatók is ugyanezt látták, a modellek néha olyan műveleteket találtak ki, amelyeket állítólag végrehajtottak, például kódot futtattak egy olyan számítógépen, amelyhez valójában nincs hozzáférésük.

Mi történik?

A TechCrunch cikke világossá teszi, hogy még az OpenAI sem teljesen biztos a dologban. A cég elismeri, hogy nem teljesen érti, miért sokkal valószínűbb, hogy ezek az új, állítólagosan okosabb modellek kitalálnak dolgokat. Ez kicsit olyan, mintha egy okosabb robotot építenénk, csak hogy aztán kiderüljön, hogy az egyben jobb hazudozó is – néha teljes magabiztossággal.

Kompromisszumok

A cikk jól elmagyarázza a kompromisszumot: ezek az új modellek határozottabbak és kreatívabbak, ami azt jelenti, hogy hasznosabb és érdekesebb válaszokat tudnak generálni. Ugyanez a kreativitás azonban visszaüthet, és arra késztetheti őket, hogy kitalált tényekkel vagy hihetőnek hangzó ostobaságokkal töltsék ki a hiányosságokat. Egyes felhasználók – például programozók vagy új ötletekkel kísérletezők – számára ez a kreativitás megérheti a kockázatot. De bárki számára, aki a mesterséges intelligenciára támaszkodik a pontos információkért, például ügyvédek, orvosok vagy kutatók, ez komoly probléma.

A TechCrunch azt is megjegyzi, hogy az OpenAI megpróbálja megoldani a problémát. Az egyik ígéretes megközelítés az, hogy a mesterséges intelligencia valós idejű információkat kér le az internetről (mint a GPT-4o esetében), ami úgy tűnik, segít a tények helyességében. De egyelőre a hallucinációk még mindig komoly fejfájást okoznak, különösen mivel az iparág olyan modellek felé törekszik, amelyek állítólag jobbak az „érvelésben”.

Ami igazán kiemelkedik a cikkben, az az, hogy az OpenAI mennyire nyíltan kezeli a problémát. Nem tettetik, hogy ezek a modellek tökéletesek, és elismerik, hogy még sok munka van hátra. Ez az őszinteség üdítő – de azt is jelenti, hogy a felhasználóknak óvatosnak kell lenniük. A lényeg? Ezek az új MI-modellek erőteljesek és izgalmasak, de kiszámíthatatlanok is. Ha valami fontosra használjuk őket, jobb, ha kétszer is ellenőrizzük a válaszaikat – mert néha csak kitalálják az egészet.

Következtetés

Röviden, a TechCrunch cikke emlékeztet arra, hogy a MI fejlődése nem mindig egyenes vonalú. Néha, az okosabb, hasznosabb gépek létrehozásáért folytatott versenyben olyan rendszerekkel találkozunk, amelyek egy kicsit túl kreatívak a saját érdekükben. És egyelőre ez azt jelenti, hogy továbbra is szükség van egy egészséges adag szkepticizmusra, amikor a barátságos környékbeli chatbottal beszélgetünk.

Forrás: OpenAI’s new reasoning AI models hallucinate more

inapló szemle

keresés

2025. április 29., kedd

Az OpenAI új érvelési MI-modelljei egyre többet hallucinálnak

A tények

Mi történik?

Kompromisszumok

Következtetés

Nincsenek megjegyzések:

Megjegyzés küldése

Összes oldalmegjelenítés

keresés

2025. április 29., kedd

Az OpenAI új érvelési MI-modelljei egyre többet hallucinálnak

A tények

Mi történik?

Kompromisszumok

Következtetés

Nincsenek megjegyzések:

Megjegyzés küldése

Follow

Összes oldalmegjelenítés