Ha valaki közzétett valamit az interneten, akkor igencsak valószínű, hogy adatait már vizsgálták, összegyűjtötték és felhasználták olyan mesterséges intelligencia rendszerek betanításához, mint a ChatGPT, a Midjourney és a Sora. A mesterséges intelligencia célja egy átfogó, mindenre kiterjedő rendszer létrehozása. Az OpenAI szerint egy ilyen modell kialakításához globális, „internetes méretű” adatokra van szükség.
Problémák és megállapodások
A nyilvános adatok gyűjtése problémákhoz vezethet. Számos esetben a létrehozók engedélye nélkül használnak fel adatokat AI-eszközök formálására. Bizonyos cégek például nyilvános adatokat alkalmaztak, hogy megtanítsák az AI-eszközöket cikkeket és egyéb kreatív projekteket generálni.
Szerzők és alkotók felháborodottan perlik a műveiket jogtalanul felhasználó cégeket. A New York Times beperelte az OpenAI-t, amiért állítólag engedély nélkül használta archívumát chatbotok képzésére. A Getty Images pedig beperelte a Stable Diffusion-t szerzői jogok megsértése miatt.
Vannak olyan cégek is, akik úgy döntöttek, hogy egyezséget kötnek. Példaként az Associated Press az OpenAI számára archívumainak egy részét engedélyezte. Másik példa a Shutterstock, mely hat évre szóló szerződést írt alá az OpenAI-val. A megkötött szerződés lehetővé teszi a fotó-, videó- és zenei adatbázisaihoz való hozzáférést.
Általánosságban elmondható, hogy a mesterséges intelligenciát fejlesztők célja minél több adatot gyűjteni a lehető legkevesebb felhajtással. Legegyszerűbb a különböző posztokat, fiókokat és kommenteket forrásként használni. Ebből következik, hogy bárki, aki online posztol, lényegesen hozzájárulhat a mesterséges intelligenciák fejlesztéséhez.
Habár a Tumblr jelentősége csökkent az elmúlt időszakban, még mindig nagyon fontos platform a rajongói tartalmak tekintetében, beleértve a fanfiction-t és a fan art-ot.
Az Automattic, a Tumblr és a WordPress anyavállalata arra készül, hogy felhasználói adatokat adjon el az OpenAI és a Midjourney számára.Ezek az adatok nagy valószínűséggel tartalmazhatnak Tumblr-en és WordPress.com-on megosztott felhasználói bejegyzéseket. Ennek ellenére a felhasználók nem kötelesek saját tartalmaikat teljes mértékben szolgáltatni, leiratkozhatnak a harmadik felekkel való megosztásról.
A Tumblr kifejezte, hogy a felhasználók védelmét fontosnak tartja, így visszatartják az illetéktelen tartalomgyűjtőket. Kizárólag a vele partnerkapcsolatban lévő cégek számára biztosít adatokat. Az Automattic közvetlenül együttműködik bizonyos mesterséges intelligencia-cégekkel mindaddig, amíg terveik összhangban vannak a közösség érdekeivel.
A Reddit terjedelmes bejegyzés-archívuma önkéntesek munkájának köszönhető. Az ingyen dolgozó subreddit moderátorok felügyelik a felhasználók közösségeit, munkájukon sokat profitál a platform. Ezen kívül a Reddit megállapodást kötött a Google-lal. A megállapodás által a Google elérheti a Reddit tartalmait a mesterséges intelligencia-modelljeinek képzéséhez, évi 60 millió dollárért cserébe.
Természetesen rengeteg más platform is alapjául szolgál a mesterséges-intelligencia modelleknek, például a Facebook és Instagram nyilvános bejegyzéseket használ mesterséges intelligencia képzésére.
Forráscikk: A. W. Ohlheiser: A poster's guide to who's selling your data to train AI
Nincsenek megjegyzések:
Megjegyzés küldése