keresés

2024. március 11., hétfő

Felhasználói adatok a mesterséges intelligencia szolgálatában

Ha valaki közzétett valamit az interneten, akkor igencsak valószínű, hogy adatait már vizsgálták, összegyűjtötték és felhasználták olyan mesterséges intelligencia rendszerek betanításához, mint a ChatGPT, a Midjourney és a Sora. A mesterséges intelligencia célja egy átfogó, mindenre kiterjedő rendszer létrehozása. Az OpenAI szerint egy ilyen modell kialakításához globális, „internetes méretű” adatokra van szükség.


Problémák és megállapodások


A nyilvános adatok gyűjtése problémákhoz vezethet. Számos esetben a létrehozók engedélye nélkül használnak fel adatokat AI-eszközök formálására. Bizonyos cégek például nyilvános adatokat alkalmaztak, hogy megtanítsák az AI-eszközöket cikkeket és egyéb kreatív projekteket generálni.

Szerzők és alkotók felháborodottan perlik a műveiket jogtalanul felhasználó cégeket. A New York Times beperelte az OpenAI-t, amiért állítólag engedély nélkül használta archívumát chatbotok képzésére. A Getty Images pedig beperelte a Stable Diffusion-t szerzői jogok megsértése miatt.

Vannak olyan cégek is, akik úgy döntöttek, hogy egyezséget kötnek. Példaként az Associated Press az OpenAI számára archívumainak egy részét engedélyezte. Másik példa a Shutterstock, mely hat évre szóló szerződést írt alá az OpenAI-val. A megkötött szerződés lehetővé teszi a fotó-, videó- ​​és zenei adatbázisaihoz való hozzáférést.

Általánosságban elmondható, hogy a mesterséges intelligenciát fejlesztők célja minél több adatot gyűjteni a lehető legkevesebb felhajtással. Legegyszerűbb a különböző posztokat, fiókokat és kommenteket forrásként használni. Ebből következik, hogy bárki, aki online posztol, lényegesen hozzájárulhat a mesterséges intelligenciák fejlesztéséhez.

 


Tumblr, Reddit és társai

 

Habár a Tumblr jelentősége csökkent az elmúlt időszakban, még mindig nagyon fontos platform a rajongói tartalmak tekintetében, beleértve a fanfiction-t és a fan art-ot.

Az Automattic, a Tumblr és a WordPress anyavállalata arra készül, hogy felhasználói adatokat adjon el az OpenAI és a Midjourney számára.Ezek az adatok nagy valószínűséggel tartalmazhatnak Tumblr-en és WordPress.com-on megosztott felhasználói bejegyzéseket. Ennek ellenére a felhasználók nem kötelesek saját tartalmaikat teljes mértékben szolgáltatni, leiratkozhatnak a harmadik felekkel való megosztásról.

A Tumblr kifejezte, hogy a felhasználók védelmét fontosnak tartja, így visszatartják az illetéktelen tartalomgyűjtőket. Kizárólag a vele partnerkapcsolatban lévő cégek számára biztosít adatokat. Az Automattic közvetlenül együttműködik bizonyos mesterséges intelligencia-cégekkel mindaddig, amíg terveik összhangban vannak a közösség érdekeivel.


A Reddit terjedelmes bejegyzés-archívuma önkéntesek munkájának köszönhető. Az ingyen dolgozó subreddit moderátorok felügyelik a felhasználók közösségeit, munkájukon sokat profitál a platform. Ezen kívül a Reddit megállapodást kötött a Google-lal. A megállapodás által a Google elérheti a Reddit tartalmait a mesterséges intelligencia-modelljeinek képzéséhez, évi 60 millió dollárért cserébe.

Természetesen rengeteg más platform is alapjául szolgál a mesterséges-intelligencia modelleknek, például a Facebook és Instagram nyilvános bejegyzéseket használ mesterséges intelligencia képzésére.

 

Forráscikk: A. W. Ohlheiser: A poster's guide to who's selling your data to train AI 




Nincsenek megjegyzések:

Megjegyzés küldése