A Meta új (nem GPT-klón) nyelvi modelljét, a Massively Multilingual Speechet a kutatók az Újszövetség különböző fordításaival tanították be. A modell több ezer beszélt nyelvet képes beszédből felismerni, illetve több mint ezer nyelven képes írott szöveg felolvasására.
Új nagyságrend a nyelvek számában
A beszédfelismerő (speech-to-text) modellek jelenleg kb. száz nyelven hangzó szöveg érdemi leírására képesek, a világon beszélt közel hétezerből. A Meta úgy lépte át ezt a mértéket, hogy ellentétben a megszokott, jól felcimkézett (leiratokkal ellátott) hangadatok helyett az általuk fejlesztett modellek tisztán hanganyagokból is képesek „megtanulni” a beszédmintázatokat.
A modell betanításához az Újszövetség több mint 1100 cimkézett fordításának hangfelvételét, illetve közel 4000 nyelven hozzáférhető strukturálatlan hanganyagot használtak fel. Ennek legfőbb oka, hogy a közismert nyelvekkel ellentétben általában nem állnak rendelkezésre megfelelően felcimkézett anyagok, és előállításuk is nehézkes, hiszen nagyon kevesen beszélik azokat.
Betanított előítélet?
A Meta állítása szerint a modellt nem torzítja sem az, hogy vallásos forrásszöveget használtak, sem az, hogy a legtöbb esetben a forrás férfi hang. Az OpenAI Whisper névre hallgató beszédfelismerő szoftveréhez képest becsléseik szerint 7 ezrelékkel több az előítéletes és elfogult kifejezés, viszont 11-szer több nyelven ért, és feleannyit hibázik.
Ezzel szemben Chris Emezue, a Masakhane afrikai természetesnyelv-feldolgozással foglalkozó kutatója szerint „a vallási szövegek használata eléggé megosztó, a Biblia ugyanis meglehetősen sok előítéletet és tévedést tartalmaz”.
Forrás: Több mint ezer nyelvet képesek felismerni és reprodukálni a Meta Újszövetségen tanított algoritmusai
Nincsenek megjegyzések:
Megjegyzés küldése