keresés

2023. május 24., szerda

Új szövetséges a nyelvfelismerésben


 A Meta új (nem GPT-klón) nyelvi modelljét, a Massively Multilingual Speechet a kutatók az Újszövetség különböző fordításaival tanították be. A modell több ezer beszélt nyelvet képes beszédből felismerni, illetve több mint ezer nyelven képes írott szöveg felolvasására.

Új nagyságrend a nyelvek számában

A beszédfelismerő (speech-to-text) modellek jelenleg kb. száz nyelven hangzó szöveg érdemi leírására képesek, a világon beszélt közel hétezerből. A Meta úgy lépte át ezt a mértéket, hogy ellentétben a megszokott, jól felcimkézett (leiratokkal ellátott) hangadatok helyett az általuk fejlesztett modellek tisztán hanganyagokból is képesek „megtanulni” a beszédmintázatokat.

A modell betanításához az Újszövetség több mint 1100 cimkézett fordításának hangfelvételét, illetve közel 4000 nyelven hozzáférhető strukturálatlan hanganyagot használtak fel. Ennek legfőbb oka, hogy a közismert nyelvekkel ellentétben általában nem állnak rendelkezésre megfelelően felcimkézett anyagok, és előállításuk is nehézkes, hiszen nagyon kevesen beszélik azokat.

Betanított előítélet?

A Meta állítása szerint a modellt nem torzítja sem az, hogy vallásos forrásszöveget használtak, sem az, hogy a legtöbb esetben a forrás férfi hang. Az OpenAI Whisper névre hallgató beszédfelismerő szoftveréhez képest becsléseik szerint 7 ezrelékkel több az előítéletes és elfogult kifejezés, viszont 11-szer több nyelven ért, és feleannyit hibázik.

Ezzel szemben Chris Emezue, a Masakhane afrikai természetesnyelv-feldolgozással foglalkozó kutatója szerint „a vallási szövegek használata eléggé megosztó, a Biblia ugyanis meglehetősen sok előítéletet és tévedést tartalmaz”.

Forrás: Több mint ezer nyelvet képesek felismerni és reprodukálni a Meta Újszövetségen tanított algoritmusai



Nincsenek megjegyzések:

Megjegyzés küldése