Shutterstock / TierneyMJ
Novità e trend

Come insegnare a un'intelligenza artificiale 200 lingue

Spektrum der Wissenschaft
12.6.2024
Traduzione: tradotto automaticamente

Il programma di traduzione NLLB di Meta è in grado di gestire oltre 200 lingue, un numero decisamente superiore a quello di DeepL o di Google Translate. I ricercatori spiegano ora come ciò sia stato possibile.

Se vuoi tradurre da una lingua all'altra, non devi più affidarti a noiose traduzioni parola per parola. I programmi di traduzione assistita come DeepL o Google Translate sono in grado di tradurre intere sezioni di testo da una lingua all'altra in pochissimo tempo, a patto che la lingua in questione sia una di quelle ampiamente parlate nel Nord del mondo, come l'inglese, il francese o il tedesco. Tuttavia, se vuoi tradurre la lingua bantu Luganda, molto diffusa nel sud dell'Uganda, di solito incontrerai dei problemi. Poiché esiste solo una piccola quantità di contenuti digitali in questa lingua, è molto difficile addestrare un'intelligenza artificiale. Ma nel 2022 Meta ha rilasciato il programma di traduzione open-source NLLB (no language left behind), che può gestire 204 lingue, tra cui 150 lingue povere di risorse come il Luganda. Il 5 giugno 2024, il team di Meta ha spiegato sulla rivista scientifica "Nature" come è stato possibile realizzare questo colpo di genio.

Oltre all'assenza di traduzione, il programma è in grado di gestire 204 lingue, tra cui 150 lingue povere di risorse come il Luganda.

Oltre alla mancanza di fonti testuali per le lingue povere di risorse, c'è un'altra grande difficoltà nel creare un programma di traduzione AI completo. Se si addestrano tali algoritmi sul maggior numero possibile di lingue, la qualità complessiva di solito ne risente. Un programma che altrimenti è molto bravo a tradurre tra il tedesco e l'inglese, ad esempio, può trovare il compito molto più difficile se deve padroneggiare altre 40 lingue. Per evitare questa perdita di prestazioni, di solito i modelli devono essere ampliati, il che però comporta uno sforzo di addestramento significativamente maggiore e tempi di esecuzione più lunghi.

Per evitare questa "maledizione" delle prestazioni, i modelli devono essere ingranditi.

Per evitare questa "maledizione del multilinguismo", il team di Meta ha suddiviso il modello linguistico NLLB in tanti piccoli modelli AI, ognuno dei quali è particolarmente bravo in un compito. Ad esempio, un modello si occupa delle lingue Benue-Congo, comuni nell'Africa subsahariana, mentre un altro modello si concentra sulle lingue con una scrittura simile. Un altro modello potrebbe anche essere specializzato in idiomi. L'uso di questi modelli AI separati permette di evitare perdite di qualità dovute a un numero elevato di lingue.

Un set di dati completo

Una delle componenti più importanti del modello NLLB, tuttavia, è il set di dati: "Flores-200" è accessibile a tutti e comprende 204 lingue diverse. Il modello linguistico è stato addestrato con tre diversi tipi di dati. In primo luogo, i ricercatori hanno raccolto testi accessibili pubblicamente da internet, oltre a 6000 frasi di esempio selezionate in 39 lingue con pochissime risorse. Inoltre, hanno utilizzato alcune frasi con le relative traduzioni disponibili negli archivi web. Utilizzando questi dati, hanno potuto addestrare un algoritmo per assegnare coordinate ad alta dimensionalità a frasi con significati simili in lingue diverse (come "mi piace la scienza", "mi piace la scienza" e "j'aime la science") che sono vicine tra loro. In questo modo, gli esperti sono stati in grado di generare coppie di frasi con lo stesso significato in lingue diverse per addestrare il loro grande modello di intelligenza artificiale.

Il programma di traduzione della NLLB è in uso da due anni. "Fornisce traduzioni di qualità ragionevole in diverse lingue a bassa risorsa", scrive l'informatico David I. Adelani dell'University College di Londra, che non fa parte del team Meta, in un articolo pubblicato su "Nature". "Tuttavia, la qualità di queste traduzioni è ancora significativamente peggiore rispetto a quella di lingue con molte risorse", come il tedesco o il francese. Per cambiare questa situazione, i futuri modelli linguistici potrebbero utilizzare la grammatica e i dizionari per migliorare la comprensione del linguaggio, come suggeriscono gli studi pubblicati nel marzo 2024. Tuttavia, probabilmente passerà molto tempo prima che un programma di traduzione padroneggi tutte le 7.000 lingue esistenti.

Spettro della scienza

Siamo partner di Spektrum der Wissenschaft e vogliamo rendere le informazioni fondate più accessibili a te. Segui Spektrum der Wissenschaft se ti piacciono gli articoli.

articolo originale su Spektrum.de
Immagine di copertina: Shutterstock / TierneyMJ

A 9 persone piace questo articolo


User Avatar
User Avatar

Gli esperti della scienza e della ricerca riferiscono sulle ultime scoperte nei loro campi – competenti, autentiche e comprensibili.


Informatica
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Commenti

Avatar