Facebook passe à la vitesse supérieure avec une mise à jour de son système de traduction automatique. Une bonne nouvelle pour améliorer la communication entre les utilisateurs du monde entier, ou pour faire évoluer sa stratégie web sur les réseaux sociaux… La nouvelle fonctionnalité est basée sur le modèle de traduction automatique multilingue “M2M-100” de Facebook. Elle peut traduire 100 langues sans se baser sur des données en anglais.
Comment fonctionne cette nouvelle traduction ?
Le nouveau modèle de Facebook, en revanche, traduit les données directement du chinois vers le français pour mieux en préserver le sens. En supprimant l’étape initiale de la première traduction anglaise, le nouveau système de Facebook est mieux à même de préserver le sens original du texte, ce qui contribuera à maximiser la communication entre les utilisateurs de Facebook. Pour former le modèle MMT, Facebook a dû maintenir des combinaisons de phrases de qualité dans plusieurs langues, sans utiliser l’anglais. Il y a plus de traductions en anglais que de traductions directes entre les langues. Le géant Américain, a créé un ensemble de 7,5 milliards de paires de phrases dans 100 langues. Ensuite, Facebook a préféré retirer les combinaisons de traduction rare afin d’éviter des problèmes de traduction classique et rendre celle-ci plus simple à traduire, et plus proche de ce que l’on dit réellement.Environ 15 milliards de paramètres pris en compte pour ce système
Actuellement, la plupart des modèles multilingues instantanés s’appuient sur des données anglaises pour leurs traductions. Pour passer du chinois au français, par exemple, la plupart des outils feront d’abord un chemin du chinois à l’anglais avant de passer de l’anglais au français. Ce processus laisse souvent la place à des traductions risquées. Le département de recherche en intelligence artificielle de Facebook s’efforce de changer cela avec M2M-100, un modèle de traduction multilingue qui peut traduire 100 langues entre elles, et qui passe directement d’une langue à l’autre sans dépendre de l’anglais. Les traductions qui en résultent sont donc beaucoup plus précises et correctes que celles générées par les modèles connus jusqu’à présent. Pour parvenir à ce résultat, les scientifiques en charge du projet ont passé plusieurs années à rassembler 7,5 milliards de phrases traduites dans différentes langues pour former leur modèle, qui comprend aujourd’hui 15 milliards de paramètres. Un travail long et fastidieux qui a commencé par l’utilisation de CommonCrawl (ccAligned, ccMatrix) pour collecter des échantillons de textes sur le web. FastText, un système de classification des textes que Facebook a développé il y a quelques années, a ensuite permis d’identifier les langues dans lesquelles les textes étaient écrits.Enfin, le protocole d’extraction LASER a permis de localiser automatiquement les phrases traduites dans différentes langues.