
Googles Lyra : un nouveau codec permet une bonne qualité sonore avec 3 kbit/s

Google présente Lyra, un codec vocal qui offre une bonne qualité pour une consommation de données extrêmement faible. Lyra parvient à faire redonner une voix de manière claire, intelligible et naturelle, même avec seulement 3 kbit/s.
Si Lyra, le nouveau codec vocal de Google, était apparu en même temps que le codec vidéo AV1 à la fin des années 1990, un modem 56k aurait suffi pour une visiophonie sereine avec des personnes lambda. Mais ça ne signifie pas que Lyra est inutile aujourd'hui. Bien au contraire. Comme tout le monde n'a pas la chance de bénéficier de la vitesse de l'Internet suisse, Lyra va changer de nombreuses choses.
Sur le plan technique, pour améliorer la qualité des appels vidéo et des appels vocaux, des réseaux backhaul plus puissants et de nouvelles technologies radio pourraient aider. Ou encore de nouveaux codecs audio qui, même à des débits de données minimaux de seulement trois kilobits par seconde, permettent d'obtenir une voix claire qui ne sonne pas comme un robot. C'est exactement ce que permet Lyra, le nouveau codec Google, qui peut contribuer à réduire l'encombrement du réseau.
Lyra n'est pas une forme de compression audio comme les codecs utilisés pour la musique. Mais il se pourrait qu'un jour, Lyra puisse être capable de transmettre autre chose que la voix. En effet, Google est prêt à étudier comment leur nouvelle technologie pourrait être utilisée comme codec audio polyvalent à faible débit binaire.
Voilà comment fonctionne Lyra : reconstruire la parole avec un minimum de données
Comment Google peut-il garantir une bonne qualité vocale avec un débit de données aussi faible ? La réponse, comme c'est souvent le cas dans l'industrie technologique, est une arme familière et polyvalente : l'intelligence artificielle.
L'IA est essentiellement alimentée par des données provenant de plus de 70 langues différentes, issues de bibliothèques audio open source. Les échantillons de parole servent de base à l'IA et sont appliqués à divers modèles, qui conduisent ou pourraient conduire à de nouvelles méthodes de compression. En bref, des milliers d'heures d'entraînement ont rendu possible la réalisation de Lyra. À ce stade, il convient de noter que Google n'a pas eu à réinventer la roue. Les méthodes appliquées sont basées sur des modèles génératifs, qui sont déjà utilisés dans WaveNet de DeepMind.
Pour faire court, Google utilise les techniques traditionnelles de codage et les améliore grâce à de nouvelles méthodes d'apprentissage automatique.
Les employés de Google Alejandro Luebs (ingénieur logiciel) et Jamieson Brettle (chef de produit Chrome) écrivent :
« L'architecture de base du codec Lyra est assez simple. Toutes les 40 millisecondes, les caractéristiques de la parole sont extraites, puis compressées pour la transmission. Les caractéristiques sont des spectrogrammes log Mel, une liste de chiffres représentant la parole dans différentes bandes de fréquence. Elles sont traditionnellement utilisées pour leur pertinence au niveau de la perception et sont modelées sur la réponse auditive humaine. À l'autre extrémité, un modèle génératif utilise ces caractéristiques pour reproduire le signal vocal. En ce sens, Lyra est très similaire à d'autres codecs paramétriques traditionnels, comme MELP. »
Pour pouvoir coder et décoder Lyra, un serveur cloud n'est pas forcément nécessaire. Un smartphone actuel de milieu de gamme devrait être suffisamment puissant pour faire fonctionner le codec vocal en temps réel sur l'appareil. Le traitement des données aurait une latence d'environ 90 millisecondes, ce qui se situe également dans la fourchette des autres codecs vocaux.
La qualité de Lyra en comparaison
Lyra n'est pas le premier codec à offrir une bonne qualité à de faibles débits de données. À titre de comparaison, Google cite Opus, actuellement le codec le plus utilisé dans les applications VOIP basées sur WebRTC. Le codec open source parvient à offrir une qualité audio indiscernable de l'original avec 32 kbit/s. Avec son débit binaire le plus faible possible de 6 kbit/s, il présente une qualité inférieure à celle de Lyra avec 3 kbit/s. D'autres codecs existants, comme MELP, AMR ou Speex, peuvent diffuser des flux à seulement 3 kbit/s, mais leur son est bien moins bon. Ils sonnent moins naturels et parfois même comme une voix de robot.
Si vous souhaitez écouter comment sonne Lyra, vous pouvez vous rendre sur le Google AI Blog.


Le baiser quotidien de la muse stimule ma créativité. Si elle m’oublie, j’essaie de retrouver ma créativité en rêvant pour faire en sorte que mes rêves dévorent ma vie afin que la vie ne dévore mes rêves.