Nouveautés + tendances

Un chatbot qui rit, plaisante et chante : Open AI présente GPT-4o

Debora Pape
14/5/2024
Traduction : traduction automatique

Le nouveau modèle d'IA d'Open AI est conçu pour être un compagnon personnel d'IA. Grâce à l'appareil photo du smartphone, le logiciel interprète l'environnement et peut réagir en conséquence.

Open AI a présenté lundi soir son nouveau modèle de langage GPT-4o. Dans le live stream, trois membres du personnel ont fait la démonstration de plusieurs fonctionnalités du modèle.

GPT-4o s'appuie sur les capacités du modèle d'IA actuel GPT-4, mais tente désormais de reconnaître et d'exprimer les émotions. Elle réagit à l'environnement à l'aide de la vidéo et de l'audio. L'IA devrait ainsi être en mesure d'engager des conversations approfondies. Elle aurait également amélioré ses temps de réaction. Ainsi, selon Open AI, les conversations semblent plus naturelles.

Aide à l'apprentissage, traduction en temps réel et assistance personnelle

Dans cette vidéo, vous pouvez voir comment deux IA interagissent sur la base d'instructions humaines :

Ici, Open AI présente comment GPT-4o peut aider un élève à apprendre les mathématiques :

Un modèle d'IA pour tous les processus

Il était déjà possible de parler avec ChatGPT. Pour cela, trois modèles d'IA différents étaient nécessaires. Open AI décrit ainsi le processus sur le site web de l'entreprise : Un modèle vocal convertissait le langage parlé en texte et le fournissait à GPT, le véritable cerveau de l'IA. La réponse de GPT sous forme de texte était reproduite sous forme de parole par un autre modèle de langage.

Comme GPT ne disposait que du texte pur, de nombreuses informations ont été perdues lors du traitement : l'IA ne pouvait pas reconnaître la tonalité ou le bruit de fond de la locutrice, ni savoir si différents locuteurs étaient impliqués. Inversement, GPT ne pouvait pas exprimer d'émotions, rire ou même chanter à travers le porte-voix d'un modèle text-to-speech.

La grande nouveauté de GPT-4o est qu'un seul modèle d'IA prend en charge toutes les tâches. Il peut traiter, interpréter et réagir à des entrées multimodales, c'est-à-dire la parole, le texte, les images et l'audio.

Pour l'instant, disponible pour quelques-uns seulement

Pour le moment, GPT-4o n'est pas encore disponible pour le grand public. Dans un premier temps, selon le site web d'Open-AI, un "petit groupe de partenaires fiables" devrait avoir accès aux nouvelles capacités audio et vidéo de l'IA. A moyen terme, les utilisateurs disposant d'un compte GPT gratuit devraient également pouvoir utiliser GPT-4o, mais avec des performances limitées par rapport au compte Plus.

Pour les développeurs, il devrait y avoir des ajustements au niveau des prix : Open AI indique que GPT-4o sera deux fois plus rapide et deux fois moins cher que le modèle phare précédent, "GPT-4 Turbo".

Cet article plaît à 38 personne(s)


User Avatar
User Avatar

Aussi à l'aise devant un PC gaming que dans un hamac au fond du jardin. Aime l'Empire romain, les porte-conteneurs et les livres de science-fiction. Traque surtout les news dans le domaine de l'informatique et des objets connectés.


Robotique
Suivez les thèmes et restez informé dans les domaines qui vous intéressent.

Tech
Suivez les thèmes et restez informé dans les domaines qui vous intéressent.

Nouveautés + tendances

Du nouvel iPhone à la résurrection de la mode des années 80. La rédaction fait le tri.

Tout afficher