28/04/2025
Texte, audio et vision, le nouveau modèle phare d'OpenAI, baptisé « GPT-4o », possède d'étonnantes capacités. Elles vont, à coup sûr, porter plus loin encore l'intelligence artificielle pour nous assister dans certaines de nos tâches du quotidien. GPT-4o a à peine été présenté qu'il pourrait presque s'affirmer comme la nouvelle référence des outils d'interaction homme-machine. À la découverte de ce que le modèle de la firme californienne OpenAI peut faire, on pourrait aisément lâcher un « amazing » dont les Américains ont le secret. De toutes les – folles – capacités de GPT-4o, annoncé le lundi 13 mai 2024, nous avons décidé d'en sélectionner six. Préparez-vous à être étonné(e). GPT-4o est un traducteur hors pair GPT-4o possède d'incroyables capacités. S'il peut vous lire et réagir à la voix pour lui-même répondre à vos requêtes à voix haute, le modèle voit aussi ce que vous lui montrez, avec la caméra avant de votre smartphone par exemple, pour interagir avec vous, décrire une situation et adapter sa réponse. Imaginez les possibilités… Le nouveau GPT-4o peut-il envoyer Google Traduction aux oubliettes ? Si l'on se fie à la démonstration d'OpenAI, vous avez déjà la réponse. Le modèle peut donc opérer une traduction en temps réel entre deux personnes qui ne parlent pas la même langue. Dans la vidéo que vous verrez juste un peu plus bas, vous remarquerez le temps de réaction de l'intelligence artificielle et sa précision. L'outil est plus que prometteur. Une IA qui chante et vous souhaite un joyeux anniversaire Vous l'avez vu, GPT-4o peut chanter, par exemple pour vous souhaiter un heureux anniversaire. Et en vous munissant de deux smartphones et donc d'autant de « GPT-4o » actifs, vous pouvez carrément faire interagir les deux intelligences artificielles entre elles, et les faire chanter, en guidant leur rythme et leur intonation. Et si vous rêvez d'une berceuse, GPT-4o pourrait aussi vous en murmurer une. Comme pour ses autres capacités, vous pouvez évidemment interagir avec le modèle, en temps réel, pour par notamment lui demander de baisser le volume, d'aller plus ou moins vite, ou d'adapter la version entonnée. GPT-4o anime des réunions avec talent Ce n'est peut-être pas, sur le papier, la plus impressionnante de ses capacités, mais rendez-vous compte. GPT-4o serait ici capable d'animer une réunion en vidéoconférence, comme un véritable modérateur humain qui distribue la parole et réagit à ce que disent les participants. GPT-4o peut aussi réagir à vos « blagues de papa » et vous féliciter pour votre paternité lorsque vous lui dites, en guise d'introduction, que vous allez bientôt être père. Avant de poursuivre, précisons une chose : il s'agit ici de vidéos d'annonce, fournies par OpenAI. GPT-4o ne sera pas accessible au grand public avant plusieurs semaines ou mois, et sera d'abord largement éprouvé par des « testeurs de confiance ». Mais si la version finale se rapproche de ce que nous voyons ici, oui, nous pourrons alors dire que nous sommes à l'aube d'une révolution. Mais continuons avec une dernière capacité improbable de GPT-4o. Le modèle explore la vidéo pour servir de guide audio Le modèle GPT-4o pourrait s'avérer être un formidable outil d'accessibilité, pour les personnes souffrant d'un handicap visuel, par exemple. Encore une fois, grâce à la vidéo, on peut voir un homme, aveugle, se tenant devant le Palais de Buckingham (Londres), demander à l'application de lui expliquer ce qui se trouve devant ses yeux. Grâce à la caméra du smartphone, le visiteur se laisse guider. La caméra du téléphone peut d'ailleurs être utilisée pour d'autres fonctionnalités, comme celle qui consiste à demander comment se dit dans telle ou telle langue le ou les objets captées par la caméra. GPT-4o, qui promet un temps de réponse en millisecondes similaire au temps de réponse humain durant une conversation, a tout d'un modèle impressionnant qui pourrait ouvrir le champ des possibles.
ChatGPT
Chat dans différentes langues, dont le français Générer, traduire et obtenir un résumé de texte Générer, optimiser et corriger du code
Midjourney
Droits commerciaux inclus dans tous les forfaits payants Pertinence dans la compréhension des prompts Tarifs accessibles
Google Gemini (Google Bard)
Un modèle de génération puissant Une base de connaissances actualisée en temps réel Gratuit et intégré à l'écosystème Google
Alexandre Boero Chargé de l'actualité de Clubic Chargé de l'actualité de Clubic Journaliste, chargé de l'actualité de Clubic. Reporter, vidéaste, animateur et même imitateur-chanteur, j'ai écrit mon premier article en 6ème. J'ai fait de cette vocation mon métier (diplômé de l'EJC… Lire d'autres articles Journaliste, chargé de l'actualité de Clubic. Reporter, vidéaste, animateur et même imitateur-chanteur, j'ai écrit mon premier article en 6ème. J'ai fait de cette vocation mon métier (diplômé de l'EJCAM, école reconnue par la profession), pour écrire, interviewer, filmer, monter et produire du contenu écrit, audio ou vidéo au quotidien. Quelques atomes crochus avec la Tech, certes, mais aussi avec l'univers des médias, du sport et du voyage. Outre le journalisme, la production vidéo et l'animation, je possède une chaîne YouTube (à mon nom) qui devrait piquer votre curiosité si vous aimez les belles balades à travers le monde, les nouvelles technologies et la musique :) Lire d'autres articles <a href=“https://www.clubic.com/actualite-526743-gpt-4o-decouvrez-6-choses-incroyables-que-la-nouvelle-intelligence-artificielle-d-openai-est-capable-de-faire.html”>clubic</a>