ERNIE 4.5 : Le nouveau modèle multimodal de Baidu qui rivalise avec ChatGPT

Montrer l’index Cacher l’index

La bataille de l’intelligence artificielle s’intensifie avec le lancement d’ERNIE 4.5, le dernier né de Baidu. Doté de 424 milliards de paramètres et d’une multimodalité native, ce modèle se positionne comme un concurrent sérieux face à ChatGPT et autres géants de la tech. En effet, alors que la Chine prend de l’avance dans la course à l’IA, ERNIE 4.5 fait déjà parler de lui avec sa capacité à traiter simultanément le texte, l’image, l’audio et la vidéo. Cet article propose une exploration des innovations et des défis que ce modèle apporte au paysage technologique mondial.

Le monde de l’intelligence artificielle est en effervescence avec le lancement d’ERNIE 4.5, le dernier né de Baidu, qui fait déjà des vagues sur le marché. Doté de 424 milliards de paramètres et d’une multimodalité native, ERNIE 4.5 se positionne comme un concurrent sérieux face à des titans tels que ChatGPT de OpenAI. Grâce à son architecture innovante et à ses performances exceptionnelles, Baidu ne vise pas seulement à rattraper ses concurrents, mais à redéfinir les standards de l’industrie. Examinons de plus près ce modèle révolutionnaire.

Qu’est-ce qu’ERNIE 4.5 ?

ERNIE 4.5 est le modèle de fondation le plus avancé conçu par Baidu. Il se base sur une architecture Mixture-of-Experts (MoE), permettant une activation efficace de ses paramètres. Avec un maximum de 424 milliards de paramètres, le modèle active seulement 47 milliards pour chaque entrée, ce qui optimise sa capacité à traiter une immense quantité d’informations tout en affichant une efficacité redoutable. En se positionnant comme le rival direct des modèles tels que GPT-4o, Baidu adopte une stratégie de tarification ultra-compétitive, assurant l’accessibilité de cette technologie de pointe.

Les technologies derrière ERNIE 4.5

L’innovation qui propulse ERNIE 4.5 réside dans son architecture MoE hétérogène, qui segmente les experts selon leur domaine de compétence – textuel ou visuel. Cela signifie qu’un groupe d’experts se spécialise dans la traduction de textes, tandis qu’un autre se consacre à l’analyse des images. Cette approche favorise un traitement optimal et une amélioration significative des performances. Grâce à sa multimodalité native, ERNIE 4.5 est capable de traiter simultanément du texte, des images, de l’audio et de la vidéo, permettant ainsi une richesse de contenus sans précédent.

Fenêtre de contexte à 131 072 tokens

Le modèle offre une fenêtre de contexte impressionnante de 131 072 tokens pour ses plus grandes variantes. Cette particularité facilite le traitement de longues séquences d’informations, tout en permettant des raisonnements complexes. L’entraînement initial s’est effectué sur une configuration standard de 8 000 tokens, mais la puissance de ce modèle ne fait que s’accroître avec l’approfondissement des tâches, qu’il s’agisse de raisonnement logique, de mathématiques, ou même de génération de code.

Les différentes solutions de ERNIE 4.5

Baidu propose plusieurs variantes du modèle ERNIE 4.5, répondant ainsi aux divers besoins des développeurs et des entreprises. Par exemple, son architecture multimodale permet d’effectuer des tâches complexes, tout en s’adaptant aux exigences spécifiques de chaque secteur. Avec des modèles légers allant de 0,3 milliard de paramètres à des versions plus robustes, les utilisateurs peuvent ajuster leur choix pour trouver l’équilibre parfait entre performance et efficacité, notamment pour des applications mobiles ou des appareils moins performants.

Intégrations et API

L’accès à ERNIE 4.5 est facilité par l’intégration API via le Baidu AI Studio, accompagné du framework PaddlePaddle pour assurer un déploiement fluide. Ce soutien pour les développeurs facilite l’intégration rapide et les ajustements nécessaires, renforçant ainsi l’adoption de l’IA dans divers secteurs tels que la logistique ou l’analyse de données. Avec des versions compatibles avec PyTorch, Baidu s’assure également de capter l’intérêt des développeurs sur le marché occidental.

À lire Personal Computer : Découvrez « Claude Cowork » de Perplexity, désormais ouvert à tous

Quels sont les avantages d’ERNIE 4.5 ?

Les gains de performance par rapport à ses prédécesseurs sont frappants. ERNIE 4.5 a enregistré une augmentation de 48 % du nombre de requêtes par seconde, tout en réduisant la latence de 46 %.

Cette dynamique s’explique par son architecture optimisée, favorisant l’utilisation d’une attention clairsemée. En conséquence, le modèle a obtenu un score général de 79,6, le plaçant devant des concurrents comme GPT-4o dans plusieurs tests. De plus, la gratuité du chatbot ERNIE 4.5 pour des millions d’utilisateurs renforce son attrait, tout comme sa politique tarifaire qui le rend accessible à un large éventail de développeurs.

Exemples d’utilisation d’ERNIE 4.5

Les domaines d’application d’ERNIE 4.5 sont vastes. Dans l’éducation, il fonctionne comme un assistant pédagogique, capable d’analyser des publications scientifiques de manière multimodale. Dans le secteur médiatique, ses capacités de création de contenus permettent une génération simultanée de textes et d’images, ouvrant la voie à des productions créatives et innovantes. En finance, il facilite le traitement des données et l’analyse financière, fonctionnant comme un partenaire stratégique qui optimise les flux de travail complexes.

Sa capacité à traiter la vision industrielle, à réaliser des analyses d’images de produits, ainsi qu’à gérer la reconnaissance vocale, confère à ERNIE 4.5 des atouts indéniables dans des environnements industriels. Ce modèle ne se contente pas de suivre les évolutions de l’IA, il les dirige, transformant ainsi les attentes autour des systèmes intelligents.

Notez cet article

InterCoaching est un média indépendant. Soutenez-nous en nous ajoutant à vos favoris Google Actualités :

Partagez votre avis