Google has made significant strides in generative AI, notably with the launch of its Gemini 2.0 Flash model, which offers enhanced speed and lower costs compared to its predecessor. This model, integrated into various Google services, is accessible to all users and developers via an API. While it currently lacks image generation capabilities, updates are anticipated. Despite not leading the AI race yet, Google remains a formidable competitor, though concerns about transparency in its model development persist.
La montée en puissance de Google dans l’IA générative
Dans la Silicon Valley, il existe une règle d’or : ne jamais sous-estimer Google. Bien qu’il ait initialement pris du retard dans la compétition pour l’intelligence artificielle générative, les modèles linguistiques modernes n’auraient pas vu le jour sans les innovations de ses chercheurs. En 2024, Google a réussi à rattraper son retard grâce à son IA Gemini, qui s’intègre désormais à presque tous ses services. Ses modèles de génération d’images et de vidéos, Imagen 3 et Veo 2, sont parmi les meilleurs du secteur.
Lancement de Gemini 2.0 Flash pour tous les utilisateurs
Le 5 février 2025, Google a annoncé le lancement de son nouveau modèle linguistique, Gemini 2.0 Flash. Plus efficace que son prédécesseur Gemini 1.5 Pro, il se distingue par la rapidité de ses réponses et ses coûts d’utilisation réduits. Cette innovation est une réponse directe à DeepSeek et OpenAI, qui, avec leurs modèles respectifs (DeepSeek-R1 et o3-mini), jouent également sur la rentabilité, même si Gemini 2.0 Flash n’est pas encore un modèle de raisonnement.
Déjà annoncé en décembre lors du calendrier de l’Avent d’OpenAI, Gemini 2.0 Flash est désormais accessible à tous les utilisateurs via le site ou l’application Gemini, ainsi qu’aux développeurs désirant l’intégrer via une API. C’est la première fois qu’un service tiers, tel que Perplexity, intègre un modèle Google, ouvrant ainsi la voie à une plus grande collaboration de Google avec les startups en IA.
Bien que Gemini 2.0 Flash ne soit pas encore en mesure de générer des images ou d’être utilisé en mode vocal, Google promet une mise à jour imminente. Ce modèle multimodal a tous les atouts pour devenir le modèle de langage par défaut des services Google. Selon Google, Gemini 2.0 Flash serait plus efficient que tous les modèles précédemment proposés, malgré sa “légèreté”. Bien qu’il soit considéré comme inférieur au GPT-4o, son coût d’utilisation réduit le rend plus attractif pour de nombreuses applications. On peut le voir comme une version optimisée du GPT-4o-mini.
En parallèle de Gemini 2.0 Flash, Google prépare deux nouveaux modèles expérimentaux qui devraient être lancés plus tard en 2025. Concernant les modèles de raisonnement, souvent appelés modèles de pointe, capables d’imiter le raisonnement humain, ceux-ci doivent encore attendre. Les modèles o1 et o3 d’OpenAI sont les plus connus, tandis que DeepSeek a bouleversé le secteur avec son modèle R1.
Étonnamment, Google n’a pas profité du lancement de Gemini 2.0 Flash pour dévoiler son modèle Gemini 2.0 Flash Thinking, qui est encore en phase bêta et accessible pour des tests via l’interface Gemini. Il est probable que ces nouveaux modèles plus puissants soient présentés ultérieurement, lorsque Google aura réellement rattrapé OpenAI et DeepSeek.
Avec le lancement officiel de Gemini 2.0, Google ne prend pas encore la tête de la course à l’intelligence artificielle. Cependant, il propose un outil abordable pour les développeurs tout en l’intégrant dans ses propres services, ce qui en fait un acteur redoutable sur le marché de l’IA générative. Un inconvénient majeur demeure : le manque de transparence concernant le développement de ces modèles. Tout comme OpenAI, Google garde une grande partie des caractéristiques de ses modèles de langage sous silence.