Google hat das KI-Modell Gemini 1.5 Pro vorgestellt, das einen bedeutenden Fortschritt in der Entwicklung der künstlichen Intelligenz darstellt und eine neue Ära in ihrer Anwendung einläutet. Das von Google DeepMind entwickelte Modell ist in der Lage, komplexe multimodale Daten, einschließlich Text, Audio und Bilder, effizient zu verarbeiten, indem es Massive Multitask Language Understanding (MMLU) einsetzt. Die Leistungsfähigkeit von Gemini 1.5 Pro zeigt sich in seiner Fähigkeit, auf komplexe Fragestellungen in den Bereichen Medizin, Ethik, Mathematik und Physik zu reagieren.
Gemini 1.5 Pro stellt einen bedeutenden Wandel in der Herangehensweise von Google dar, basierend auf Innovationen in Forschung und Entwicklung und einer neuen Mixture-of-Experts (MoE)-Architektur, die das Modell in Training und Anwendung effizienter macht. Es handelt sich um ein mittelgroßes multimodales Modell, das für eine Vielzahl von Aufgaben optimiert wurde und eine ähnliche Leistung wie das bisher größte Modell, 1.0 Ultra, bietet. Eine innovative Funktion ist das verbesserte Verständnis langer Kontexte, wobei das Modell standardmäßig über ein Kontextfenster von 128.000 Token verfügt. Eine begrenzte Anzahl von Entwicklern und Unternehmenskunden kann das Modell jedoch mit einem Kontextfenster von bis zu 1 Million Token in einer privaten Vorschau über AI Studio und Vertex AI testen.
Darüber hinaus arbeitet Google an Optimierungen, um die Latenz zu verringern und die Rechenanforderungen sowie die Nutzererfahrung zu verbessern. Die Fortschritte bei diesen Modellen der nächsten Generation eröffnen Einzelpersonen, Entwicklern und Unternehmen neue Möglichkeiten, mit KI zu schaffen, zu entdecken und zu gestalten. Die von Google entwickelten MoE-Modelle sind in kleinere „Experten“-Netze unterteilt, die je nach Art der Eingabe nur die relevantesten Pfade aktivieren und so die Effizienz des Modells erheblich steigern.