Nvidia steigt in die Welt der AI-Modelle ein, die sich von den mentalen Modellen der menschlichen Wahrnehmung inspirieren lassen. Auf der CES 2025 in Las Vegas stellte das Unternehmen seine Cosmos World Foundation Models vor, die 'physikbewusste' Videos vorhersagen und generieren können. Diese Modelle, die auf spezifische Anwendungen abgestimmt werden können, sind über Nvidias API, die NGC-Kataloge, GitHub und die AI-Entwicklungsplattform Hugging Face verfügbar. Laut einem Blog-Beitrag auf TechCrunch sind die Cosmos WFMs für Simulationen und die Generierung synthetischer Daten gedacht und stehen unter einer offenen Modelllizenz von Nvidia zur Verfügung, die auch kommerzielle Anwendungen erlaubt. Die Cosmos WFM-Familie umfasst drei Kategorien: Nano für Echtzeitanwendungen, Super für leistungsstarke Modelle und Ultra für maximale Qualität. Die Größen reichen von 4 bis 14 Milliarden Parametern, wobei mehr Parameter in der Regel auf bessere Problemlösungsfähigkeiten hinweisen. Ergänzend werden ein 'Upsampling-Modell,' ein für Augmented Reality optimierter Videodecoder und 'Guardrail-Modelle' veröffentlicht, um den verantwortungsvollen Einsatz sicherzustellen. Auch feingetunte Modelle, die beispielsweise Sensordaten für die Entwicklung autonomer Fahrzeuge generieren, sind Teil dieses Angebots. Die Modelle basieren auf 9.000 Billionen Tokens, die aus 20 Millionen Stunden realer Videos gewonnen wurden. Trotz Berichte über angeblich unrechtmäßige Datenbeschaffung – darunter auch durchs Urheberrecht geschützte YouTube-Videos – betont ein Nvidia-Sprecher, dass Cosmos nicht zum Kopieren oder Verletzen geschützter Werke entwickelt wurde. Vielmehr lerne Cosmos auf ähnliche Weise wie Menschen aus einer Vielzahl von öffentlichen und privaten Quellen und bewege sich dabei im rechtlichen Rahmen.