Forscher des Massachusetts Institute of Technology (MIT) und von Chiphersteller Nvidia haben mit „HART“ ein neues KI-Modell entwickelt, das realistische Bilder schneller und effizienter als je zuvor erstellen können soll.
Forscher des MIT und von NVIDIA haben ein neues KI-Modell namens HART (Hybrid Autoregressive Transformer) entwickelt, das realistische Bilder schneller und effizienter generieren soll als bisherige Systeme. Die KI kombiniert die Stärken zweier Ansätze: der schnellen, aber fehleranfälligen autoregressiven Modelle und der qualitativ hochwertigen, aber langsamen Diffusionsmodelle.
Das Ergebnis ist ein hybrides System, das Bilder bis zu neunmal schneller generieren können soll, als je zuvor – bei gleichbleibend hoher Qualität. Autoregressive Modelle, die auch in Sprachmodellen wie ChatGPT eingesetzt werden, erzeugen Inhalte schrittweise – also beispielsweise Bildbereiche nacheinander.
Diese Methode ist schnell, aber fehleranfällig. Denn solche Systeme können Fehler nicht wieder korrigieren. Diffusionsmodelle hingegen arbeiten iterativ und verfeinern ein Bild durch mehrere Rechenschritte. Sie liefern relativ gute Ergebnisse, sind aber deutlich langsamer und energieintensiver.
So generiert das KI-Modell HART realistische Bilder
Bei HART erstellt ein autoregressives Modell zunächst eine grobe Bildversion, die in kompakte Datenpakete – sogenannte Tokens – umgewandelt wird. Anschließend übernimmt ein kleines Diffusionsmodell die Feinarbeit, indem es nur noch Details wie Kanten, Gesichter oder Haare optimiert.
Weil sich das Diffusionsmodell ausschließlich auf diese Bereiche konzentriert, reichen ihm acht Rechenschritte – statt der 30 oder mehr, die sonst üblich sind. Ein entscheidender Vorteil von HART ist seine Effizienz. Es benötigt rund 31 Prozent weniger Rechenleistung als aktuelle High-End-Modelle, liefert aber eine vergleichbare Bildqualität.
Möglich wird das durch eine kompakte Architektur: Während andere Systeme mit Milliarden von Parametern arbeiten, kommt HART mit deutlich weniger aus – ohne Qualitätseinbußen. Dadurch lässt sich das KI-Modell sogar auf einem Smartphone betreiben.
Effiziente Leistung für reale Anwendungen
Diese Leichtgewichtigkeit macht das KI-Modell HART besonders interessant für mobile oder Energie-begrenzte Anwendungen. Es bringt die nötige Kraft mit, um realistische Bilder schnell und ressourcenschonend zu erzeugen – auch außerhalb von Rechenzentren.
Künftig könnte das Modell eine Schlüsselrolle in sogenannten multimodalen KI-Systemen spielen – also in Anwendungen, die Text, Bild und Ton gleichzeitig verarbeiten. Besonders interessant dürfte das System für die Robotik, den Gaming-Bereich oder virtuelle Assistenten sein. Denn dort müssen Inhalte in Echtzeit generiert und kombiniert werden.
Auch interessant: