Die China-KI DeepSeek sorgt derzeit für Diskussionen. Denn trotz effizientem Training verbraucht das Sprachmodell offenbar mehr Energie als bislang angenommen.
DeepSeek hat in der KI-Branche für Furore gesorgt. Unternehmensangaben zufolge soll das Sprachmodell nicht nur mit ChatGPT mithalten können, sondern besonders energieeffizient sein. Doch aktuelle Daten, die der MIT Technology Review vorliegen, zeigen ein anderes Bild. DeepSeek könnte beim Generieren von Antworten demnach sogar mehr Energie verbrauchen als vergleichbare KI-Modelle.
Denn die China-KI nutzt eine verbesserte Variante des sogenannten „Mixture of Experts“-Ansatzes, bei dem nur ein Teil der Modellparameter während des Trainings aktiv ist, was Energie sparen soll. Doch der eigentliche Knackpunkt ist die Nutzung des Modells (Inference). Dabei zeigt sich, dass DeepSeek durch seine komplexe „Chain-of-Thought“-Logik deutlich mehr Rechenleistung benötigt, um Antworten zu generieren.
DeepSeek verbraucht nach dem Training deutlich mehr Energie
Konkret bedeutet das: Während die Forscher das Training optimierten, benötigt DeepSeek für jede einzelne Anfrage mehr Energie als andere Modelle – teilweise bis zu 87 Prozent mehr als ein vergleichbares Meta-Modell mit 70 Milliarden Parametern. Das liegt unter anderem daran, dass die Antworten von DeepSeek oft deutlich länger ausfallen.
Ein Problem ist die mögliche Verbreitung dieser Technik. Denn wenn andere Unternehmen den Ansatz von DeepSeek kopieren und auf viele KI-Anwendungen übertragen, könnte der Energieverbrauch massiv steigen. Ähnlich wie bei der Entwicklung von generativer KI könnte die Nachfrage nach leistungsstarken Modellen den Effizienzgewinn durch optimiertes Training wieder zunichtemachen – ein klassisches Beispiel für das sogenannte Jevons-Paradoxon.
Langfristige Probleme im Hinblick auf Nachhaltigkeit
Die langfristigen Auswirkungen sind noch unklar. Aber Experten wie Sasha Luccioni von Hugging Face warnen davor, dass der Hype um DeepSeek dazu führen könnte, dass diese rechenintensive Technik unnötig oft eingesetzt wird. Wenn KI-Modelle in Zukunft durchgehend „Chain-of-Thought“-Prozesse nutzen, könnte das die gesamte Energieeffizienz der Branche stark verschlechtern.
DeepSeek ist ein konkurrenzfähiges Modell, das aber auch die Herausforderungen neuer KI-Technologien offenbart. Obwohl es effizienter trainiert wurde, könnte sein höherer Energieverbrauch bei der Nutzung ein ernsthaftes Problem in puncto Nachhaltigkeit darstellen. Die kommenden Monate dürften zeigen, ob sich der Ansatz von DeepSeek wirklich durchsetzen oder ob die Energiefrage einige Unternehmen zum Umdenken bewegen wird.
Auch interessant:
- Roboter erkennen menschliche Berührungen – ohne künstliche Haut
- Selbstheilendes Stromnetz: Künstliche Intelligenz soll Blackouts vermeiden
- KI-Lücke: Künstliche Intelligenz sorgt für eine noch tiefere „digitale Kluft“
- KI als Richter: Die Vorteile und Nachteile von Künstlicher Intelligenz in der Justiz