Neben Fake-Videos und -Bildern kursieren im Netz auch immer mehr gefälschte Audio-Dateien. Das Problem: Die meisten dieser Stimm-Fakes wurden mithilfe von KI generiert, sind aber nicht als solche gekennzeichnet. Wir verraten dir, wie du Audio-Deepfakes erkennen kannst.
Was sind Audio-Deepfakes?
Audio-Deepfakes sind künstlich erzeugte oder manipulierte Sprachaufnahmen, die mithilfe von KI erstellt werden. Diese Tonaufnahmen wirken in der Regel täuschend echt. Sogenannte neuronale Netze werden dazu mit großen Mengen an Sprachdaten trainiert. Das ermöglicht eine Nachahmung von bestimmten Sprachmustern, Klängen und Intonationen.
Die Technologie kann für harmlose Zwecke wie Synchronisationen in der Filmbranche zum Einsatz kommen. Allerdings kommt es immer häufiger vor, dass Audio-Deepfakes eingesetzt werden, um Desinformation zu betreiben.
Vor allem Prominente und Politiker werden zum Opfer von solchen Fake-Aufnahmen. Diese lassen sich aufgrund der technologischen Entwicklung im ersten Moment kaum noch von echten Aufnahmen unterscheiden.
Text-to-Speech und Voice Conversion
Für die Erstellung von Audio-Deepfakes in Form von manipulierten Stimmen kommen vor allem zwei Verfahren zum Einsatz: Text-to-Speech und Voice Conversion.
Beim Text-to-Speech-Verfahren wird ein vorgegebener Text mithilfe von KI in eine Audiodatei umgewandelt. Das System analysiert den Text dabei zunächst auf linguistischer Ebene, um ihn anschließend in Form einer vorab aufgenommenen Stimme zu synthetisieren.
Bei der Voice Conversion wird die Stimme einer Person so verändert, dass sie wie die Stimme einer anderen Person klingt. Der gesprochene Inhalt bleibt dabei unverändert.
Für beide Verfahren benötigt es große Mengen an Daten, um ein entsprechendes KI-System zu trainieren. Die Art der Trainingsdaten kann sich zwar unterscheiden, allerdings haben beide Verfahren gemeinsam, dass sie große Mengen an Audio-Aufnahmen der Zielperson in möglichst hoher und konstanter Qualität erfordern.
In der Regel werden mehrere Stunden Audiomaterial benötigt, was für Audio-Deepfakes von Prominenten und Politikern oftmals kein Problem darstellt. Es gibt aber auch Methoden, die mit wenigen Minuten Aufnahmen auskommen. Diese werden mithilfe von ähnlichen Stimmprofilen ergänzt.
Audio-Deepfakes erkennen
Audio-Deepfakes stellen in Zeiten politischer Unsicherheiten und geopolitischer Veränderungen eine immer größere Gefahr dar. Im Gegensatz zu Deepfake-Video benötigen sie weniger Trainingsdaten und Rechenleistung. Heißt konkret: Audio-Deepfakes lassen sich einfacher erstellen. Gleichzeitig ist es komplizierter, gefälschte Sprachaufnahmen zu erkennen.
Denn im Vergleich zu Fake-Videos gibt es deutlich weniger Anhaltspunkte für Fälschungen. Dennoch gibt es Möglichkeiten, um Audio-Deepfakes zu erkennen. Verräterische Muster können beispielsweise ein Hinweis auf eine Manipulation mittel KI sein. Solche Muster lassen sich mitunter im Vergleich mit echten Aufnahmen einer Person identifizieren.
Unnatürliche Pausen, unterschiedliche Aussprachweisen oder unrealistische Atemmuster können Hinweise darauf sein. Gleiches gilt für merkwürdige Hintergrundgeräusche sowie unnatürliche Klänge. Es gibt jedoch auch KI-Tools, die dabei helfen können Audio-Deepfaks zu entlarven.
Das Fraunhofer-Institut hat mit Deepfake Total etwa eine Plattform, auf der Nutzer verdächtige Audiodateien hochladen und analysieren lassen können. Anschließend werden die Dateien in Form eines sogenannten „Fake-O-Meter“ mit einer Punktzahl bewertet. Diese gibt an, wie wahrscheinlich es ist, dass es sich um ein Audio-Deepfake handeln könnte.
Die Website „How to Verify“ listete zudem weitere Tools und Tipps, um Audio-Deepfakes erkennen zu können. Da KI-Software nicht unfehlbar ist, kommt es letztlich jedoch auf einen Mix an Techniken an, um Fälschungen zu identifizieren. Auch klassische Vorgehensweisen können dabei helfen.
Beispielsweise kann es sich lohnen, verdächtige Audio-Inhalte mit bekannten Fakten zu vergleichen. Gleiches gilt für eine zusätzliche Kontext-Recherche in vertrauenswürdigen Medien.
Auch interessant:
This deepfake audio detection guide highlights a critical arms race in digital security. While the outlined techniques (vocal glitch analysis, contextual inconsistency checks) are useful today, the real concern is the democratization of voice cloning tools requiring minimal technical skill.
The article rightly emphasizes multi-layered verification, but we’re underestimating how quickly AI-generated audio adapts. Last year’s telltale artifacts are already disappearing with models like V3. What’s needed isn’t just detection tools, but:
Legislative mandates for AI content watermarks
Platform-level authentication protocols
Public education campaigns to reduce virality of unverified clips
Until we treat synthetic media as a systemic threat rather than a novelty, detection will remain a game of whack-a-mole.