Im Januar 2024 überwies ein Mitarbeiter des britischen Ingenieurbüros Arup rund 25 Millionen US-Dollar an Betrüger. Er hatte zuvor an einem Videocall teilgenommen, in dem mehrere Kollegen und der CFO des Unternehmens anwesend waren. Keine dieser Personen war echt – alles waren Deepfakes. Nur ein Jahr später, im März 2025, verlor ein Unternehmen in Singapur auf nahezu identische Weise knapp 500.000 US-Dollar.

Diese Fälle sind keine Ausreißer. Deepfake-gestützter Betrug verursachte allein im ersten Halbjahr 2025 Schäden von über 400 Millionen US-Dollar weltweit. Deloittes Center for Financial Services prognostiziert, dass KI-gestützter Betrug in den USA bis 2027 ein Volumen von 40 Milliarden US-Dollar erreichen könnte – ausgehend von 12,3 Milliarden in 2023.

Dieser Artikel ordnet ein, wie Deepfake-Angriffe funktionieren, welche dokumentierten Fälle es gibt und welche Schutzmaßnahmen tatsächlich wirken.

Was sind Deepfakes?

Deepfakes sind KI-generierte oder KI-manipulierte Medieninhalte – Videos, Audio oder Bilder, die reale Personen täuschend echt imitieren. Das Phänomen existiert bereits seit einigen Jahren, doch durch die rasante Weiterentwicklung generativer KI-Tools ist die Erstellung solcher Inhalte deutlich einfacher und zugänglicher geworden.

Technisch basieren Deepfakes auf neuronalen Netzwerken, insbesondere auf sogenannten Generative Adversarial Networks (GANs) und Encoder-Decoder-Architekturen. Vereinfacht gesagt: Ein Modell lernt aus bestehenden Bildern oder Audioaufnahmen einer Person, wie diese aussieht, spricht und sich bewegt – und kann daraus neue, synthetische Inhalte erzeugen.

Was früher aufwändige und teure Technik erforderte, läuft heute auf einem handelsüblichen Rechner. Tools wie DeepFaceLab sind Open Source, frei auf GitHub verfügbar und werden aktiv weiterentwickelt. Für Voice Cloning reichen mittlerweile drei bis fünf Sekunden einer Originalaufnahme, um eine überzeugende Stimmkopie zu erstellen. Laut einem Bericht von Resemble AI aus dem ersten Quartal 2025 sind 68 % aller Gesichts-Deepfakes inzwischen kaum noch von echten Aufnahmen zu unterscheiden.

Angriffsvektoren

Voice Cloning

Der einfachste und am häufigsten eingesetzte Deepfake-Angriff ist das Audio-Deepfake – per Telefon oder Sprachnachricht. Ein Angreifer sammelt öffentlich verfügbare Audioaufnahmen einer Zielperson: Interviews, YouTube-Videos, Podcasts, Webinar-Mitschnitte. Daraus wird ein Stimmmodell trainiert, mit dem sich beliebige Texte in der Stimme dieser Person generieren lassen.

Das Ziel: Eine Führungskraft anrufen und beispielsweise eine dringende Überweisung anordnen oder Zugangsdaten erfragen. Die Zielperson hört die vertraute Stimme ihres Vorgesetzten – und zweifelt nicht.

Video Calls

Die aufwändigere Variante: vollständige Video-Deepfakes in Echtzeit. Dabei wird das Gesicht einer Zielperson per Kamera-Feed live über das Gesicht des Angreifers gelegt. Tools wie DeepFaceLive ermöglichen genau das – in Echtzeit, ohne Nachbearbeitung. Der Angreifer sieht aus und klingt wie die imitierte Person. In einem Videocall über Zoom, Teams oder Google Meet fällt das dem Gegenüber in der Regel nicht auf.

Hybridangriffe

Deepfake-Angriffe stehen selten allein. In der Praxis werden sie mit klassischem OSINT kombiniert: Wer ist der CFO des Unternehmens? Gibt es Interviewaufnahmen? Welche Projekte laufen aktuell? Wer arbeitet in der Finanzabteilung? LinkedIn, Unternehmenswebsites, Pressemitteilungen und YouTube liefern oft genug Material, um einen überzeugenden Pretext zu konstruieren – und ausreichend Audiomaterial für ein Stimmmodell.

Bekannte und dokumentierte Fälle

Arup, Hongkong (Januar 2024) – 25 Millionen US-Dollar

Ein Mitarbeiter des britischen Ingenieurbüros Arup wurde in einen Videocall eingeladen, der vermeintlich vom CFO des Unternehmens einberufen wurde. Im Call befanden sich mehrere „Kollegen" – allesamt Deepfakes, erstellt aus öffentlich verfügbaren YouTube-Videos der echten Mitarbeiter. Der Mitarbeiter führte insgesamt 15 Transaktionen durch und überwies rund 200 Millionen HKD (ca. 25 Mio. USD) auf fünf verschiedene Konten.

Erst als er im Nachgang die Zentrale kontaktierte, flog der Betrug auf. Das Geld war zu diesem Zeitpunkt bereits verteilt und nicht mehr zurückzuholen.

Quellen:

Multinationales Unternehmen, Singapur (März 2025) – 499.000 US-Dollar

Nur ein Jahr nach dem Arup-Fall ein nahezu identisches Szenario: Ein Finance Director eines multinationalen Unternehmens in Singapur wurde per WhatsApp von jemandem kontaktiert, der sich als CFO des Unternehmens ausgab. Er wurde zu einem Zoom-Call eingeladen, in dem CEO und weitere Führungskräfte per Deepfake imitiert wurden. Zusätzlich wurde der Betrug durch einen fingierten Anruf eines angeblichen Unternehmensanwalts inklusive einer gefälschten Verschwiegenheitserklärung untermauert.

Der Finance Director überwies rund 499.000 USD. Erst als eine zweite Überweisung von 1,4 Millionen USD angefordert wurde, wurde er misstrauisch und alarmierte die Bank. Die Singapurer Polizei konnte in Zusammenarbeit mit der Hongkonger Anti-Betrugseinheit den Großteil der Gelder sicherstellen.

Der Fall führte zu einer gemeinsamen Warnung der Singapore Police Force, der Monetary Authority of Singapore und der Cyber Security Agency of Singapore.

Quellen:

Ferrari CEO-Impersonation (Juli 2024)

Cyberkriminelle versuchten, Ferrari-CEO Benedetto Vigna per Deepfake zu imitieren. Ein Ferrari-Manager erhielt WhatsApp-Nachrichten von einer unbekannten Nummer mit Vignas Profilfoto und der Aufforderung, bei einer angeblich vertraulichen Übernahme zu helfen. Es folgte ein Telefonat, in dem die Stimme Vignas – inklusive seines süditalienischen Akzents – per KI geklont wurde.

Der Manager wurde misstrauisch und stellte eine persönliche Frage: Welches Buch Vigna ihm kürzlich empfohlen hatte. Der Anrufer konnte nicht antworten und legte auf. Der Betrug wurde dadurch verhindert.

Dieser Fall zeigt, dass selbst überzeugende Stimmklone an persönlichem Kontextwissen scheitern können – sofern der Mitarbeiter die Geistesgegenwart hat, nachzufragen.

Quellen:

Energieunternehmen, Deutschland (2019) – 243.000 US-Dollar

Einer der ersten dokumentierten Fälle: Der Geschäftsführer eines deutschen Energieunternehmens erhielt einen Anruf, der täuschend echt nach der Stimme des CEOs der britischen Muttergesellschaft klang – inklusive deutschem Akzent und typischer Sprachmuster. Er wurde gebeten, dringend eine Zahlung an einen Lieferanten zu veranlassen – umgerechnet 243.000 USD. Der Geschäftsführer folgte der Anweisung. Als er zurückrufen wollte, war die Nummer nicht mehr erreichbar. Die Gelder waren bereits auf weitere Konten transferiert worden.

Quelle: Forbes, 03.09.2019

WPP CEO-Impersonation (Mai 2024)

Cyberkriminelle erstellten ein gefälschtes WhatsApp-Profil mit öffentlich verfügbaren Fotos von Mark Read, CEO der Werbeagentur WPP. Über dieses Profil luden sie Führungskräfte anderer Agenturen zu einem Videocall ein. Ziel war es, Geld und persönliche Informationen zu erschleichen. Der Betrug wurde jedoch rechtzeitig erkannt.

Quelle: CoverLink Insurance / ISACA Industry News

Joe Biden Robocall, New Hampshire (Januar 2024)

Kurz vor der Vorwahl in New Hampshire erhielten über 40.000 registrierte Demokraten einen automatisierten Anruf mit der täuschend echten Stimme von Präsident Joe Biden. Die Botschaft: Sie sollten nicht zur Vorwahl gehen und ihre Stimme für die Hauptwahl im November aufsparen. Der Anruf war ein Deepfake. Der Telekommunikationsanbieter, der die Anrufe verteilte, musste später eine Strafe von einer Million US-Dollar zahlen.

Quelle: Reuters / Incode Blog

Wettbewerbe

Ein Aspekt den viele nicht kennen: Deepfake- und Vishing-Techniken wird aktiv in Wettbewerben getestet – teils mit dem erklärten Ziel der Erkennung (Detection), teils explizit als Angriffsdisziplin. Die daraus entstehenden Modelle und Techniken fließen früher oder später in die reale Angriffswelt ein.

DEF CON – Battle of the Bots: Vishing Edition

Die DEF CON, eine der bekanntesten IT-Security-Konferenzen weltweit, beherbergt seit über einem Jahrzehnt im Social Engineering Village einen Vishing-Wettbewerb (SECVC): Teams rufen von einer schalldichten Telefonkabine aus live echte Unternehmen an und versuchen, sensible Informationen zu erlangen oder das Gegenüber zu einer bestimmten Handlung zu bewegen.

Mittlerweile gibt es eine neue Kategorie: Battle of the Bots: Vishing Edition. Hier treten nicht Menschen an, sondern vollautonome KI-Agenten. Die Regeln: Teams entwickeln vorab einen KI-Bot, der live Vishing-Anrufe gegen echte menschliche Zielpersonen führt – ohne jegliche menschliche Intervention während des Gesprächs. Der Bot muss selbstständig auf unerwartete Antworten reagieren, den Pretext aufrechterhalten und definierte Informationen extrahieren.

Das Gewinnerteam von DirectDefense (DEF CON 33) beschreibt seinen Ansatz offen: Als Kerntechnologie nutzten sie RetellAI, eine Plattform, die eigentlich für Kundenservice-Bots konzipiert ist. Sie verband GPT-4o mit einem Telefonsystem, konvertierte Sprache in Echtzeit zu Text, schickte Prompts an das Sprachmodell und wandelte die Antwort sofort wieder in Sprache um. Das Ergebnis: ein Bot, der ein vollständiges Vishing-Gespräch führt, ohne dass ein Mensch eingreifen muss.

Besonders bezeichnend ist ein Detail aus dem Erfahrungsbericht einer anderen Teilnehmerin: Um ChatGPT und Cursor bei der Bot-Entwicklung zu nutzen, ohne an deren Sicherheitsfilter zu stoßen, beschrieb sie ihr Projekt gegenüber den KI-Tools nicht als Vishing-Bot, sondern als harmlosen Unternehmens-Chatbot für HR-Umfragen. Social Engineering gegen die KI, um einen Social-Engineering-Bot zu bauen.

Quellen:

DeepFake Detection Challenge (DFDC) – Meta (ehemals Facebook)

Auf der anderen Seite des Spektrums: Meta (damals noch Facebook) startete die DeepFake Detection Challenge (DFDC) mit dem Ziel, Erkennungsalgorithmen zu fördern. Dafür wurde ein Datensatz mit über 100.000 Videos erstellt, von denen bestimmte Aufnahmen unterschiedlich manipuliert wurden. Der Datensatz umfasst insgesamt 25 TB Rohmaterial.

Das beste Modell im öffentlichen Testset erreichte eine Erkennungsgenauigkeit von 82,56 %. Gegen das verdeckte Testset – also Deepfakes, die das Modell vorher nicht gesehen hatte – fiel die Genauigkeit auf 65,18 %. Praktisch bedeutet das: Jeder dritte Deepfake blieb unerkannt. Für ein Sicherheitstool im produktiven Einsatz wäre das unzureichend.

Das Paradoxe daran: Je besser die Detektionsmodelle werden, desto bessere Trainingsdaten werden benötigt – was zwangsläufig auch die Qualität der Deepfakes selbst vorantreibt. Detection und Generation befeuern sich gegenseitig.

Quellen:

„Trifft uns doch nicht"

Deepfake-Angriffe wirken für viele Unternehmen nach wie vor wie ein Problem großer Konzerne oder sehen es als sehr abstractes Problem an. Die medialen Beispiele scheinen dieses Bild zu bestätigen. Daraus entsteht schnell ein gefährlicher Trugschluss: Wir sind zu klein, zu unbekannt, zu unbedeutend.

Tatsächlich kann das Gegenteil der Fall sein. Gerade kleine und mittelständische Unternehmen sind für solche Angriffe oft besonders attraktiv:

Schwächere Kontrollmechanismen. Formalisierte Prozesse wie konsequente Vier-Augen-Prinzipien, getrennte Zahlungsfreigaben oder klar definierte Eskalationswege sind in vielen KMUs weniger strikt umgesetzt als in großen Organisationen.

Hohe Vertrauenskultur. In kleineren Unternehmen kennt man die Stimmen der Führungskräfte. Wenn ein Anruf vom Geschäftsführer kommt, wird er selten hinterfragt – gerade wenn Zeitdruck suggeriert wird.

Ausreichend Trainingsmaterial. Ein LinkedIn-Video, ein Podcast-Auftritt oder ein Vortrag auf YouTube liefern bereits genug Audiomaterial, um ein überzeugendes Stimmmodell zu erstellen. Drei bis fünf Sekunden reichen aus.

Geringe Angriffskosten. Die technischen Hürden für einfache Audio-Deepfakes sind in den letzten Jahren massiv gesunken. Kommerzielle Voice-Cloning-Dienste bieten Stimmklone für unter zehn US-Dollar an. Das Kosten-Nutzen-Verhältnis kann für Angreifer bei einem unvorbereiteten KMU sogar günstiger ausfallen als bei einem großen Unternehmen mit eigenem Security-Team.

Deepfakes sind kein futuristisches Szenario. Sie sind eine realistische Erweiterung klassischer Social-Engineering-Angriffe – und treffen besonders dort auf Erfolg, wo man sie für unrealistisch hält.

Schutzmaßnahmen gegen Deepfakes

Was nicht hilft

Schulungen allein. Damit ist nicht gemeint, dass Awareness-Training sinnlos wäre – im Gegenteil. Aber klassische Phishing-Schulungen, die auf verdächtige Absenderadressen oder fehlerhafte Links trainieren, bereiten Mitarbeiter nicht auf einen überzeugenden Videocall mit dem vermeintlichen CFO vor. Deepfakes sind ein eigener Angriffsvektor und erfordern gezieltes Training, das dieses Szenario explizit adressiert.

Vertrauen auf Sehen und Hören. Das ist die Kernbotschaft dieses Artikels: Audiovisuelle Wahrnehmung ist kein verlässliches Sicherheitsmerkmal mehr.

Was wirklich hilft

Prozesse statt Intuition. Jede Überweisung ab einem definierten Betrag erfordert eine Bestätigung über einen zweiten, unabhängigen Kanal. Nicht weil die anfragende Person verdächtig ist – sondern weil der Prozess es vorschreibt. Immer. Ohne Ausnahme. Egal wie dringend, egal wer anruft. Der Singapur-Fall zeigt: Erst als eine zweite, höhere Überweisung angefordert wurde, griff das natürliche Misstrauen. Ein verbindlicher Prozess hätte bereits die erste Transaktion abgefangen.

Zeitdruck als Warnsignal behandeln. Dringlichkeit ist das wichtigste Werkzeug von Betrügern. Prozessual verankern: Jede Anfrage, die Zeitdruck erzeugt, löst automatisch eine Verlangsamung aus – nicht eine Beschleunigung. In jedem der oben dokumentierten Fälle war inszenierte Dringlichkeit ein zentrales Element.

Code Words und Passphrasen. Einige Unternehmen setzen bereits auf vorab vereinbarte Sicherheitswörter, die bei ungewöhnlichen Anfragen über Telefon oder Videocall abgefragt werden können. Der Ferrari-Fall illustriert das Prinzip: Der Manager stellte eine persönliche Frage, die nur der echte CEO hätte beantworten können. Ein formalisiertes Code-Word-System macht diesen Ansatz nicht von der Geistesgegenwart des Einzelnen abhängig.

Awareness auf Führungsebene. C-Level-Personen sind die häufigsten Impersonation-Ziele – werden aber selten selbst geschult. Gerade Geschäftsführer und Vorstände sollten wissen, dass ihre öffentlich verfügbaren Aufnahmen als Trainingsmaterial für Deepfakes genutzt werden können. Jeder Auftritt auf einer Konferenz, jede Podcast-Folge, jedes Earnings-Call liefert potentielles Rohmaterial.

Technische Detektionstools. Es gibt erste kommerzielle Lösungen, die Audio- und Video-Streams auf Deepfake-Artefakte prüfen. Für hochriskante Kommunikationskanäle – etwa bei Finanzgenehmigungen – kann das eine sinnvolle Ergänzung sein. Die Erkennungsgenauigkeit ist allerdings noch nicht auf einem Niveau, das den alleinigen Einsatz ohne begleitende Prozesse rechtfertigen würde.

Challenge-Response bei Sprachauthentifizierung. Forschungsarbeiten zeigen, dass bestimmte auditive Herausforderungen aktuelle Voice-Cloning-Systeme deutlich überfordern: Flüstern, Sprechen mit zugehaltenem Mund oder in ungewöhnlichem Tonfall. Ein einfaches Beispiel: Den Anrufer bitten, eine bestimmte Phrase auf eine ungewöhnliche Art zu wiederholen. Ein Stimmmodell, das auf normales Sprechen trainiert wurde, versagt hier häufig.

Quelle: arxiv.org/abs/2402.18085 – AI-assisted Tagging of Deepfake Audio Calls

Fazit

Deepfakes sind keine Zukunftstechnologie und keine Spielerei wie Instagram-Filter. Sie sind bereits jetzt zugänglich, erschwinglich, effektiv – und sie werden aktiv eingesetzt. Die Fälle der letzten zwei Jahre zeigen, dass selbst aufmerksame, gut ausgebildete Mitarbeiter getäuscht werden können, wenn der Angriff sorgfältig vorbereitet ist.

Die Schadenszahlen steigen rasant. In der ersten Jahreshälfte 2025 wurden mehr Deepfake-Vorfälle registriert als im gesamten Zeitraum von 2017 bis 2024 zusammen. Deloitte rechnet mit 40 Milliarden US-Dollar KI-gestütztem Betrug in den USA bis 2027. Das ist kein abstraktes Risiko – es ist eine Entwicklung, die bereits im Gange ist.

Die Konsequenz ist unbequem: Wir können uns nicht mehr auf unsere Sinne verlassen. Was wir hören und sehen, kann synthetisch sein. Das bedeutet nicht, in Paranoia zu verfallen – es bedeutet, Prozesse so zu gestalten, dass sie auch dann funktionieren, wenn unsere Wahrnehmung versagt.

Sehen ist kein Beweis mehr. Hören auch nicht. Prozesse schon.

Weiterführende Quellen: