von Robert Klatt •
Stimmen eignen sich nicht als Passwort. Schon 10 Minuten Sprachaufnahmen reichen aus, um aktuelle Systeme von Microsoft und Apple zu täuschen.
Die US-Bank Schwab hat angekündigt, dass sie in Zukunft auch die Stimme ihrer Kunden als Passwort akzeptieren möchte. Microsoft, Google und Apple möchte ähnliche Konzepte ebenfalls realisieren. Der Konzern aus Redmond möchte mithilfe seines Azure-Dienstes die Stimme als Authentifizierungsmöglichkeit anbieten. Google und Apple sprechen noch nicht von einer konkreten Authentifizierungsfunktion, beide Unternehmen wollen aber Technologien bereitstellen, die anhand der Stimme individuelle Personen auseinanderhalten können.
Computerstimme überlistet Systeme
Während der Hackerkonferenz Def Con haben die Sicherheitsforscher John Seymour und Azeem Aqil gezeigt, dass diese Authentifizierungsmöglichkeit nicht nur theoretisch angegriffen werden kann. Sie erzeugten dafür eine künstliche Stimme, die per Machine Learning die Person zu der das „Passwort“ gehört imitieren konnte. Während ihrer Demonstration konnten die Forscher die mit der künstlichen Stimme sowohl Apples Siri als auch Microsofts Azure Speaker Recognition Cloud-Angebot täuschen. Beide Techniken hielten die synthetische Stimme für die echte Stimme des Forschers.
Die Umsetzung basiert auf dem Text to Speech (TTS) Verfahren, das Text in Sprachausgaben umwandelt. Genutzt haben die Salesforce-Angestellten aufgrund der hohen Nutzerfreundlichkeit Googles TTS-Dienst Tacotron 2.
10 Minuten Sprachaufnahme reichen
Eigentlich benötigen TTS-Systeme um die Stimme eines Menschen realistisch imitieren zu können rund 24 Stunden Aufnahmen in hoher Qualität, also ohne Nebengeräusche und Unterbrechungen wie „Äh“. Da in der Praxis selbst bei bekannten Personen diese Datenmengen nur schwer zu beschaffen sind, haben die Forscher eine Methode entwickelt dieses Hindernis zu umgehen. Neben dem reinen Beschaffen der Daten ist auch die damit verbundene Arbeit, die zum Training des neuronalen Netzes notwendig ist enorm. Eigentlich müssten die gesamten Aufnahmen manuell transkribiert werden, damit das neuronale Netz die gesprochenen Wörter erkennen und zuordnen kann.
Die neu entwickelte Methode benötigt lediglich zehn Minuten Sprachaufnahmen, die sich beispielsweise oft durch YouTube-Videos beziehen lassen. Anschließend werden diese Aufnahmen in kleine Stücke von jeweils zehn Sekunden Länge geschnitten. Bevor das neuronale Netz erste Sprachproben realer Personen bekam, wurde es durch die Open-Source-Sprachdatenbanken Blizzard und LJ Speech trainiert. Danach wurden die kurzen Abschnitte in das neuronale Netz eingespielt. Dabei wurden die Proben vorher deutlich mit Hilfe der Bibliothek pydub verlängert. Die Forscher konnten so aus zehn Minuten Material nach ihrer Bearbeitung 300 Minuten Material erzeugen, das sie dem neuronalen Netz zum Training einspielten.
Während der Demonstration wurden nicht nur die Apple und Microsoft Systeme, sondern auch die anwesenden Zuschauer getäuscht, die ebenfalls die „Echtheit“ der Stimme bestätigten.