Irgendwie bekomme ich Bauchschmerzen
Neue Microsoft-KI kann Stimmen nach nur drei Sekunden imitieren
Bereits ein kleines Audiosample reicht, um ein verblüffend echt klingendes Stimmmodell zu erstellen, das beliebige Sätze sagen kann
Im vergangenen Jahr hat sich rund um das Thema künstliche Intelligenz eine ganze Menge getan: Während Stable Diffusion oder Midjourney eindrücklich demonstrieren, wie gut KIs mittlerweile bei der Erstellung von Bildern geworden sind, brilliert ChatGPT bei der Textkonversation und dem Lösen unterschiedlicher Aufgaben. Bei Microsoft beackert man nun noch ein weiteres Themenfeld.
Nachbau
Unter dem Namen VALL-E haben die Forscher von Microsoft eine neue KI präsentiert, die die Stimmen einzelner Personen imitieren kann. Verblüffend ist dabei vor allem, wie schnell das geht. Bereits ein Tonschnipsel in der Länge von drei Sekunden soll ausreichen, um eine Stimme nachahmen zu können. Dabei sollen sowohl die emotionale Färbung als auch der Ton der Umgebung erhalten bleiben.
Bei Microsoft sieht man für die Technologie eine Fülle von Anwendungsmöglichkeiten. So wären etwa hochqualitative Text-zu-Sprache-Funktionen denkbar, wo dann eine Textnachricht mit der Stimme des Gegenübers vorgelesen wird. Aber auch die Korrektur einer Aufnahme – etwa wenn eine Aussage angepasst werden muss – wäre denkbar.
Neue Microsoft-KI kann Stimmen nach nur drei Sekunden imitieren
Bereits ein kleines Audiosample reicht, um ein verblüffend echt klingendes Stimmmodell zu erstellen, das beliebige Sätze sagen kann
Im vergangenen Jahr hat sich rund um das Thema künstliche Intelligenz eine ganze Menge getan: Während Stable Diffusion oder Midjourney eindrücklich demonstrieren, wie gut KIs mittlerweile bei der Erstellung von Bildern geworden sind, brilliert ChatGPT bei der Textkonversation und dem Lösen unterschiedlicher Aufgaben. Bei Microsoft beackert man nun noch ein weiteres Themenfeld.
Nachbau
Unter dem Namen VALL-E haben die Forscher von Microsoft eine neue KI präsentiert, die die Stimmen einzelner Personen imitieren kann. Verblüffend ist dabei vor allem, wie schnell das geht. Bereits ein Tonschnipsel in der Länge von drei Sekunden soll ausreichen, um eine Stimme nachahmen zu können. Dabei sollen sowohl die emotionale Färbung als auch der Ton der Umgebung erhalten bleiben.
Bei Microsoft sieht man für die Technologie eine Fülle von Anwendungsmöglichkeiten. So wären etwa hochqualitative Text-zu-Sprache-Funktionen denkbar, wo dann eine Textnachricht mit der Stimme des Gegenübers vorgelesen wird. Aber auch die Korrektur einer Aufnahme – etwa wenn eine Aussage angepasst werden muss – wäre denkbar.
Neue Microsoft-KI kann Stimmen nach nur drei Sekunden imitieren
Bereits ein kleines Audiosample reicht, um ein verblüffend echt klingendes Stimmmodell zu erstellen, das beliebige Sätze sagen kann
www.derstandard.at