VALL-E: AI-Modell für Text-to-Speech von Microsoft simuliert Stimmen

Es benötigt dafür lediglich ein Audiosample von drei Sekunden. Trainiert wird VALL-E mit Ausschnitten aus Public-Domain-Audiobüchern. Microsoft räumt auch einen möglichen Missbrauch der Technik ein.
Tagged .Speichere in deinen Favoriten diesen permalink.

Kommentare sind geschlossen.