Benutzerdefinierte Stimmen und Stimmenbibliothek
Benutzerdefinierte Stimmen und Stimmenbibliothek
Ihre Stimme. Ihre Marke. Klonen Sie eine Stimme aus einer kurzen Aufnahme und verwalten Sie Ihren gesamten Stimmkatalog über die xAI-Konsole.
Heute stellen wir Custom Voices vor. Klonen Sie Ihre Stimme aus ein paar Sekunden Audio und verwenden Sie sie sofort in den Grok Text to Speech und Voice Agent APIs.
Neben den benutzerdefinierten Stimmen bietet die neue Sprachbibliothek Ihrem Team einen zentralen Ort zum Durchsuchen, Vorhören und Verwalten all Ihrer Stimmen über die xAI-Konsole.
Anwendungsfälle
Custom Voices erschließen eine neue Klasse von Anwendungen.
Benutzerdefinierte Stimmen
Klonen Sie Ihre Stimme in weniger als zwei Minuten. Verwenden Sie sie überall.
Nehmen Sie etwa eine Minute natürlicher Sprache in der xAI-Konsole auf. Unsere Pipeline verifiziert, dass Sie der Eigentümer der Stimme sind, verarbeitet Ihre Aufnahme und liefert ein produktionsreifes Sprachmodell - alles in weniger als zwei Minuten. Ihre benutzerdefinierte Stimme verfügt über alle TTS-Funktionen: Sprachtags, mehrsprachige Ausgabe und REST- und WebSocket-Streaming.
Benutzerdefinierte Stimmen funktionieren überall dort, wo unsere integrierten Stimmen funktionieren. Übergeben Sie die voice_id an einen beliebigen TTS-Endpunkt oder verwenden Sie sie mit der Voice Agent API für Echtzeit-Konversationsagenten.
Stimmensicherheit
Jede benutzerdefinierte Stimme durchläuft einen zweistufigen Verifizierungsprozess, bevor sie erstellt werden kann. Zunächst liest der Sprecher eine Verifizierungsphrase, die unsere STT-Engine in Echtzeit transkribiert und abgleicht, um die Absicht und die Anwesenheit zu bestätigen. Dann berechnen wir Sprecher-Embeddings aus dem Verifizierungsclip und der vollständigen Aufnahme, um zu bestätigen, dass sie zu derselben Person gehören.
Man kann keine Stimme aus einer bereits vorhandenen Aufnahme klonen, und man kann auch nicht die Stimme einer anderen Person klonen.
Stimmenbibliothek
Die Stimmbibliothek ist ein neuer Bereich in der xAI-Konsole, in dem alle Stimmen, die Ihrem Team zur Verfügung stehen, organisiert sind, mit Ihren eigenen Kreationen neben unseren integrierten Stimmen. Durchsuchen, Vorhören und Verwalten von Stimmen von einer einzigen Seite aus.
Wir haben unseren integrierten Stimmenkatalog auf über 80 Stimmen in 28 Sprachen erweitert. Hören Sie sich jede Stimme in verschiedenen Szenarien an, bevor Sie eine für Ihre Anwendung auswählen.
Für die Verwendung von Text to Speech oder Voice Agent APIs mit benutzerdefinierten Stimmen fallen keine zusätzlichen Kosten an.

