Update19.04.2026

Grok Speech to Text und Text to Speech APIs

Grok
xAI

17. April 2026

Grok Speech to Text und Text to Speech APIs
Schnell und genau. Natürliche, ausdrucksstarke Stimmen. Einfache Preisgestaltung. Mehrsprachige Unterstützung.

Heute freuen wir uns, zwei leistungsstarke, eigenständige Audio-APIs ankündigen zu können: Grok Speech to Text (STT) und Grok Text to Speech (TTS). Sie basieren auf demselben Stack, der auch Grok Voice, Tesla-Fahrzeuge und den Starlink-Kundensupport unterstützt.

Diese eigenständigen Endpunkte machen es Entwicklern leicht, hochwertige Sprachfunktionen in jede Anwendung zu integrieren, ganz gleich, ob Sie Sprachagenten, Echtzeit-Transkriptionstools, Barrierefreiheitslösungen, Podcasts oder interaktive Audioerlebnisse erstellen.

Speech to Text
Hohe Genauigkeit, geringe Latenz.

Generieren Sie Transkripte aus großen Audiodateien in Millisekunden über unsere REST-API
Transkribieren Sie Sprache in Echtzeit mit unserer WebSocket-API mit niedrigster Latenz
Wir haben leistungsstarke Funktionen wie Zeitstempel auf Wortebene, Sprechertagebuch und Mehrkanalunterstützung hinzugefügt. Darüber hinaus ist eine intelligente inverse Textnormalisierung enthalten, die Zahlen, Daten, Währungen und vieles mehr korrekt verarbeitet.

Preisgestaltung
Wir halten die Preise einfach und vorhersehbar: Speech to Text kostet $0,10 pro Stunde für Batch und $0,20 pro Stunde für Streaming. Vollständige Details und aktuelle Tarifgrenzen finden Sie in der xAI API-Konsole.

Transkription auf höchstem Niveau
Grok STT wurde im Vergleich zu den besten kommerziellen Modellen für Telefongespräche, Meetings, Video/Podcasts und Telefonie bewertet. Es zeichnet sich durch eine hervorragende Erkennung von Entitäten und geschäftlichen Anwendungsfällen wie Medizin, Recht und Finanzen aus.

Die meisten Transkriptionsmodelle geben Ihnen die gesprochenen Worte im Rohzustand wieder. Grok Speech to Text geht noch weiter.

Wenn Sie die Formatierung aktivieren, führt die API eine fortschrittliche inverse Textnormalisierung durch, die gesprochene Sprache auf intelligente Weise in eine korrekt strukturierte Ausgabe umwandelt:

Mehrsprachige Geläufigkeit
Die Grok Speech to Text API bietet eine starke mehrsprachige Unterstützung für mehr als 25 Sprachen, so dass Sie nahtlos zwischen den Sprachen wechseln können, ohne etwas zu verpassen.

Mehrkanal & Diarisierung (Sprecheridentifikation)
Transkribieren Sie mehrkanalige Audiodateien für eine perfekte Sprechertrennung mit derselben API.

Erkennen Sie Sprecher in voraufgezeichneten und in Echtzeit gestreamten Audiodateien mit Sprecher-IDs auf Wortebene mithilfe von Diarization.

Text in Sprache
Schnelle, natürliche und ausdrucksstarke Stimmen mit Speech Tags.

Umwandlung von langem Text in Sprache mit unserer REST API
Generieren Sie Sprache in Echtzeit mit unserer WebSocket-API

Feingranulare Steuerung
Fügen Sie natürliche Prosodie und Emotionen mit einfachen Inline- und Wrapping-Speech-Tags hinzu: [lachen], [seufzen], [flüstern], <Betonung>, <langsam>, <Pause> und viele mehr. Mit diesen Steuerelementen können Sie eine fesselnde, lebensechte Darstellung ohne komplexes Markup erstellen.
</pause></slow></emphasis>

Preisgestaltung
Der Preis für Text to Speech liegt bei 4,20 $ pro 1 Million Zeichen, mit einer einfachen nutzungsbasierten Abrechnung und ohne versteckte Gebühren.