xAI Custom Voices: Stimme in 2 Minuten klonen

Darius Z. Von Darius Z. 6 Min. Lesezeit
Studiomikrofon mit türkisfarbenen Schallwellen für xAI Stimmenklonung und Grok Custom Voices

Wichtige Erkenntnisse

  • xAI hat am 30. April Custom Voices gestartet — Nutzer können ihre Stimme aus rund 60 Sekunden aufgenommener Sprache klonen und über alle Grok Voice APIs verwenden
  • Die neue Voice Library umfasst über 80 vorgefertigte Stimmen in 28 Sprachen, kostenlos verfügbar über die xAI-Konsole
  • Die Voice Agent API kostet $3/Stunde ($0,05/Minute), eigenständiges TTS liegt bei $4,20 pro Million Zeichen
  • Ein zweistufiger Sprecherverifizierungsprozess verhindert das Klonen aus bestehenden Aufnahmen oder fremden Stimmen
  • Custom Voices sind derzeit auf Nutzer in den USA beschränkt, Illinois ist wegen Biometrie-Datenschutzgesetzen ausgenommen
80+ Integrierte Stimmen
28 Sprachen
$3/Std. Voice Agent API
<2 Min. Klonzeit

xAI hat Custom Voices am 30. April 2026 veröffentlicht und bringt damit Stimmenklonung auf die Grok-API-Plattform. Nutzer nehmen rund 60 Sekunden natürlicher Sprache über die xAI-Konsole auf, und das System liefert ein produktionsreifes Stimmmodell in unter zwei Minuten. Die geklonte Stimme funktioniert über Groks Text-to-Speech- und Voice Agent APIs zu Standard-API-Preisen. Zusätzlich hat xAI den integrierten Stimmenkatalog auf über 80 Optionen in 28 Sprachen erweitert.

Mit $3/Stunde für Voice Agents unterbietet xAI ElevenLabs und OpenAI preislich deutlich. Der Funktionsumfang ist geringer, aber die Preisgestaltung verändert die Kalkulation für jeden, der Sprache in ein Produkt einbaut.

Wie funktioniert xAI Stimmenklonung?

Der Klonprozess läuft komplett über die xAI-Konsole. Nutzer lesen mehrere Passagen nicht zusammenhängender Dialoge laut vor, während das System aufnimmt. Eine zweistufige Verifizierungspipeline erledigt den Rest: Zuerst liest der Sprecher eine Verifizierungsphrase, die Groks Speech-to-Text-Engine in Echtzeit transkribiert und abgleicht, um Absicht und Anwesenheit zu bestätigen. Dann berechnet das System Sprecher-Embeddings aus dem Verifizierungsclip und der vollständigen Aufnahme, um zu bestätigen, dass beide von derselben Person stammen.

Das heißt: Du kannst keine Stimme aus einer bestehenden Audiodatei klonen, und du kannst auch keine fremde Stimme klonen. Nach erfolgreicher Verifizierung verarbeitet das System die Aufnahme und liefert eine 8-stellige alphanumerische voice_id, die überall dort funktioniert, wo xAIs integrierte Stimmen verfügbar sind. Jedes Team kann bis zu 30 Custom Voices gleichzeitig erstellen, und jede Stimme lässt sich mit einem Klick löschen.

60-Sekunden-Stimmenklon

Nimm etwa eine Minute natürliche Sprache auf. Das System liefert ein produktionsreifes Stimmmodell in unter zwei Minuten.

Zweistufige Verifizierung

Sprecherverifizierung durch Echtzeit-Phrasenabgleich und Embedding-Vergleich verhindert unbefugtes Klonen.

28 Sprachen unterstützt

Custom Voices übernehmen multilinguale TTS-Fähigkeiten inklusive Speech Tags, Lachen, Flüstern und Pausen.

Team-basierter Datenschutz

Jede Custom Voice ist privat für dein Team. Wird nie mit anderen Nutzern geteilt oder für Modelltraining verwendet.

Was ist die Voice Library?

Die Voice Library ist ein neuer Bereich in der xAI-Konsole, der alle verfügbaren Stimmen an einem Ort bündelt. Custom Voices erscheinen neben den fünf integrierten Optionen (Eve, Ara, Rex, Sal und Leo). Mit diesem Launch hat xAI den vorgefertigten Katalog auf über 80 Stimmen in 28 Sprachen erweitert. Du kannst jede Stimme in verschiedenen Szenarien vorhören, bevor du dich entscheidest.

Jede integrierte Stimme hat eine eigene Persönlichkeit: Eve ist energisch, Ara warm und gesprächig, Rex professionell, Sal sanft und Leo klingt autoritativ. Custom Voices erhalten dieselben TTS-Fähigkeiten wie die integrierten Stimmen, einschließlich Inline-Speech-Tags für Flüstern, Lachen, Seufzen und Betonung. Die Ausgabe funktioniert über REST und WebSocket-Streaming.

Was kostet xAI Stimmenklonung?

Für Custom Voices fallen keine Zusatzkosten an. Die Preise entsprechen den Standard-xAI-API-Tarifen:

xAI Voice API Preise, Stand Mai 2026

Dienst Preis Anmerkungen
Text-to-Speech $4,20 / 1 Mio. Zeichen 5 integrierte + Custom Voices, 28 Sprachen
Voice Agent (Echtzeit) $3,00 / Stunde ($0,05/Min.) Speech-to-Speech via WebSocket
Speech-to-Text (Streaming) $0,20 / Stunde Echtzeit-Transkription
Speech-to-Text (Batch) $0,10 / Stunde Offline-Verarbeitung
Custom Voice erstellen Kostenlos Im API-Zugang enthalten

Die Voice Agent API läuft auf grok-voice-think-fast-1.0, das Reasoning mit Echtzeit-Sprache kombiniert. Es unterstützt Tool-Nutzung — Websuche, X-Suche, Dateisuche und externe MCP-Server-Verbindungen — sodass der Agent mitten im Gespräch tatsächlich Aktionen ausführen kann, nicht nur reden. Für clientseitige Anwendungen ermöglichen Ephemeral Tokens WebSocket-Verbindungen, ohne den Haupt-API-Key preiszugeben.

Programmatischer Zugriff auf den Custom-Voice-Erstellungsendpunkt (POST /v1/custom-voices) ist derzeit auf Teams mit Enterprise-Plan beschränkt. Das konsolenbasierte Voice-Erstellungstool steht allen Nutzern mit API-Zugang offen.

xAI Custom Voices ausprobieren

Custom Voices ist über die xAI-Konsole verfügbar. Die vollständige API-Dokumentation und Voice-Erstellungstools findest du unter docs.x.ai/docs/guides/voice.

Wie schneidet xAI preislich gegen ElevenLabs ab?

Der Preisunterschied zwischen xAI und ElevenLabs ist groß, wobei sie nicht exakt dasselbe Produkt verkaufen:

Vergleich basierend auf öffentlich verfügbaren Preisen, Stand Mai 2026

Feature xAI Custom Voices ElevenLabs
Voice Agent (pro Stunde) $3,00 $10,80 – $18,00
TTS (pro 1 Mio. Zeichen) $4,20 ~$3,00 – $18,00 (je nach Plan)
Integrierte Voice Library 80+ Stimmen, 28 Sprachen 3.000+ Stimmen, 32+ Sprachen
Klonzeit ~60 Sekunden Aufnahme ~30 Sekunden Aufnahme
Klon-API-Zugang Nur Enterprise-Plan Ab Starter-Plan
Regionale Verfügbarkeit Nur USA (ohne Illinois) Weltweit
Sicherheitsverifizierung Zweistufige Sprecherverifizierung Stimmeinwilligungssystem
Marktplatz Nein Iconic Marketplace (lizenzierte Stimmen)

ElevenLabs hat weiterhin die größere Voice Library, funktioniert weltweit und betreibt den Iconic Marketplace für lizenzierte Promi-Stimmen. xAI punktet beim Voice-Agent-Preis und berechnet nichts für die Custom-Voice-Erstellung. ElevenLabs erfordert mindestens ein Starter-Abo ($5/Monat), bevor du überhaupt klonen kannst.

Nur in den USA verfügbar

xAI Custom Voices sind derzeit auf Nutzer in den USA beschränkt, wobei Illinois wegen des Biometric Information Privacy Act (BIPA) ausgenommen ist. ElevenLabs ist weltweit ohne geografische Einschränkungen beim Stimmenklonung-Zugang verfügbar.

Falls du außerhalb der USA bist oder Zugang zu einem größeren Stimmenkatalog brauchst — ElevenLabs funktioniert weltweit und bietet heute über 3.000 Stimmen.

Welche Sicherheitsmaßnahmen gibt es?

xAIs zweistufige Verifizierung ist strenger als bei den meisten Stimmenklonung-Plattformen. Der Echtzeit-Phrasenabgleich bestätigt, dass der Sprecher während der Klon-Session physisch anwesend ist und keine voraufgenommene Datei einreicht. Der Embedding-Vergleich prüft dann, ob die Verifizierungsphrase und die vollständige Aufnahme tatsächlich von derselben Person stammen.

Custom Voices bleiben privat für das Team, das sie erstellt hat. xAI gibt an, dass Audiodaten in Echtzeit verarbeitet und nie gespeichert oder für Training verwendet werden. Die Plattform verfügt über SOC-2-Typ-II-Zertifizierung, HIPAA-Eignung und DSGVO-Konformität für europäische Daten — obwohl die Klonfunktion selbst bislang nur in den USA verfügbar ist.

Was das bedeutet

Für Sprach-KI-Entwickler

$3/Stunde Voice Agents verändern die Wirtschaftlichkeit für jeden, der Sprache im großen Maßstab einsetzt. Kundensupport-Bots und IVR-Systeme, die bei ElevenLabs $10–18/Stunde kosten, rechnen sich auf xAIs Stack plötzlich ganz anders. Die OpenAI-Realtime-API-Kompatibilität bedeutet außerdem, dass bestehende Voice-Apps, die für OpenAI gebaut wurden, ohne großen Code-Umbau wechseln können.

Für den Stimmenklonung-Markt

Stimmenklonung hat jetzt drei Stufen. ElevenLabs bietet die meisten Features, die größte Library und globale Reichweite — wir beleuchten die gesamte Landschaft in unserem beste KI-Stimmgeneratoren Vergleich. OpenAI liegt in der Mitte mit TTS in ChatGPT. xAI ist mit Abstand die günstigste Option, mit strengerer Verifizierung als beide Konkurrenten.

Die US-Beschränkung ist erheblich. Wer außerhalb der Staaten sitzt, kann weiterhin keine Custom Voices erstellen, was ElevenLabs international als Standard beibehält. Für kostenlose Alternativen schau dir unseren beste kostenlose Stimmenklonung-Tools Guide an. Wenn xAI das für weitere Länder öffnet, wird der Preisdruck auf alle anderen spürbar.

Häufig gestellte Fragen

Wie funktioniert xAI Custom Voices?

xAI Custom Voices ermöglicht es Nutzern, ihre Stimme zu klonen, indem sie etwa 60 Sekunden natürliche Sprache über die xAI-Konsole aufnehmen. Das System durchläuft einen zweistufigen Verifizierungsprozess: Zuerst wird eine gesprochene Passphrase in Echtzeit abgeglichen, dann werden Sprecher-Embeddings verglichen, um die Identität zu bestätigen. Das Ergebnis ist eine 8-stellige Voice-ID, die über alle xAI Voice APIs funktioniert, einschließlich Text-to-Speech und Voice Agent.

Was kostet xAI Stimmenklonung?

Die Erstellung einer Custom Voice bei xAI ist kostenlos. Die Kosten entstehen durch die API-Nutzung: Text-to-Speech kostet $4,20 pro Million Zeichen, und die Voice Agent API liegt bei $3,00 pro Stunde ($0,05 pro Minute) für Echtzeit-Speech-to-Speech-Interaktionen. Für die Nutzung einer Custom Voice anstelle einer integrierten Stimme fallen keine Zusatzkosten an.

Ist xAI Stimmenklonung außerhalb der USA verfügbar?

Nein. Stand Mai 2026 ist xAI Custom Voices auf Nutzer in den USA beschränkt, wobei Illinois wegen des Biometric Information Privacy Act ausgenommen ist. xAI hat keinen Zeitplan für eine internationale Expansion bekannt gegeben. Nutzer außerhalb der USA können weiterhin auf xAIs integrierte TTS-Stimmen zugreifen, jedoch keine Custom Voice Clones erstellen.

Wie schneidet xAI Custom Voices im Vergleich zu ElevenLabs ab?

xAI unterbietet ElevenLabs preislich: $3/Stunde für Voice Agents gegenüber $10–18/Stunde bei ElevenLabs. ElevenLabs führt bei den Features mit über 3.000 Stimmen, 32+ Sprachen, weltweiter Verfügbarkeit und dem Iconic Marketplace für lizenzierte Stimmen. xAI bietet strengere Sicherheitsverifizierung mit zweistufigem Sprecherabgleich, ist aber derzeit auf den US-Markt beschränkt.

Kann jemand meine Stimme ohne Erlaubnis mit xAI klonen?

Nein. xAIs zweistufiger Verifizierungsprozess erfordert die physische Anwesenheit des Sprechers beim Klonen. Der Nutzer muss in Echtzeit eine Verifizierungsphrase vorlesen, und das System vergleicht Stimm-Embeddings zwischen der Passphrase und der vollständigen Aufnahme, um die Übereinstimmung zu bestätigen. Bestehende Aufnahmen können nicht verwendet werden, und das Klonen fremder Stimmen wird durch die Verifizierungspipeline blockiert.


Quellen

  1. Custom Voices and Voice Library - xAI Official - 30. April 2026
  2. xAI launches Grok 4.3 and voice cloning suite - VentureBeat - 1. Mai 2026
  3. xAI’s Custom Voices feature - The Decoder - 2. Mai 2026
  4. xAI Voice API Documentation - Mai 2026

War dieser Artikel hilfreich?

0:00