ElevenLabs erweitert Google-Cloud-Partnerschaft mit NVIDIA-Blackwell-GPUs

Von GenMediaLab • 2. März 2026 • 5 Min. Lesezeit

ElevenLabs hat eine mehrjährige Verlängerung seiner Google-Cloud-Partnerschaft unterzeichnet und erhält Zugang zu G4-Virtual-Machines mit NVIDIA RTX PRO 6000 Blackwell GPUs. Die Vereinbarung integriert zudem Googles Gemini-Modelle in die ElevenLabs Agents Platform und Veo in die Creative Platform für synchronisierte Video- und Audioproduktion.

Wichtige Erkenntnisse

✓ Mehrjährige Google-Cloud-Verlängerung bringt NVIDIA-Blackwell-GPUs für schnellere Sprachmodell-Training und Inferenz
✓ Gemini-Modelle steuern jetzt Reasoning und mehrstufige Planung in ElevenLabs-Sprach-Agents
✓ Veo-Integration ermöglicht Teams die Produktion synchronisierter Video- und Audio-Inhalte in einem Workflow
✓ ElevenLabs-Lösungen sind jetzt im Google Cloud Marketplace mit GCP-Commit-Credit-Unterstützung verfügbar
✓ Enterprise-Kunden erhalten schnellere Inferenz, geringere Latenz und Echtzeit-Sprach-Agents in über 70 Sprachen

ElevenLabs Sprach-KI ausprobieren

Erstellen Sie Sprach-Agents, generieren Sie Sprache in über 70 Sprachen und nutzen Sie die vollständige ElevenLabs-Plattform.

ElevenLabs kostenlos testen →

Was die Partnerschaft umfasst

Die erweiterte Zusammenarbeit deckt drei Kernbereiche ab: Infrastruktur, Modellintegration und Enterprise-Vertrieb.

70+ Unterstützte Sprachen

G4 VMs NVIDIA Blackwell GPUs

4.7/5 GenMediaLab Bewertung

Mehrjährig Partnerschaftsdauer

Infrastruktur: ElevenLabs betreibt seine Sprachmodelle auf Google Cloud G4 Virtual Machines mit NVIDIA RTX PRO 6000 Blackwell GPUs. Diese VMs bieten bis zu 96 GB Speicher pro GPU, bis zu 768 GB GDDR7-Gesamtspeicher und bis zu 9x höheren Durchsatz im Vergleich zu G2-Instanzen der Vorgeneration. Der größere GPU-Cluster ermöglicht schnellere Trainingszyklen und Inferenz mit geringerer Latenz für Enterprise-Deployments.

Modellintegration: Googles Gemini-Modelle werden in die ElevenLabs Agents Platform integriert für fortgeschrittenes Reasoning und mehrstufige Planung in Sprachassistenten. Zusätzlich wird Googles Veo-Videogenerierungsmodell in die ElevenLabs Creative Platform integriert, sodass Teams Video- und Audio-Inhalte gemeinsam produzieren können.

Enterprise-Vertrieb: ElevenLabs-Lösungen sind jetzt im Google Cloud Marketplace gelistet. Unternehmen können Sprach-KI-Tools mit vereinfachter Abrechnung und Compliance erwerben und einsetzen. Bestehende GCP-Commit-Credits können für ElevenLabs-Dienste verwendet werden.

NVIDIA Blackwell: Was es für Sprach-KI bedeutet

Die G4-VMs stellen ein deutliches Hardware-Upgrade für ElevenLabs Infrastruktur dar. NVIDIA Blackwell GPUs verfügen über Tensor Cores und RT Cores der vierten Generation, die speziell für KI-Workloads entwickelt wurden.

Schnellere Inferenz

Bis zu 9x höherer Durchsatz gegenüber G2-Instanzen für Sprachgenerierung mit geringerer Latenz

Größeres Modell-Training

768 GB GDDR7-Speicher ermöglicht das Training größerer multimodaler Modelle

Flexible Skalierung

Konfigurationen von 1 bis 8 GPUs mit MIG-Partitionierung für Workload-Isolation

Globale Reichweite

Googles Cloud-Infrastruktur liefert konsistente Performance über alle Regionen hinweg

ElevenLabs-Mitgründer Mati Staniszewski sagte, das Hardware-Upgrade wirke sich direkt auf die Produktqualität aus: „Mit G4-VMs auf Basis von NVIDIA Blackwell treiben wir unsere multimodalen Modelle noch weiter voran – schnellere Inferenz, bessere Zuverlässigkeit, sofortige Antworten in allen Sprachen. Das Ziel bleibt: Sprach-Agents, die im Enterprise-Maßstab ohne Kompromisse funktionieren.“

Ian Buck, VP und GM für Hyperscale und HPC bei NVIDIA, ergänzte: „Genau diese Art von Ökosystem-Innovation haben wir mit Blackwell vorgesehen – Pioniere wie ElevenLabs dabei zu unterstützen, intelligentere und reaktionsschnellere KI-Agents und Media-Tools in jede Branche zu bringen.“

Gemini steuert ElevenLabs Sprach-Agents

Die Agents-Platform-Integration bringt Geminis Reasoning-Fähigkeiten in ElevenLabs-Sprachassistenten. Gemini übernimmt die „Denk“-Ebene – Kontextverständnis, Planung mehrstufiger Antworten und Funktionsaufrufe – während ElevenLabs die Sprachebene mit Text-to-Speech bei geringer Latenz abdeckt.

Diese Kombination zielt auf Enterprise-Anwendungsfälle ab, in denen Sprach-Agents komplexe Gespräche bewältigen müssen: Kundensupport mit mehreren Systemen, Vertriebsgespräche mit Produktdaten und Trainingssimulationen, die sich an Lernerantworten anpassen.

So funktioniert es

Gemini liefert ultra-schnelles Reasoning und Function Calling als KI-Gehirn hinter Sprach-Agents. ElevenLabs liefert die menschenähnliche Sprachausgabe. Gemeinsam schaffen sie konversationelle KI, die Absichten versteht, Informationen abruft und in Echtzeit natürlich antwortet.

Veo-Integration: Video trifft auf Sprache

Die Creative-Platform-Integration bringt Googles Veo-Videogenerierungsmodell neben ElevenLabs Audio-Tools. Teams können Video-Inhalte generieren und Voiceovers, Soundeffekte sowie Erzählung in einem Produktionsworkflow hinzufügen.

Zielanwendungsfälle umfassen Werbung, Unternehmensschulungen, interne Kommunikation und Kundenbildung – Szenarien, in denen Organisationen sowohl professionelles Video als auch Sprach-Inhalte im großen Maßstab benötigen.

Matt Renner, President und Chief Revenue Officer bei Google Cloud, fasste die Partnerschaft in Enterprise-Begriffen zusammen: „Durch die Nutzung des vollständigen KI-Stacks von Google Cloud, einschließlich unserer führenden KI-Modelle sowie modernster beschleunigter Computing-Plattformen von NVIDIA, ermöglicht ElevenLabs Unternehmen, die Art und Weise zu transformieren, wie sie mit Nutzern interagieren.“

Verfügbarkeit im Google Cloud Marketplace

ElevenLabs Text-to-Speech-, konversationelle KI- und Dubbing-Lösungen sind jetzt direkt über den Google Cloud Marketplace erhältlich. Für Enterprise-Beschaffung ist das relevant, weil:

Vereinfachte Abrechnung über bestehende Google-Cloud-Konten
GCP-Commit-Credits können für ElevenLabs-Dienste verwendet werden
Compliance-Ausrichtung mit den Sicherheitszertifizierungen von Google Cloud
Schnelleres Deployment ohne separate Anbieter-Onboarding

Dai Vu, Managing Director of Marketplace and ISV GTM Programs bei Google Cloud, sagte: „Die Aufnahme der ElevenLabs-Lösung in den Google Cloud Marketplace hilft Kunden, Text-to-Speech, Dubbing und konversationelle KI schnell auf der vertrauenswürdigen, globalen Infrastruktur von Google Cloud zu deployen, zu verwalten und auszubauen.“

Was das bedeutet

Diese Partnerschaft spiegelt einen breiteren Trend in der KI wider: Sprachtechnologie entwickelt sich von eigenständigen APIs hin zu tief integrierter Enterprise-Infrastruktur. ElevenLabs ist nicht mehr nur ein Text-to-Speech-Anbieter – nach Schritten wie Scribe v2 für Sprache-zu-Text und dem Iconic Voice Marketplace positioniert sich das Unternehmen als vollwertige Sprach-KI-Plattform mit Hyperscaler-Rechenleistung im Hintergrund.

Für Creator und Unternehmen, die Sprach-KI-Tools evaluieren, ergeben sich folgende praktische Auswirkungen:

Geringere Latenz für Echtzeit-Anwendungen wie Live-Dubbing und Sprach-Agents
Bessere Modellqualität durch Training auf leistungsstärkerer Hardware
Einfachere Beschaffung für Organisationen, die bereits auf Google Cloud sind
Multimodale Workflows mit Veo-Video und ElevenLabs-Audio

Die Gemini-Integration ist besonders bedeutsam. Sprach-Agents, die komplexe Anfragen durchdenken und Daten aus mehreren Systemen abrufen können, repräsentieren die nächste Phase konversationeller KI jenseits einfacher Frage-Antwort-Chatbots.

Sprach-Agents mit ElevenLabs erstellen

Zugang zu Text-to-Speech, Voice Cloning, konversationeller KI und Dubbing in über 70 Sprachen auf einer Plattform.

Mit ElevenLabs starten →

Häufig gestellte Fragen

Wofür werden NVIDIA Blackwell GPUs in dieser Partnerschaft eingesetzt?

ElevenLabs nutzt NVIDIA RTX PRO 6000 Blackwell GPUs über Google Cloud G4 Virtual Machines zum Training und zur Bereitstellung seiner Sprach-KI-Modelle. Diese GPUs bieten bis zu 9x höheren Durchsatz im Vergleich zu Instanzen der Vorgeneration – mit schnellerer Inferenz, geringerer Latenz und Unterstützung für das Training größerer multimodaler Modelle.

Wie integriert sich Gemini mit ElevenLabs?

Googles Gemini-Modelle sind in die ElevenLabs Agents Platform integriert und übernehmen Reasoning sowie mehrstufige Planung für Sprachassistenten. Gemini fungiert als KI-Gehirn, das Kontext versteht und Funktionen aufruft, während ElevenLabs die menschenähnliche Sprachausgabe für die Konversation liefert.

Kann ich GCP-Credits für ElevenLabs-Dienste nutzen?

Ja. Enterprise-Kunden mit bestehenden Google Cloud Platform Commit Credits können diese für ElevenLabs Sprach-KI-Dienste verwenden, die über den Google Cloud Marketplace erworben werden. Dazu gehören Text-to-Speech, konversationelle KI und Dubbing-Lösungen.

Wofür ist die Veo-Integration gedacht?

Googles Veo-Videogenerierungsmodell wird in die ElevenLabs Creative Platform integriert und ermöglicht Teams die Produktion von Video- und Audio-Inhalten in einem Workflow. Das zielt auf Anwendungsfälle wie Werbung, Unternehmensschulungen und Kundenbildung, in denen Organisationen synchronisierte Video- und Sprach-Inhalte benötigen.

Wie viele Sprachen unterstützt ElevenLabs?

ElevenLabs unterstützt Content-Erstellung und Lokalisierung in über 70 Sprachen. Die erweiterte Google-Cloud-Partnerschaft liefert die Infrastruktur für Echtzeit-Sprach-Agents und Text-to-Speech in allen unterstützten Sprachen mit konsistenter geringer Latenz.

Quellen

War dieser Artikel hilfreich?

Zuletzt aktualisiert: 2. März 2026

Affiliate-Offenlegung: Diese Bewertung enthält Affiliate-Links. Wenn Sie über unsere Links kaufen, erhalten wir möglicherweise eine Provision ohne zusätzliche Kosten für Sie. Wir empfehlen nur Tools, die wir persönlich getestet haben und von denen wir glauben, dass sie unseren Lesern einen echten Mehrwert bieten.