ElevenLabs veröffentlicht Scribe v2: Das genaueste Sprache-zu-Text-Modell der Branche

Von GenMediaLab 5 Min. Lesezeit
ElevenLabs Scribe v2 Sprache-zu-Text-KI-Modell

Wichtige Erkenntnisse

  • Scribe v2 Realtime liefert 150ms Latenz für Live-Transkription - unter optimalen Bedingungen sogar 30-80ms
  • Unterstützt 90+ Sprachen mit automatischer Spracherkennung und prädiktiver Transkription
  • Batch-Version enthält Schlüsselwort-Prompting für bis zu 100 Fachbegriffe und Entitätserkennung für 56 Datenkategorien
  • Sprecherdiarisierung unterstützt bis zu 48 verschiedene Sprecher mit Zeitstempeln
  • 93,5% Genauigkeit bei mehrsprachigen Benchmarks - übertrifft Whisper und Gemini Flash

Was ist passiert

ElevenLabs hat Scribe v2 veröffentlicht, eine neue Generation von Sprache-zu-Text-Modellen, die das Unternehmen als das genaueste verfügbare Transkriptionssystem bezeichnet. Die Veröffentlichung umfasst zwei spezialisierte Versionen:

  • Scribe v2 Realtime (6. Januar 2026) - Optimiert für Live-Konversations-KI und Sprachassistenten
  • Scribe v2 Batch (9. Januar 2026) - Entwickelt für die Verarbeitung von Langform-Audio, Untertitelung und Untertitelung im großen Maßstab

Diese Veröffentlichung positioniert ElevenLabs im direkten Wettbewerb mit OpenAIs Whisper, Googles Spracherkennung und Enterprise-Transkriptionsdiensten wie Rev und Otter.ai.

ElevenLabs Scribe v2 testen

Erleben Sie die genaueste Sprache-zu-Text-Transkription mit Unterstützung für 90+ Sprachen und ultraniedrige Latenz.

ElevenLabs kostenlos testen →

Scribe v2 Realtime: Entwickelt für Konversations-KI

Die Realtime-Version ist speziell für Live-Anwendungen konzipiert, bei denen Latenz wichtig ist - Sprachassistenten, Echtzeit-Untertitelung und Konversations-KI-Agenten.

Hauptfunktionen

FunktionSpezifikation
LatenzUnter 150ms typisch, 30-80ms optimiert
Sprachen90+ mit automatischer Erkennung
Genauigkeit93,5% bei mehrsprachigen Benchmarks
SprachaktivitätserkennungIntegrierte VAD

Funktionsweise

Scribe v2 Realtime verwendet prädiktive Transkription - das Modell antizipiert kommende Wörter und Satzzeichen basierend auf dem Kontext, was die wahrgenommene Latenz reduziert. Im Gegensatz zu traditionellen ASR-Systemen, die auf vollständige Äußerungen warten, streamt Scribe v2 Teilergebnisse während der Sprecher spricht.

Das System erkennt automatisch, welche Sprache gesprochen wird, verarbeitet Code-Switching zwischen Sprachen und passt sich an Akzente und Hintergrundgeräusche an, ohne manuelle Konfiguration.

Leistung im Vergleich zu Wettbewerbern

Laut ElevenLabs’ Benchmarks übertrifft Scribe v2 Realtime:

  • OpenAI Whisper - Höhere Genauigkeit bei Störgeräuschen
  • Google Gemini Flash - Niedrigere Latenz bei vergleichbarer Genauigkeit
  • Amazon Transcribe - Bessere Verarbeitung von Akzenten und Dialekten

Scribe v2 Batch: Enterprise-Transkription

Die Batch-Version richtet sich an andere Anwendungsfälle - lange Podcast-Episoden, Besprechungsaufnahmen, Video-Untertitel und juristische/medizinische Transkription, bei denen Genauigkeit und Detail wichtiger sind als Geschwindigkeit.

Schlüsselwort-Prompting

Benutzer können bis zu 100 Fachbegriffe (Markennamen, Produktnamen, Fachjargon) eingeben, um kontextbewusste Genauigkeit zu gewährleisten. Dies ist besonders wertvoll für:

  • Medizinische Transkription (Medikamentennamen, Verfahren)
  • Juristische Aussagen (Fallnamen, juristische Terminologie)
  • Technische Inhalte (Produktnamen, API-Begriffe)
  • Markeninhalte (Firmennamen, Marken)

Entitätserkennung

Scribe v2 Batch identifiziert und zeitstempelt automatisch 56 Kategorien sensibler Daten, einschließlich:

  • Gesundheitsinformationen (DSGVO-relevante Daten)
  • Zahlungsdetails (Kreditkartennummern, Bankkonten)
  • Persönlich identifizierbare Informationen (Personalausweisnummern, Adressen, Telefonnummern)
  • Anmeldedaten (Passwörter, API-Schlüssel in Aufnahmen erwähnt)

Diese Funktion ist für Compliance-Workflows konzipiert, bei denen Organisationen sensible Informationen vor dem Teilen von Transkripten schwärzen müssen.

Sprecherdiarisierung

Das Modell unterstützt die Kennzeichnung für bis zu 48 verschiedene Sprecher und enthält Audio-Tagging für Nicht-Sprachereignisse wie Lachen, Applaus und Musik. Jedes Sprechersegment enthält präzise Zeitstempel.

Warum das wichtig ist

Für Content Creator

Transkription ist ein grundlegender Workflow für Podcaster, YouTuber und Videoproduzenten. Genaue, automatisierte Transkription ermöglicht:

  • Durchsuchbare Inhaltsarchive - Finden Sie jeden Moment durch Suche im Transkript
  • Barrierefreiheit - Generieren Sie automatisch Untertitel
  • Wiederverwendung - Konvertieren Sie Audioinhalte in Blog-Posts, Social Clips, Newsletter
  • SEO - Suchmaschinen indexieren Transkriptinhalte

Für Voice-KI-Entwickler

Das Realtime-Modell ist darauf ausgelegt, die nächste Generation von Sprachassistenten und Agenten anzutreiben. Mit unter 150ms Latenz können Entwickler Konversationserlebnisse schaffen, die sich wirklich reaktionsschnell anfühlen.

Für Unternehmen

Die Kombination aus Entitätserkennung, Sprecherdiarisierung und Schlüsselwort-Prompting adressiert reale Compliance- und Workflow-Anforderungen:

  • Recht - Genaue Aussageprotokolle mit Sprecheridentifikation
  • Gesundheitswesen - DSGVO-konforme Transkription mit automatischer PII-Erkennung
  • Finanzen - Besprechungsprotokolle mit automatischer Schwärzung sensibler Zahlen

Zugang zu Scribe v2

Beide Modelle sind verfügbar über:

  1. ElevenLabs API - Für Entwickler, die Transkription in Anwendungen integrieren
  2. ElevenLabs Studio - Web-Oberfläche für manuelle Transkriptionsaufgaben
  3. ElevenLabs Agents - Integriert in die Konversations-KI-Plattform

Preisgestaltung

Scribe v2 folgt dem gestaffelten Abonnementmodell von ElevenLabs mit spezifischen monatlichen Kontingenten für Batch- und Echtzeit-Transkriptionsstunden. Unternehmenskunden können individuelle Preise für hohe Volumina aushandeln.

Sicherheit und Compliance

ElevenLabs betont Enterprise-Sicherheit:

  • SOC 2 Type II Compliance
  • DSGVO-Bereitschaft für Gesundheitsanwendungen
  • Zero Retention-Modi für sensible Workloads (Audio wird nach der Verarbeitung gelöscht)

Mit ElevenLabs Voice AI entwickeln

Zugang zu Scribe v2 zusammen mit Text-to-Speech, Voice Cloning und Konversations-KI auf einer Plattform.

Jetzt kostenlos starten →

Das große Ganze

ElevenLabs hat sich schnell von einem Text-to-Speech-Startup zu einer vollständigen Voice-KI-Plattform entwickelt. Scribe v2 vervollständigt den Audio-Kreislauf - Benutzer können jetzt:

  1. Generieren Sprache mit Text-to-Speech und Voice Cloning
  2. Transkribieren Sprache zurück in Text mit Scribe v2
  3. Agenten bauen die beides in Echtzeit-Gesprächen kombinieren

Dies positioniert ElevenLabs als One-Stop-Plattform für Voice-KI und konkurriert mit größeren Akteuren wie Google, Amazon und Microsoft, die ähnliche Funktionen über fragmentierte Produkte anbieten.


Häufig gestellte Fragen

Wie schneidet Scribe v2 im Vergleich zu OpenAI Whisper ab?

ElevenLabs behauptet, dass Scribe v2 bei mehrsprachigen Benchmarks eine Genauigkeit von 93,5% erreicht und Whisper besonders bei Störgeräuschen und akzentbehafteter Sprache übertrifft. Die Realtime-Version bietet auch deutlich niedrigere Latenz als Whispers batch-orientierte Architektur.

Welche Sprachen unterstützt Scribe v2?

Scribe v2 unterstützt über 90 Sprachen mit automatischer Spracherkennung. Das Modell kann Code-Switching zwischen Sprachen innerhalb desselben Audios ohne manuelle Konfiguration verarbeiten.

Ist Scribe v2 DSGVO-konform?

Ja, ElevenLabs bietet DSGVO-konforme Bereitstellungsoptionen für Gesundheitsanwendungen, einschließlich Zero Retention-Modi, bei denen Audio sofort nach der Verarbeitung gelöscht wird.

Was ist Schlüsselwort-Prompting?

Schlüsselwort-Prompting ermöglicht es Ihnen, bis zu 100 spezifische Begriffe (Markennamen, technischen Jargon, Eigennamen) anzugeben, die das Modell genau erkennen soll. Dies verbessert die Genauigkeit für domänenspezifische Inhalte.

Wie viele Sprecher kann Scribe v2 unterscheiden?

Die Batch-Version unterstützt Sprecherdiarisierung für bis zu 48 verschiedene Sprecher, mit Zeitstempeln für jedes Sprechersegment und automatischer Kennzeichnung von Nicht-Sprachereignissen.

Was ist die Latenz für Echtzeit-Transkription?

Scribe v2 Realtime erreicht typischerweise unter 150ms Latenz, wobei optimierte Konfigurationen 30-80ms erreichen. Dies ist schnell genug für Live-Konversations-KI-Anwendungen.


Quellen

War dieser Artikel hilfreich?