ElevenLabs lança Scribe v2: O modelo de voz para texto mais preciso do mercado
Pontos Principais
- ✓ Scribe v2 Realtime oferece latência de 150ms para transcrição ao vivo - tão baixa quanto 30-80ms em condições otimizadas
- ✓ Suporta mais de 90 idiomas com detecção automática de idioma e transcrição preditiva
- ✓ Versão Batch inclui prompting de termos-chave para até 100 termos técnicos e detecção de entidades para 56 categorias de dados
- ✓ Diarização de falantes suporta até 48 falantes distintos com carimbos de tempo
- ✓ 93,5% de precisão em benchmarks multilíngues - supera Whisper e Gemini Flash
O que aconteceu
ElevenLabs lançou Scribe v2, uma nova geração de modelos de voz para texto que a empresa afirma ser o sistema de transcrição mais preciso disponível. O lançamento consiste em duas versões especializadas:
- Scribe v2 Realtime (6 de janeiro de 2026) - Otimizado para IA conversacional ao vivo e agentes de voz
- Scribe v2 Batch (9 de janeiro de 2026) - Projetado para processar áudio de longa duração, legendagem e criação de legendas em escala
Este lançamento posiciona a ElevenLabs para competir diretamente com o Whisper da OpenAI, o reconhecimento de voz do Google e serviços de transcrição empresarial como Rev e Otter.ai.
Experimente ElevenLabs Scribe v2
Experimente a transcrição de voz para texto mais precisa com suporte para mais de 90 idiomas e latência ultra baixa.
Experimente ElevenLabs Grátis →Scribe v2 Realtime: Construído para IA conversacional
A versão Realtime é construída especificamente para aplicações ao vivo onde a latência importa - assistentes de voz, legendagem em tempo real e agentes de IA conversacional.
Capacidades principais
| Recurso | Especificação |
|---|---|
| Latência | Menos de 150ms típico, 30-80ms otimizado |
| Idiomas | 90+ com detecção automática |
| Precisão | 93,5% em benchmarks multilíngues |
| Detecção de atividade de voz | VAD integrado |
Como funciona
Scribe v2 Realtime usa transcrição preditiva - o modelo antecipa as próximas palavras e pontuação com base no contexto, reduzindo a latência percebida. Diferente dos sistemas ASR tradicionais que esperam por enunciados completos, o Scribe v2 transmite resultados parciais enquanto o falante fala.
O sistema detecta automaticamente qual idioma está sendo falado, lida com troca de código entre idiomas e se adapta a sotaques e ruído de fundo sem configuração manual.
Desempenho vs. concorrentes
De acordo com os benchmarks da ElevenLabs, o Scribe v2 Realtime supera:
- OpenAI Whisper - Maior precisão em condições ruidosas
- Google Gemini Flash - Menor latência com precisão comparável
- Amazon Transcribe - Melhor tratamento de sotaques e dialetos
Scribe v2 Batch: Transcrição de nível empresarial
A versão Batch visa diferentes casos de uso - episódios longos de podcast, gravações de reuniões, legendas de vídeo e transcrição legal/médica onde precisão e detalhe importam mais que velocidade.
Prompting de termos-chave
Os usuários podem inserir até 100 termos técnicos (nomes de marcas, nomes de produtos, jargão) para garantir precisão consciente do contexto. Isso é particularmente valioso para:
- Transcrição médica (nomes de medicamentos, procedimentos)
- Depoimentos legais (nomes de casos, terminologia jurídica)
- Conteúdo técnico (nomes de produtos, termos de API)
- Conteúdo de marca (nomes de empresas, marcas registradas)
Detecção de entidades
Scribe v2 Batch identifica e carimba automaticamente com tempo 56 categorias de dados sensíveis, incluindo:
- Informações de saúde (dados relevantes para LGPD/HIPAA)
- Detalhes de pagamento (números de cartão de crédito, contas bancárias)
- Informações de identificação pessoal (CPF, endereços, números de telefone)
- Credenciais (senhas, chaves de API mencionadas em gravações)
Este recurso é projetado para fluxos de trabalho de conformidade onde as organizações precisam ocultar informações sensíveis antes de compartilhar transcrições.
Diarização de falantes
O modelo suporta rotulagem para até 48 falantes distintos e inclui marcação de áudio para eventos não vocais como risadas, aplausos e música. Cada segmento de falante inclui carimbos de tempo precisos.
Por que isso importa
Para criadores de conteúdo
Transcrição é um fluxo de trabalho fundamental para podcasters, YouTubers e produtores de vídeo. Transcrição automatizada e precisa permite:
- Arquivos de conteúdo pesquisáveis - Encontre qualquer momento pesquisando na transcrição
- Acessibilidade - Gere legendas automaticamente
- Reutilização - Converta conteúdo de áudio em posts de blog, clipes sociais, newsletters
- SEO - Motores de busca indexam conteúdo de transcrição
Para desenvolvedores de IA de voz
O modelo Realtime é projetado para impulsionar a próxima geração de assistentes de voz e agentes. Com latência inferior a 150ms, desenvolvedores podem construir experiências conversacionais que se sentem genuinamente responsivas.
Para empresas
A combinação de detecção de entidades, diarização de falantes e prompting de termos-chave aborda necessidades reais de conformidade e fluxo de trabalho:
- Jurídico - Transcrições de depoimentos precisas com identificação de falantes
- Saúde - Transcrição compatível com LGPD/HIPAA com detecção automática de PII
- Finanças - Atas de reuniões com ocultação automática de números sensíveis
Como acessar o Scribe v2
Ambos os modelos estão disponíveis através de:
- API ElevenLabs - Para desenvolvedores integrando transcrição em aplicações
- ElevenLabs Studio - Interface web para tarefas de transcrição manual
- ElevenLabs Agents - Integrado à plataforma de IA conversacional
Preços
Scribe v2 segue o modelo de assinatura em níveis da ElevenLabs com cotas mensais específicas para horas de transcrição batch e em tempo real. Clientes empresariais podem negociar preços personalizados para necessidades de alto volume.
Segurança e conformidade
ElevenLabs enfatiza segurança de nível empresarial:
- Conformidade SOC 2 Type II
- Prontidão para LGPD/HIPAA para aplicações de saúde
- Modos de Retenção Zero para cargas de trabalho sensíveis (áudio excluído após processamento)
Construa com ElevenLabs Voice AI
Acesse Scribe v2 junto com text-to-speech, clonagem de voz e IA conversacional em uma plataforma.
Comece a construir grátis →O panorama geral
ElevenLabs expandiu rapidamente de uma startup de text-to-speech para uma plataforma completa de IA de voz. Scribe v2 completa o ciclo de áudio - os usuários agora podem:
- Gerar voz com text-to-speech e clonagem de voz
- Transcrever voz de volta para texto com Scribe v2
- Construir agentes que combinam ambos em conversas em tempo real
Isso posiciona a ElevenLabs como uma plataforma completa para IA de voz, competindo com jogadores maiores como Google, Amazon e Microsoft que oferecem capacidades similares através de produtos fragmentados.
Perguntas Frequentes
Como o Scribe v2 se compara ao OpenAI Whisper?
ElevenLabs afirma que o Scribe v2 alcança 93,5% de precisão em benchmarks multilíngues, superando o Whisper particularmente em condições ruidosas e com fala com sotaque. A versão Realtime também oferece latência significativamente menor que a arquitetura orientada a batch do Whisper.
Quais idiomas o Scribe v2 suporta?
Scribe v2 suporta mais de 90 idiomas com detecção automática de idioma. O modelo pode lidar com troca de código entre idiomas dentro do mesmo áudio sem configuração manual.
O Scribe v2 é compatível com LGPD/HIPAA?
Sim, ElevenLabs oferece opções de implantação prontas para LGPD/HIPAA para aplicações de saúde, incluindo modos de Retenção Zero onde o áudio é excluído imediatamente após o processamento.
O que é prompting de termos-chave?
Prompting de termos-chave permite fornecer até 100 termos específicos (nomes de marcas, jargão técnico, nomes próprios) que o modelo deve reconhecer com precisão. Isso melhora a precisão para conteúdo específico do domínio.
Quantos falantes o Scribe v2 pode distinguir?
A versão Batch suporta diarização de falantes para até 48 falantes distintos, com carimbos de tempo para cada segmento de falante e rotulagem automática de eventos não vocais.
Qual é a latência para transcrição em tempo real?
Scribe v2 Realtime tipicamente alcança menos de 150ms de latência, com configurações otimizadas alcançando 30-80ms. Isso é rápido o suficiente para aplicações de IA conversacional ao vivo.