ElevenLabs lança Scribe v2: O modelo de voz para texto mais preciso do mercado

Por GenMediaLab • 20 de janeiro de 2026 • 5 min de leitura

Pontos Principais

✓ Scribe v2 Realtime oferece latência de 150ms para transcrição ao vivo - tão baixa quanto 30-80ms em condições otimizadas
✓ Suporta mais de 90 idiomas com detecção automática de idioma e transcrição preditiva
✓ Versão Batch inclui prompting de termos-chave para até 100 termos técnicos e detecção de entidades para 56 categorias de dados
✓ Diarização de falantes suporta até 48 falantes distintos com carimbos de tempo
✓ 93,5% de precisão em benchmarks multilíngues - supera Whisper e Gemini Flash

O que aconteceu

ElevenLabs lançou Scribe v2, uma nova geração de modelos de voz para texto que a empresa afirma ser o sistema de transcrição mais preciso disponível. O lançamento consiste em duas versões especializadas:

Scribe v2 Realtime (6 de janeiro de 2026) - Otimizado para IA conversacional ao vivo e agentes de voz
Scribe v2 Batch (9 de janeiro de 2026) - Projetado para processar áudio de longa duração, legendagem e criação de legendas em escala

Este lançamento posiciona a ElevenLabs para competir diretamente com o Whisper da OpenAI, o reconhecimento de voz do Google e serviços de transcrição empresarial como Rev e Otter.ai.

Experimente ElevenLabs Scribe v2

Experimente a transcrição de voz para texto mais precisa com suporte para mais de 90 idiomas e latência ultra baixa.

Experimente ElevenLabs Grátis →

Scribe v2 Realtime: Construído para IA conversacional

A versão Realtime é construída especificamente para aplicações ao vivo onde a latência importa - assistentes de voz, legendagem em tempo real e agentes de IA conversacional.

Capacidades principais

Recurso	Especificação
Latência	Menos de 150ms típico, 30-80ms otimizado
Idiomas	90+ com detecção automática
Precisão	93,5% em benchmarks multilíngues
Detecção de atividade de voz	VAD integrado

Como funciona

Scribe v2 Realtime usa transcrição preditiva - o modelo antecipa as próximas palavras e pontuação com base no contexto, reduzindo a latência percebida. Diferente dos sistemas ASR tradicionais que esperam por enunciados completos, o Scribe v2 transmite resultados parciais enquanto o falante fala.

O sistema detecta automaticamente qual idioma está sendo falado, lida com troca de código entre idiomas e se adapta a sotaques e ruído de fundo sem configuração manual.

Desempenho vs. concorrentes

De acordo com os benchmarks da ElevenLabs, o Scribe v2 Realtime supera:

OpenAI Whisper - Maior precisão em condições ruidosas
Google Gemini Flash - Menor latência com precisão comparável
Amazon Transcribe - Melhor tratamento de sotaques e dialetos

Scribe v2 Batch: Transcrição de nível empresarial

A versão Batch visa diferentes casos de uso - episódios longos de podcast, gravações de reuniões, legendas de vídeo e transcrição legal/médica onde precisão e detalhe importam mais que velocidade.

Prompting de termos-chave

Os usuários podem inserir até 100 termos técnicos (nomes de marcas, nomes de produtos, jargão) para garantir precisão consciente do contexto. Isso é particularmente valioso para:

Transcrição médica (nomes de medicamentos, procedimentos)
Depoimentos legais (nomes de casos, terminologia jurídica)
Conteúdo técnico (nomes de produtos, termos de API)
Conteúdo de marca (nomes de empresas, marcas registradas)

Detecção de entidades

Scribe v2 Batch identifica e carimba automaticamente com tempo 56 categorias de dados sensíveis, incluindo:

Informações de saúde (dados relevantes para LGPD/HIPAA)
Detalhes de pagamento (números de cartão de crédito, contas bancárias)
Informações de identificação pessoal (CPF, endereços, números de telefone)
Credenciais (senhas, chaves de API mencionadas em gravações)

Este recurso é projetado para fluxos de trabalho de conformidade onde as organizações precisam ocultar informações sensíveis antes de compartilhar transcrições.

Diarização de falantes

O modelo suporta rotulagem para até 48 falantes distintos e inclui marcação de áudio para eventos não vocais como risadas, aplausos e música. Cada segmento de falante inclui carimbos de tempo precisos.

Por que isso importa

Para criadores de conteúdo

Transcrição é um fluxo de trabalho fundamental para podcasters, YouTubers e produtores de vídeo. Transcrição automatizada e precisa permite:

Arquivos de conteúdo pesquisáveis - Encontre qualquer momento pesquisando na transcrição
Acessibilidade - Gere legendas automaticamente
Reutilização - Converta conteúdo de áudio em posts de blog, clipes sociais, newsletters
SEO - Motores de busca indexam conteúdo de transcrição

Para desenvolvedores de IA de voz

O modelo Realtime é projetado para impulsionar a próxima geração de assistentes de voz e agentes. Com latência inferior a 150ms, desenvolvedores podem construir experiências conversacionais que se sentem genuinamente responsivas.

Para empresas

A combinação de detecção de entidades, diarização de falantes e prompting de termos-chave aborda necessidades reais de conformidade e fluxo de trabalho:

Jurídico - Transcrições de depoimentos precisas com identificação de falantes
Saúde - Transcrição compatível com LGPD/HIPAA com detecção automática de PII
Finanças - Atas de reuniões com ocultação automática de números sensíveis

Como acessar o Scribe v2

Ambos os modelos estão disponíveis através de:

API ElevenLabs - Para desenvolvedores integrando transcrição em aplicações
ElevenLabs Studio - Interface web para tarefas de transcrição manual
ElevenLabs Agents - Integrado à plataforma de IA conversacional

Preços

Scribe v2 segue o modelo de assinatura em níveis da ElevenLabs com cotas mensais específicas para horas de transcrição batch e em tempo real. Clientes empresariais podem negociar preços personalizados para necessidades de alto volume.

Segurança e conformidade

ElevenLabs enfatiza segurança de nível empresarial:

Conformidade SOC 2 Type II
Prontidão para LGPD/HIPAA para aplicações de saúde
Modos de Retenção Zero para cargas de trabalho sensíveis (áudio excluído após processamento)

Construa com ElevenLabs Voice AI

Acesse Scribe v2 junto com text-to-speech, clonagem de voz e IA conversacional em uma plataforma.

Comece a construir grátis →

O panorama geral

ElevenLabs expandiu rapidamente de uma startup de text-to-speech para uma plataforma completa de IA de voz. Scribe v2 completa o ciclo de áudio - os usuários agora podem:

Gerar voz com text-to-speech e clonagem de voz
Transcrever voz de volta para texto com Scribe v2
Construir agentes que combinam ambos em conversas em tempo real

Isso posiciona a ElevenLabs como uma plataforma completa para IA de voz, competindo com jogadores maiores como Google, Amazon e Microsoft que oferecem capacidades similares através de produtos fragmentados.

Perguntas Frequentes

Como o Scribe v2 se compara ao OpenAI Whisper?

ElevenLabs afirma que o Scribe v2 alcança 93,5% de precisão em benchmarks multilíngues, superando o Whisper particularmente em condições ruidosas e com fala com sotaque. A versão Realtime também oferece latência significativamente menor que a arquitetura orientada a batch do Whisper.

Quais idiomas o Scribe v2 suporta?

Scribe v2 suporta mais de 90 idiomas com detecção automática de idioma. O modelo pode lidar com troca de código entre idiomas dentro do mesmo áudio sem configuração manual.

O Scribe v2 é compatível com LGPD/HIPAA?

Sim, ElevenLabs oferece opções de implantação prontas para LGPD/HIPAA para aplicações de saúde, incluindo modos de Retenção Zero onde o áudio é excluído imediatamente após o processamento.

O que é prompting de termos-chave?

Prompting de termos-chave permite fornecer até 100 termos específicos (nomes de marcas, jargão técnico, nomes próprios) que o modelo deve reconhecer com precisão. Isso melhora a precisão para conteúdo específico do domínio.

Quantos falantes o Scribe v2 pode distinguir?

A versão Batch suporta diarização de falantes para até 48 falantes distintos, com carimbos de tempo para cada segmento de falante e rotulagem automática de eventos não vocais.

Qual é a latência para transcrição em tempo real?

Scribe v2 Realtime tipicamente alcança menos de 150ms de latência, com configurações otimizadas alcançando 30-80ms. Isso é rápido o suficiente para aplicações de IA conversacional ao vivo.

Fontes

Este artigo foi útil?

Divulgação de afiliados: Esta avaliação contém links de afiliados. Se você comprar através de nossos links, podemos ganhar uma comissão sem custo adicional para você. Recomendamos apenas ferramentas que testamos pessoalmente e acreditamos que fornecem valor genuíno aos nossos leitores.