ElevenLabsがScribe v2を発表:業界最高精度の音声認識モデル
重要ポイント
- ✓ Scribe v2 Realtimeはライブ文字起こしで150msのレイテンシを実現 - 最適化された条件では30-80msまで低下
- ✓ 自動言語検出と予測的文字起こしで90以上の言語をサポート
- ✓ Batchバージョンは最大100の専門用語のキーワードプロンプトと56のデータカテゴリのエンティティ検出を搭載
- ✓ 話者ダイアライゼーションはタイムスタンプ付きで最大48人の異なる話者をサポート
- ✓ 多言語ベンチマークで93.5%の精度 - WhisperとGemini Flashを上回る
何が起きたか
ElevenLabsはScribe v2をリリースしました。これは、同社が利用可能な最も正確な文字起こしシステムと主張する新世代の音声認識モデルです。リリースには2つの特化バージョンが含まれます:
- Scribe v2 Realtime(2026年1月6日)- ライブ会話AIと音声エージェント向けに最適化
- Scribe v2 Batch(2026年1月9日)- 長時間オーディオ処理、字幕作成、キャプション生成を大規模に行うために設計
このリリースにより、ElevenLabsはOpenAIのWhisper、Googleの音声認識、RevやOtter.aiなどのエンタープライズ文字起こしサービスと直接競合する立場になります。
Scribe v2 Realtime:会話AI向けに構築
Realtimeバージョンは、レイテンシが重要なライブアプリケーション(音声アシスタント、リアルタイム字幕、会話AIエージェント)向けに特別に設計されています。
主な機能
| 機能 | 仕様 |
|---|---|
| レイテンシ | 通常150ms未満、最適化で30-80ms |
| 言語 | 自動検出で90以上 |
| 精度 | 多言語ベンチマークで93.5% |
| 音声活動検出 | 内蔵VAD |
仕組み
Scribe v2 Realtimeは予測的文字起こしを使用します。モデルは文脈に基づいて次の単語と句読点を予測し、知覚されるレイテンシを削減します。完全な発話を待つ従来のASRシステムとは異なり、Scribe v2は話者が話している間に部分的な結果をストリーミングします。
システムはどの言語が話されているかを自動検出し、言語間のコードスイッチングを処理し、手動設定なしでアクセントや背景ノイズに適応します。
競合他社との性能比較
ElevenLabsのベンチマークによると、Scribe v2 Realtimeは以下を上回ります:
- OpenAI Whisper - ノイズの多い条件でより高い精度
- Google Gemini Flash - 同等の精度でより低いレイテンシ
- Amazon Transcribe - アクセントや方言のより良い処理
Scribe v2 Batch:エンタープライズグレードの文字起こし
Batchバージョンは異なるユースケースを対象としています。長いポッドキャストエピソード、会議録音、ビデオ字幕、そして速度よりも精度と詳細が重要な法的/医療文字起こしです。
キーワードプロンプト
ユーザーは最大100の専門用語(ブランド名、製品名、専門用語)を入力して、文脈を考慮した精度を確保できます。これは特に以下に価値があります:
- 医療文字起こし(薬品名、処置)
- 法的証言(事件名、法律用語)
- 技術コンテンツ(製品名、API用語)
- ブランドコンテンツ(会社名、商標)
エンティティ検出
Scribe v2 Batchは56カテゴリの機密データを自動的に識別してタイムスタンプを付けます。これには以下が含まれます:
- 健康情報(HIPAA関連データ)
- 支払い詳細(クレジットカード番号、銀行口座)
- 個人識別情報(社会保障番号、住所、電話番号)
- 認証情報(録音で言及されたパスワード、APIキー)
この機能は、組織が文字起こしを共有する前に機密情報を削除する必要があるコンプライアンスワークフロー向けに設計されています。
話者ダイアライゼーション
モデルは最大48人の異なる話者のラベリングをサポートし、笑い声、拍手、音楽などの非音声イベントのオーディオタグ付けを含みます。各話者セグメントには正確なタイムスタンプが含まれます。
なぜこれが重要か
コンテンツクリエイター向け
文字起こしは、ポッドキャスター、YouTuber、ビデオプロデューサーにとって基本的なワークフローです。正確で自動化された文字起こしにより:
- 検索可能なコンテンツアーカイブ - 文字起こしを検索してあらゆる瞬間を見つける
- アクセシビリティ - 自動的に字幕を生成
- 再利用 - オーディオコンテンツをブログ記事、ソーシャルクリップ、ニュースレターに変換
- SEO - 検索エンジンが文字起こしコンテンツをインデックス
音声AI開発者向け
Realtimeモデルは、次世代の音声アシスタントとエージェントを動かすように設計されています。150ms未満のレイテンシにより、開発者は真にレスポンシブに感じられる会話体験を構築できます。
エンタープライズ向け
エンティティ検出、話者ダイアライゼーション、キーワードプロンプトの組み合わせは、実際のコンプライアンスとワークフローのニーズに対応します:
- 法務 - 話者識別付きの正確な証言文字起こし
- 医療 - 自動PII検出付きのHIPAA準拠文字起こし
- 金融 - 機密な数字の自動墨消し付き会議議事録
Scribe v2へのアクセス方法
両モデルは以下で利用可能です:
- ElevenLabs API - アプリケーションに文字起こしを統合する開発者向け
- ElevenLabs Studio - 手動文字起こしタスク用のWebインターフェース
- ElevenLabs Agents - 会話AIプラットフォームに統合
料金
Scribe v2はElevenLabsの段階的サブスクリプションモデルに従い、バッチおよびリアルタイム文字起こし時間の月間クォータが設定されています。エンタープライズ顧客は大量ニーズに対してカスタム料金を交渉できます。
セキュリティとコンプライアンス
ElevenLabsはエンタープライズグレードのセキュリティを強調しています:
- SOC 2 Type II準拠
- 医療アプリケーション向けHIPAA対応
- 機密ワークロード向けゼロリテンションモード(処理後にオーディオを削除)
より大きな視点
ElevenLabsはテキスト読み上げスタートアップから完全な音声AIプラットフォームへと急速に拡大しました。Scribe v2はオーディオループを完成させます。ユーザーは今:
- テキスト読み上げと音声クローンで音声を生成
- Scribe v2で音声をテキストに文字起こし
- リアルタイム会話で両方を組み合わせるエージェントを構築
これにより、ElevenLabsは音声AIのワンストッププラットフォームとして位置づけられ、断片化された製品で同様の機能を提供するGoogle、Amazon、Microsoftなどの大手プレイヤーと競合します。
よくある質問
Scribe v2はOpenAI Whisperと比べてどうですか?
ElevenLabsは、Scribe v2が多言語ベンチマークで93.5%の精度を達成し、特にノイズの多い条件やアクセントのある音声でWhisperを上回ると主張しています。Realtimeバージョンは、Whisperのバッチ指向アーキテクチャよりも大幅に低いレイテンシも提供します。
Scribe v2はどの言語をサポートしていますか?
Scribe v2は自動言語検出で90以上の言語をサポートしています。モデルは手動設定なしで、同じオーディオ内での言語間のコードスイッチングを処理できます。
Scribe v2はHIPAA準拠ですか?
はい、ElevenLabsは医療アプリケーション向けにHIPAA対応のデプロイメントオプションを提供しており、処理直後にオーディオが削除されるゼロリテンションモードを含みます。
キーワードプロンプトとは何ですか?
キーワードプロンプトでは、モデルが正確に認識すべき最大100の特定用語(ブランド名、技術用語、固有名詞)を提供できます。これにより、ドメイン固有のコンテンツの精度が向上します。
Scribe v2は何人の話者を区別できますか?
Batchバージョンは最大48人の異なる話者の話者ダイアライゼーションをサポートし、各話者セグメントのタイムスタンプと非音声イベントの自動ラベリングを提供します。
リアルタイム文字起こしのレイテンシはどのくらいですか?
Scribe v2 Realtimeは通常150ms未満のレイテンシを達成し、最適化された構成では30-80msに達します。これはライブ会話AIアプリケーションに十分な速度です。