xAIカスタムボイス:2分で音声クローン

Darius Z. 著者: Darius Z. 6 分で読めます
スタジオマイクとティール色の同心円音波 — xAI 音声クローンとGrok カスタムボイス

重要ポイント

  • xAIは4月30日にカスタムボイスを公開し、約60秒の録音から音声をクローンしてすべてのGrok音声APIで使用可能にしました
  • 新しいボイスライブラリには28言語対応の80以上の内蔵ボイスが含まれ、xAIコンソールから追加料金なしで利用できます
  • Voice Agent APIの料金は$3/時間($0.05/分)、単体TTSは100万文字あたり$4.20です
  • 2段階の話者認証プロセスにより、既存の録音や他人の音声からのクローンがブロックされます
  • カスタムボイスは現在米国内のユーザーに限定され、生体認証プライバシー法によりイリノイ州は除外されています
80+ 内蔵ボイス
28 対応言語
$3/時間 Voice Agent API
<2分 クローン時間

xAI(エックスエーアイ)は2026年4月30日にカスタムボイスを公開し、Grok(グロック)APIプラットフォームに音声クローン機能を追加しました。ユーザーはxAIコンソールで約60秒の自然な発話を録音するだけで、2分以内に本番環境で使える音声モデルが生成されます。クローンされた音声はGrokのテキスト読み上げおよびVoice Agent APIで標準API料金で利用できます。xAIはさらに、内蔵ボイスカタログを28言語対応の80以上に拡充しました。

Voice Agentの料金が$3/時間という設定で、xAIはElevenLabs(イレブンラブズ)やOpenAIの価格を大幅に下回っています。機能面ではやや劣りますが、音声をプロダクトに組み込む開発者にとってコスト構造が根本的に変わります。

xAIの音声クローンはどのように機能するのか?

クローンプロセスはすべてxAIコンソール上で完結します。ユーザーは関連性のない複数の文章を声に出して読み上げ、システムがそれを録音します。2段階の認証パイプラインが残りの処理を担います。まず、話者が認証フレーズを読み上げ、Grokの音声テキスト変換エンジンがリアルタイムで文字起こしと照合を行い、本人の意思と存在を確認します。次に、認証クリップと完全な録音から話者エンベディングを計算し、両方が同一人物のものであることを確認します。

この設計により、既存の音声ファイルからクローンすることも、他人の音声をクローンすることもできません。認証が完了すると、システムは録音を処理し、xAIの内蔵ボイスと同じ場所で使える8文字の英数字voice_idを発行します。各チームは最大30のカスタムボイスを同時に作成でき、ワンクリックで削除可能です。

60秒で音声クローン

約1分間の自然な発話を録音するだけで、2分以内に本番環境対応の音声モデルが生成されます。

2段階認証

リアルタイムのフレーズ照合とエンベディング比較による話者認証で、不正なクローンをブロックします。

28言語対応

カスタムボイスは多言語TTSの機能を引き継ぎ、スピーチタグ、笑い声、ささやき、間などに対応しています。

チーム単位のプライバシー

すべてのカスタムボイスはチーム内でプライベートに管理されます。他のユーザーと共有されたりモデル学習に使われることはありません。

ボイスライブラリとは何か?

ボイスライブラリは、xAIコンソール内の新セクションで、利用可能なすべての音声を一か所にまとめています。カスタムボイスは5つの内蔵オプション(Eve、Ara、Rex、Sal、Leo)と並んで表示されます。今回のリリースで、xAIはプリビルトカタログを28言語対応の80以上の音声に拡充しました。任意の音声をさまざまなシナリオでプレビューしてから選択できます。

各内蔵ボイスには異なる個性があります。Eveはエネルギッシュ、Araは温かく会話的、Rexはプロフェッショナル、Salはスムーズ、Leoは権威的です。カスタムボイスは内蔵ボイスと同じTTS機能を備え、ささやき、笑い声、ため息、強調などのインラインスピーチタグに対応しています。出力はRESTとWebSocketストリーミングの両方で利用可能です。

xAI音声クローンの料金はいくらか?

カスタムボイスの使用に追加料金はかかりません。料金はxAI APIの標準料金に準じます:

2026年5月時点のxAI Voice API料金

サービス 料金 備考
テキスト読み上げ $4.20 / 100万文字 5つの内蔵 + カスタムボイス、28言語
Voice Agent(リアルタイム) $3.00 / 時間($0.05/分) WebSocket経由の音声対話
音声テキスト変換(ストリーミング) $0.20 / 時間 リアルタイム文字起こし
音声テキスト変換(バッチ) $0.10 / 時間 オフライン処理
カスタムボイス作成 無料 APIアクセスに含まれる

Voice Agent APIはgrok-voice-think-fast-1.0で動作し、推論とリアルタイム音声を組み合わせています。ツール利用にも対応しており、ウェブ検索、X検索、ファイル検索、外部MCPサーバー接続が可能です。つまりエージェントは会話中に実際のアクションを実行でき、単に話すだけではありません。クライアントサイドのアプリケーション向けには、エフェメラルトークンによりメインAPIキーを公開せずにWebSocket接続を開くことができます。

カスタムボイス作成エンドポイント(POST /v1/custom-voices)へのプログラムアクセスは、現在Enterpriseプランのチームに限定されています。コンソールベースの音声作成ツールは、APIアクセスを持つすべてのユーザーが利用できます。

xAIカスタムボイスを試す

カスタムボイスはxAIコンソールから利用できます。APIドキュメントと音声作成ツールの詳細はdocs.x.ai/docs/guides/voiceをご覧ください。

xAIの音声料金はElevenLabsと比較してどうか?

xAIとElevenLabsの料金差は大きいですが、提供内容は完全に同じではありません:

2026年5月時点の公開料金に基づく比較

機能 xAI カスタムボイス ElevenLabs
Voice Agent(時間あたり) $3.00 $10.80 - $18.00
TTS(100万文字あたり) $4.20 ~$3.00 - $18.00(プランにより変動)
内蔵ボイスライブラリ 80+ボイス、28言語 3,000+ボイス、32+言語
音声クローン所要時間 約60秒の録音 約30秒の録音
クローンAPIアクセス Enterpriseプランのみ Starterプラン以上
利用可能地域 米国のみ(イリノイ州除く) グローバル
安全性認証 2段階話者認証 音声同意システム
マーケットプレイス なし Iconic Marketplace(ライセンス音声)

ElevenLabsは依然としてより大きな音声ライブラリを持ち、グローバルに利用可能で、ライセンス済み著名人音声向けのIconic Marketplaceを運営しています。xAIはVoice Agentの料金で優位に立ち、カスタムボイス作成には課金されません。ElevenLabsでは音声クローンの前に少なくともStarterサブスクリプション($5/月)が必要です。

米国限定の利用可能性

xAIカスタムボイスは現在米国内のユーザーに限定されており、イリノイ州は同州の生体認証情報プライバシー法(BIPA)により除外されています。ElevenLabsは音声クローンへのアクセスに地理的制限なくグローバルに運営されています。

米国外のユーザーやより豊富なボイスカタログが必要な場合は、ElevenLabsがグローバルで利用可能で、3,000以上のボイスを提供しています。

どのような安全対策が講じられているのか?

xAIの2段階認証は、ほとんどの音声クローンプラットフォームが要求するものよりも厳格です。リアルタイムのフレーズ照合により、話者がクローンセッション中に物理的に存在していることを確認し、事前録音されたファイルの送信ではないことを検証します。エンベディング比較により、認証フレーズと完全な録音が実際に同一人物のものであることを確認します。

カスタムボイスは作成したチーム内でプライベートに保持されます。xAIによると、音声データはリアルタイムで処理され、保存やトレーニングへの使用は一切行われません。プラットフォームはSOC 2 Type II認証、HIPAA適格性、欧州データ向けのGDPRコンプライアンスを取得していますが、クローン機能自体は依然として米国限定です。

この動きが意味すること

音声AI開発者にとって

$3/時間のVoice Agentは、大量の音声処理を行う開発者のコスト構造を一変させます。ElevenLabsで$10-18/時間かかっていたカスタマーサポートボットやIVRシステムが、xAIのスタックではより現実的なコストになります。OpenAI Realtime APIとの互換性により、OpenAI向けに構築された既存の音声アプリもコードの大幅な書き換えなしに移行可能です。

音声クローン市場にとって

音声クローンは3つの層に分かれつつあります。ElevenLabsは最も多機能で、最大のライブラリとグローバルなリーチを持っています。この分野の全体像については最高のAI音声ジェネレーターのまとめ記事で取り上げています。OpenAIはChatGPTのTTSで中間に位置しています。xAIはどの競合よりも格安で、より厳格な認証を備えています。

米国限定の制約は大きな意味を持ちます。米国外のユーザーはカスタムボイスを作成できず、ElevenLabsが国際的なデフォルトの選択肢であり続けています。無料の選択肢については最高の無料音声クローンツールガイドをご覧ください。xAIがより多くの国に展開すれば、他社への価格圧力は本格的なものになるでしょう。

よくある質問

xAIカスタムボイスはどのように機能しますか?

xAIカスタムボイスでは、xAIコンソールで約60秒の自然な発話を録音して音声をクローンできます。システムは2段階の認証プロセスを実行します。まずリアルタイムで話されたパスフレーズを照合し、次に話者エンベディングを比較して本人確認を行います。結果として、テキスト読み上げやVoice Agentを含むすべてのxAI音声APIで使用可能な8文字のvoice IDが発行されます。

xAI音声クローンの料金はいくらですか?

xAIでのカスタムボイス作成は無料です。費用はAPI使用時に発生します。テキスト読み上げは100万文字あたり$4.20、Voice Agent APIはリアルタイム音声対話で$3.00/時間($0.05/分)です。カスタムボイスの使用に内蔵ボイスとの差額はありません。

xAI音声クローンは米国外でも利用できますか?

利用できません。2026年5月時点で、xAIカスタムボイスは米国内のユーザーに限定されており、イリノイ州は同州の生体認証情報プライバシー法により除外されています。xAIは国際展開のタイムラインを発表していません。米国外のユーザーはxAIの内蔵TTSボイスにはアクセスできますが、カスタム音声クローンの作成はできません。

xAIカスタムボイスはElevenLabsと比較してどうですか?

xAIはElevenLabsより低価格です。Voice Agentが$3/時間に対してElevenLabsは$10-18/時間です。ElevenLabsは3,000以上のボイス、32以上の言語、グローバルな利用可能性、ライセンス音声向けのIconic Marketplaceで機能面をリードしています。xAIは2段階の話者照合でより厳格な安全性認証を備えていますが、現在は米国市場に限定されています。

xAIを使って許可なく他人の音声をクローンできますか?

できません。xAIの2段階認証プロセスでは、クローン中に話者が物理的に存在する必要があります。ユーザーはリアルタイムで認証フレーズを声に出して読み上げる必要があり、システムがパスフレーズと完全な録音間の音声エンベディングを比較して一致を確認します。既存の録音は使用できず、他人の音声のクローンは認証パイプラインによりブロックされます。


出典

  1. Custom Voices and Voice Library - xAI Official - 2026年4月30日
  2. xAI launches Grok 4.3 and voice cloning suite - VentureBeat - 2026年5月1日
  3. xAI’s Custom Voices feature - The Decoder - 2026年5月2日
  4. xAI Voice API Documentation - 2026年5月

この記事は役に立ちましたか?

0:00