xAI أصوات مخصصة: استنسخ أي صوت في دقيقتين

Darius Z. بقلم Darius Z. 6 دقائق للقراءة
ميكروفون استوديو مع موجات صوتية زرقاء مائية تمثل استنساخ الصوت xAI وأصوات Grok المخصصة

النقاط الرئيسية

  • أطلقت xAI ميزة الأصوات المخصصة في 30 أبريل، مما يتيح للمستخدمين استنساخ أصواتهم من تسجيل مدته 60 ثانية تقريباً واستخدامها عبر جميع واجهات Grok الصوتية
  • تتضمن مكتبة الأصوات الجديدة أكثر من 80 صوتاً مدمجاً بـ 28 لغة، متاحة بدون تكلفة إضافية عبر وحدة تحكم xAI
  • تبلغ تكلفة واجهة Voice Agent ثلاثة دولارات للساعة ($0.05/دقيقة)، بينما يكلف تحويل النص إلى كلام $4.20 لكل مليون حرف
  • يمنع نظام التحقق ثنائي المراحل استنساخ الصوت من تسجيلات سابقة أو من صوت شخص آخر
  • تقتصر الأصوات المخصصة حالياً على المستخدمين في الولايات المتحدة، باستثناء إلينوي بسبب قوانين خصوصية البيانات البيومترية
80+ أصوات مدمجة
28 لغة
$3/hr واجهة Voice Agent
<2 min وقت الاستنساخ

أطلقت xAI ميزة الأصوات المخصصة في 30 أبريل 2026، مضيفةً استنساخ الصوت إلى منصة Grok API. يسجّل المستخدمون حوالي 60 ثانية من الكلام الطبيعي عبر وحدة تحكم xAI، ويعيد النظام نموذجاً صوتياً جاهزاً للإنتاج في أقل من دقيقتين. يعمل الصوت المستنسخ عبر واجهات تحويل النص إلى كلام وVoice Agent من Grok بأسعار الواجهة العادية. كما وسّعت xAI كتالوج الأصوات المدمجة ليتجاوز 80 خياراً بـ 28 لغة.

بسعر $3/ساعة لوكلاء الصوت، تتفوق xAI على ElevenLabs وOpenAI في السعر بفارق كبير. مجموعة الميزات أقل، لكن الاقتصاديات تغيّر المعادلة لكل من يبني منتجاً يعتمد على الصوت.

كيف يعمل استنساخ الصوت من xAI؟

تجري عملية الاستنساخ بالكامل عبر وحدة تحكم xAI. يقرأ المستخدمون بصوت عالٍ عدة مقاطع من حوارات غير مترابطة بينما يسجّل النظام. يتولى خط أنابيب التحقق ثنائي المراحل باقي العملية: أولاً يقرأ المتحدث عبارة تحقق يحوّلها محرك تحويل الكلام إلى نص من Grok ويطابقها فورياً، مؤكداً النية والحضور. ثم يحسب النظام بصمات المتحدث من مقطع التحقق والتسجيل الكامل للتأكد من أن كليهما يعود لنفس الشخص.

هذا التصميم يعني أنه لا يمكنك استنساخ صوت من ملف صوتي موجود مسبقاً، ولا يمكنك استنساخ صوت شخص آخر. بعد التحقق، يعالج النظام التسجيل ويقدم معرّف صوت voice_id مؤلفاً من 8 أحرف أبجدية رقمية يعمل في أي مكان تعمل فيه أصوات xAI المدمجة. يمكن لكل فريق إنشاء حتى 30 صوتاً مخصصاً في وقت واحد، ويمكن حذف أي صوت بنقرة واحدة.

استنساخ صوتي في 60 ثانية

سجّل حوالي دقيقة من الكلام الطبيعي. يقدم النظام نموذجاً صوتياً جاهزاً للإنتاج في أقل من دقيقتين.

تحقق ثنائي المراحل

التحقق من المتحدث عبر مطابقة العبارات الفورية ومقارنة البصمة الصوتية يمنع الاستنساخ غير المصرح به.

دعم 28 لغة

ترث الأصوات المخصصة إمكانيات تحويل النص إلى كلام متعددة اللغات بما في ذلك وسوم الكلام والضحك والهمس والتوقفات.

خصوصية على مستوى الفريق

كل صوت مخصص يبقى خاصاً بفريقك. لا يُشارك مع مستخدمين آخرين ولا يُستخدم في تدريب النماذج.

ما هي مكتبة الأصوات؟

مكتبة الأصوات هي قسم جديد في وحدة تحكم xAI يجمع كل الأصوات المتاحة في مكان واحد. تظهر الأصوات المخصصة بجانب الخيارات الخمسة المدمجة (Eve وAra وRex وSal وLeo). مع هذا الإطلاق، وسّعت xAI أيضاً الكتالوج المدمج ليتجاوز 80 صوتاً بـ 28 لغة. يمكنك معاينة أي صوت عبر سيناريوهات مختلفة قبل اختياره.

لكل صوت مدمج شخصية مختلفة: Eve حيوية، Ara دافئة وحوارية، Rex يميل للاحترافية، Sal سلس، وLeo يبدو موثوقاً. تحصل الأصوات المخصصة على نفس إمكانيات تحويل النص إلى كلام التي تتمتع بها الأصوات المدمجة، بما في ذلك وسوم الكلام المضمّنة للهمس والضحك والتنهد والتأكيد. يعمل الإخراج عبر كل من REST وبث WebSocket.

كم تكلفة استنساخ الصوت من xAI؟

لا توجد رسوم إضافية لاستخدام الأصوات المخصصة. يتبع التسعير أسعار واجهة xAI API العادية:

أسعار واجهة xAI الصوتية حتى مايو 2026

الخدمة السعر ملاحظات
تحويل النص إلى كلام $4.20 / مليون حرف 5 أصوات مدمجة + مخصصة، 28 لغة
Voice Agent (فوري) $3.00 / ساعة ($0.05/دقيقة) محادثة صوتية عبر WebSocket
تحويل الكلام إلى نص (بث مباشر) $0.20 / ساعة نسخ نصي فوري
تحويل الكلام إلى نص (دفعات) $0.10 / ساعة معالجة غير متصلة
إنشاء صوت مخصص مجاني مضمّن مع صلاحية الوصول للواجهة

تعمل واجهة Voice Agent API على نموذج grok-voice-think-fast-1.0، الذي يجمع بين الاستدلال والكلام الفوري. يدعم استخدام الأدوات — البحث في الويب، والبحث في X، والبحث في الملفات، والاتصال بخوادم MCP الخارجية — بحيث يمكن للوكيل تنفيذ مهام أثناء المحادثة، وليس مجرد التحدث. لتطبيقات جهة العميل، تتيح الرموز المؤقتة (Ephemeral Tokens) فتح اتصالات WebSocket دون كشف مفتاح API الرئيسي.

الوصول البرمجي لنقطة نهاية إنشاء الأصوات المخصصة (POST /v1/custom-voices) متاح حالياً فقط للفرق على خطة Enterprise. أداة إنشاء الأصوات عبر وحدة التحكم متاحة لجميع المستخدمين الذين لديهم صلاحية الوصول للواجهة.

جرّب أصوات xAI المخصصة

الأصوات المخصصة متاحة عبر وحدة تحكم xAI. الوثائق الكاملة للواجهة وأدوات إنشاء الأصوات موجودة في docs.x.ai/docs/guides/voice.

كيف تقارن أسعار xAI الصوتية مع ElevenLabs؟

فرق التسعير بين xAI وElevenLabs كبير، رغم أنهما لا يبيعان المنتج نفسه تماماً:

مقارنة بناءً على الأسعار المتاحة علنياً حتى مايو 2026

الميزة xAI أصوات مخصصة ElevenLabs
Voice Agent (لكل ساعة) $3.00 $10.80 - $18.00
TTS (لكل مليون حرف) $4.20 ~$3.00 - $18.00 (حسب الخطة)
مكتبة الأصوات المدمجة أكثر من 80 صوتاً، 28 لغة أكثر من 3,000 صوت، أكثر من 32 لغة
وقت استنساخ الصوت تسجيل ~60 ثانية تسجيل ~30 ثانية
وصول API للاستنساخ خطة Enterprise فقط خطة Starter وما فوق
التوفر الجغرافي الولايات المتحدة فقط (باستثناء إلينوي) عالمي
التحقق الأمني تحقق ثنائي المراحل من المتحدث نظام موافقة صوتية
سوق الأصوات لا Iconic Marketplace (أصوات مرخصة)

لا تزال ElevenLabs تمتلك مكتبة الأصوات الأكبر، وتعمل في كل مكان، وتدير Iconic Marketplace للأصوات المشهورة المرخصة. تتفوق xAI في تسعير وكلاء الصوت ولا تفرض رسوماً على إنشاء الأصوات المخصصة. تتطلب ElevenLabs اشتراكاً في خطة Starter على الأقل ($5/شهرياً) قبل أن تتمكن من استنساخ أي صوت.

متاح في الولايات المتحدة فقط

تقتصر أصوات xAI المخصصة حالياً على المستخدمين في الولايات المتحدة، مع استثناء إلينوي بسبب قانون خصوصية المعلومات البيومترية (BIPA). تعمل ElevenLabs عالمياً بدون قيود جغرافية على استنساخ الصوت.

إذا كنت خارج الولايات المتحدة أو تحتاج إلى كتالوج أصوات أكبر، فإن ElevenLabs تعمل عالمياً وتوفر أكثر من 3,000 صوت متاح اليوم.

ما إجراءات الأمان المتبعة؟

نظام التحقق ثنائي المراحل من xAI أكثر صرامة مما تتطلبه معظم منصات استنساخ الصوت. تؤكد مطابقة العبارات الفورية أن المتحدث حاضر فعلياً أثناء جلسة الاستنساخ، وليس مجرد تقديم ملف مسجّل مسبقاً. ثم تتحقق مقارنة البصمات من أن عبارة التحقق والتسجيل الكامل يعودان فعلاً لنفس الشخص.

تبقى الأصوات المخصصة خاصة بالفريق الذي أنشأها. تقول xAI إن البيانات الصوتية تُعالج فورياً ولا تُخزّن أو تُستخدم للتدريب. تمتلك المنصة شهادة SOC 2 Type II وأهلية HIPAA وامتثال GDPR للبيانات الأوروبية — رغم أن ميزة الاستنساخ نفسها لا تزال مقتصرة على الولايات المتحدة.

ماذا يعني هذا؟

لمطوري الصوت بالذكاء الاصطناعي

وكلاء الصوت بسعر $3/ساعة يغيّرون الاقتصاديات لكل من يشغّل الصوت بأحجام كبيرة. روبوتات خدمة العملاء وأنظمة IVR التي تكلف $10-18/ساعة على ElevenLabs أصبحت أكثر جدوى على منصة xAI. كما أن التوافق مع واجهة OpenAI Realtime API يعني أن تطبيقات الصوت الحالية المبنية لـ OpenAI يمكنها الانتقال دون إعادة كتابة الكثير من الشفرة.

لسوق استنساخ الصوت

أصبح استنساخ الصوت الآن على ثلاث مستويات. تمتلك ElevenLabs أكثر الميزات والمكتبة الأكبر والانتشار العالمي — نغطي المشهد الكامل في تقريرنا عن أفضل مولدات الصوت بالذكاء الاصطناعي. تقع OpenAI في المنتصف مع تحويل النص إلى كلام في ChatGPT. وxAI هي الخيار الأرخص بفارق كبير، مع تحقق أكثر صرامة من كلا المنافسين.

القيد الجغرافي على الولايات المتحدة فقط مهم جداً. أي شخص خارج الولايات لا يزال غير قادر على إنشاء أصوات مخصصة، مما يبقي ElevenLabs الخيار الافتراضي دولياً. للبدائل المجانية، راجع دليلنا عن أفضل أدوات استنساخ الصوت المجانية. إذا فتحت xAI هذه الميزة لمزيد من الدول، فإن ضغط الأسعار على الجميع سيصبح حقيقياً.

الأسئلة الشائعة

كيف تعمل أصوات xAI المخصصة؟

تتيح أصوات xAI المخصصة للمستخدمين استنساخ أصواتهم بتسجيل حوالي 60 ثانية من الكلام الطبيعي عبر وحدة تحكم xAI. يُجري النظام عملية تحقق ثنائية المراحل: أولاً مطابقة عبارة مرور منطوقة فورياً، ثم مقارنة بصمات المتحدث لتأكيد الهوية. النتيجة هي معرّف صوتي من 8 أحرف يعمل عبر جميع واجهات xAI الصوتية بما في ذلك تحويل النص إلى كلام وVoice Agent.

كم تكلفة استنساخ الصوت من xAI؟

إنشاء صوت مخصص على xAI مجاني. التكلفة تأتي من استخدام الواجهة: تحويل النص إلى كلام بسعر $4.20 لكل مليون حرف، وواجهة Voice Agent API بسعر $3.00 للساعة ($0.05 للدقيقة) للتفاعلات الصوتية الفورية. لا توجد رسوم إضافية لاستخدام صوت مخصص بدلاً من صوت مدمج.

هل استنساخ الصوت من xAI متاح خارج الولايات المتحدة؟

لا. حتى مايو 2026، تقتصر أصوات xAI المخصصة على المستخدمين في الولايات المتحدة، مع استثناء إلينوي بسبب قانون خصوصية المعلومات البيومترية. لم تعلن xAI عن جدول زمني للتوسع الدولي. يمكن للمستخدمين خارج الولايات المتحدة الوصول إلى أصوات xAI المدمجة لتحويل النص إلى كلام لكن لا يمكنهم إنشاء نسخ صوتية مخصصة.

كيف تقارن أصوات xAI المخصصة مع ElevenLabs؟

تتفوق xAI على ElevenLabs في السعر: $3/ساعة لوكلاء الصوت مقابل $10-18/ساعة لـ ElevenLabs. تتصدر ElevenLabs في الميزات مع أكثر من 3,000 صوت وأكثر من 32 لغة وتوفر عالمي وIconic Marketplace للأصوات المرخصة. تمتلك xAI تحققاً أمنياً أكثر صرامة مع مطابقة ثنائية المراحل للمتحدث لكنها مقتصرة حالياً على السوق الأمريكي.

هل يمكن لشخص استنساخ صوتي عبر xAI بدون إذني؟

لا. تتطلب عملية التحقق ثنائية المراحل من xAI حضور المتحدث فعلياً أثناء الاستنساخ. يجب على المستخدم قراءة عبارة تحقق بصوت عالٍ فورياً، ويقارن النظام بصمات الصوت بين عبارة المرور والتسجيل الكامل للتأكد من تطابقهما. لا يمكن استخدام تسجيلات موجودة مسبقاً، ويُحظر استنساخ صوت شخص آخر عبر خط أنابيب التحقق.


المصادر

  1. Custom Voices and Voice Library - xAI Official - 30 أبريل 2026
  2. xAI launches Grok 4.3 and voice cloning suite - VentureBeat - 1 مايو 2026
  3. xAI’s Custom Voices feature - The Decoder - 2 مايو 2026
  4. xAI Voice API Documentation - مايو 2026

هل كانت هذه المقالة مفيدة؟

0:00