NVIDIA PersonaPlex-7B: صوت ذكاء اصطناعي مفتوح المصدر ثنائي الاتجاه

بقلم GenMediaLab 6 دقائق للقراءة
موجتان صوتيتان متقاطعتان في الوقت الفعلي تمثلان صوت NVIDIA PersonaPlex ثنائي الاتجاه

النقاط الرئيسية

  • NVIDIA تصدر PersonaPlex-7B-v1، نموذج كلام إلى كلام بسبعة مليارات معامل يستمع ويتحدث في آن واحد
  • التصميم ثنائي الاتجاه يلغي دورة التوقف-التحدث-التوقف في المساعدين الصوتيين التقليديين مع زمن انتقال أقل من ثانية (0.205-0.265 ثانية)
  • التوجيه الهجين يتيح تعريف أي شخصية عبر أوصاف نصية بالإضافة إلى تكييف صوتي قائم على الصوت
  • يتفوق على Gemini Live و Qwen 2.5 Omni و Moshi في ديناميكيات المحادثة ومعايير الالتزام بالمهام
  • مفتوح المصدر 100%: أوزان النموذج تحت رخصة NVIDIA Open Model، والكود تحت MIT

ما حدث

أصدرت NVIDIA نموذج PersonaPlex-7B-v1، نموذج كلام إلى كلام بسبعة مليارات معامل يغيّر جذرياً طريقة تعامل صوت الذكاء الاصطناعي مع المحادثة. على عكس كل مساعد صوتي استخدمته من قبل، PersonaPlex لا ينتظرك حتى تنهي الكلام قبل أن يبدأ بالرد. إنه يستمع ويتحدث في آن واحد.

هذا يسمى التفاعل ثنائي الاتجاه، وهو نفس الطريقة التي يتحدث بها البشر طبيعياً. يمكنك مقاطعته في منتصف الجملة، وهو يتكيف. ينتج ردوداً مثل «آه» و«حسناً» بينما ما زلت تتحدث. يتوقف عند الحاجة. لا انتظار صارم للأدوار. لا صمت محرج بينما يعالج الذكاء الاصطناعي كلماتك.

🧠 7B المعاملات
0.2s متوسط زمن الانتقال
📖 MIT رخصة الكود
📊 <5K hrs بيانات التدريب
مفتوح المصدر بالكامل

PersonaPlex-7B-v1 صادر تحت رخصة NVIDIA Open Model License (الأوزان) ورخصة MIT (الكود). كلا الرخصتين تسمحان بالاستخدام التجاري. حمّل من Hugging Face أو GitHub.

لماذا يقصر صوت الذكاء الاصطناعي التقليدي

يعمل المساعدون الصوتيون التقليديون عبر خط أنابيب من ثلاث مراحل يخلق تدفق محادثة غير طبيعي:

خط الأنابيب المتسلسل وراء Siri و Alexa و Google Assistant

المرحلة العملية المشكلة
1. ASR التعرف التلقائي على الكلام يحول الصوت إلى نص يضيف زمن انتقال
2. LLM نموذج اللغة يولّد رداً نصياً لا يستطيع سماعك أثناء التفكير
3. TTS تحويل النص إلى كلام يحول الرد إلى صوت زمن انتقال إضافي، لا تداخل

كل مرحلة تضيف تأخيراً، والنظام لا يستطيع سماعك أثناء توليد الرد. لهذا تشعر المحادثات مع Siri أو Alexa أو Google Assistant بالآلية. تتحدث، تنتظر، تحصل على رد، تتحدث مرة أخرى.

PersonaPlex يستبدل هذا الخط بالكامل بنموذج Transformer واحد يعالج الصوت الوارد ويولّد الكلام في آن واحد.

القدرات الأساسية

🔄

محادثة ثنائية الاتجاه

يستمع ويتحدث في آن واحد مع مقاطعات طبيعية وردود وسريعة وتبادل أدوار سريع—لا حاجة للانتظار

🎭

تحكم هجين في الشخصية

عرّف أي دور عبر أوامر نصية (الشخصية، قواعد العمل) بالإضافة إلى تكييف صوتي (اللكنة، النبرة، الإيقاع)

زمن انتقال أقل من ثانية

متوسط وقت الاستجابة 0.205-0.265 ثانية—أسرع 5.7 مرة من Moshi الذي يُبنى عليه

🧠

تعميم ناشئ

يتعامل مع سيناريوهات خارج بيانات تدريبه، مثل إدارة الأزمات التقنية، بفضل العمود الفقري لنموذج اللغة Helium

🎙️

إشارات غير لفظية

ينتج توقفات ونبرات عاطفية وتوتراً وإلحاحاً وردوداً سياقية تعكس أنماط المحادثة البشرية

🔓

مفتوح المصدر جاهز للتجارة

رخصة NVIDIA Open Model (الأوزان) و MIT (الكود) تسمحان بالنشر التجاري الكامل والتعديل

كيف يعمل PersonaPlex

بنية تدفق مزدوج

PersonaPlex مبني على بنية Moshi من Kyutai، مع Helium كعمود فقري لنموذج اللغة. تستخدم البنية تدفقين متوازيين:

  • تدفق المستخدم — يرمّز باستمرار الصوت الوارد من ميكروفون المستخدم
  • تدفق الوكيل — يولّد في آن واحد كلام الذكاء الاصطناعي ورده النصي

كلا التدفقين يشاركان نفس حالة النموذج. هذا يعني أن PersonaPlex يمكنه تعديل رده في الوقت الفعلي بينما يتحدث المستخدم، مما يتيح المقاطعة والكلام المتداخل وتبادل الأدوار السريع والردود السياقية.

مُرمّز الصوت العصبي Mimi يتعامل مع ترميز وفك ترميز الصوت عند 24 كيلوهرتز، محولاً الموجات إلى رموز منفصلة يمكن لـ Transformer معالجتها.

تحكم هجين في الشخصية

يستخدم PersonaPlex مدخلين لتعريف هوية المحادثة:

  • أمر نصي — يصف الدور والخلفية والمنظمة وسياق المحادثة (حتى 200 رمز)
  • أمر صوتي — تضمين صوتي يلتقط الخصائص الصوتية وأسلوب الكلام واللكنة والإيقاع

هذا الأسلوب الهجين يتيح إنشاء وكيل خدمة عملاء لشركة محددة بصوت محدد، أو معلم حكيم يبدو دافئاً وصبوراً، أو شخصية خيالية بنبرة درامية. الشخصية تبقى متسقة طوال المحادثة.

الشخصيات المُظهِرة

PersonaPlex يحافظ على اتساق الشخصية عبر محادثات ممتدة

الشخصية
السيناريو
السلوك الرئيسي
المعلم الحكيم
مساعد أسئلة وأجوبة عامة
تبادل أدوار طبيعي، معرفة واسعة
وكيل بنك (Sanni Virtanen)
تحقيق معاملة مشبوهة
تعاطف، التحقق من الهوية، تحكم في اللكنة
موظف استقبال طبي
تسجيل مريض جديد
يسجل التفاصيل من الكلام، يحافظ على السرية
رائد فضاء (Alex)
طوارئ قلب المفاعل في مهمة المريخ
توتر، إلحاح، تفكير تقني خارج بيانات التدريب
أبعد من بيانات التدريب

سيناريو رائد الفضاء ملحوظ بشكل خاص. إدارة أزمات الطوارئ ومصطلحات فيزياء المفاعلات والإلحاح العاطفي لم تكن أبداً في بيانات التدريب. PersonaPlex عمّم من عموده الفقري لنموذج اللغة Helium للتعامل مع مجالات جديدة تماماً.

نتائج المعايير

قيّمت NVIDIA PersonaPlex على FullDuplexBench وامتداد جديد اسمه ServiceDuplexBench لسيناريوهات خدمة العملاء. النتائج تُظهر مزايا واضحة على البدائل مفتوحة المصدر والتجارية.

ديناميكيات المحادثة

معدل النجاح (الأعلى أفضل)

المقياس PersonaPlex Moshi Gemini Live Qwen 2.5 Omni
تبادل أدوار سلس 90.8% 1.8% 43.9% N/A
مقاطعة المستخدم 95.0% 65.3% 54.7% N/A
التعامل مع التوقفات 60.6% 33.6% 65.5% N/A

زمن الانتقال

وقت الاستجابة بالثواني (الأقل أفضل)

المقياس PersonaPlex Moshi Gemini Live
تبادل أدوار سلس 0.170s 0.953s N/A
مقاطعة المستخدم 0.240s 1.409s N/A
المتوسط 0.205s 1.181s N/A

الالتزام بالمهام

درجة حكم GPT-4o من 5 (الأعلى أفضل)

المعيار PersonaPlex Moshi Gemini Live Qwen 2.5 Omni
FullDuplexBench 4.29 0.77 3.38 4.59
ServiceDuplexBench 4.40 1.75 4.73 2.76
المتوسط 4.34 1.26 4.05 3.68

PersonaPlex هو النموذج الوحيد الذي يسجل فوق 4.0 في كلا المعيارين، مدمجاً معرفة عامة قوية مع التزام موثوق بالمهام في سيناريوهات الأعمال المنظمة.

التدريب: أقل من 5,000 ساعة

تم تدريب PersonaPlex في مرحلة واحدة باستخدام مزيج مصمم بعناية من محادثات حقيقية واصطناعية.

محادثات حقيقية

7,303 مكالمة (1,217 ساعة) من مجموعة Fisher English وفرت أنماط محادثة طبيعية—ردود وتلعثم واستجابات عاطفية وسلوك تبادل أدوار أصيل. تمت إضافة أوامر شخصية لهذه التسجيلات بأثر رجعي باستخدام GPT-OSS-120B بمستويات تفصيل متفاوتة.

محادثات اصطناعية

  • 39,322 حوار مساعد (410 ساعة) — مولّدة بـ Qwen3-32B و GPT-OSS-120B، مُركّبة إلى صوت مع Chatterbox TTS من Resemble AI
  • 105,410 حوار خدمة عملاء (1,840 ساعة) — تغطي سيناريوهات أعمال متنوعة بأوامر منظمة تشمل أسماء الشركات والأسعار وقواعد التشغيل

تصميم التدريب يفصل بين خاصيتين: الطبيعية من المحادثات الحقيقية والالتزام بالمهام من السيناريوهات الاصطناعية. صيغة الأمر الهجينة تربط بين مصدري البيانات، مما يتيح للنموذج دمج أنماط الكلام الطبيعية مع اتباع التعليمات بدقة.

ما يعنيه هذا لصوت الذكاء الاصطناعي

يمثل PersonaPlex تحولاً كبيراً في ما يمكن لصوت الذكاء الاصطناعي مفتوح المصدر فعله. حتى الآن، كان الاختيار بين أنظمة متسلسلة قابلة للتخصيص لكن آلية، ونماذج ثنائية الاتجاه طبيعية لكن غير مرنة. PersonaPlex يلغي هذه المفاضلة.

للمطورين

النموذج جاهز للاستخدام التجاري. المطورون الذين يبنون وكلاء صوت أو روبوتات خدمة عملاء أو شخصيات تفاعلية لديهم الآن أساس مفتوح المصدر ينافس الأنظمة الاحتكارية. الكود المرخص بـ MIT يعني حرية كاملة للتعديل والنشر.

لصناعة صوت الذكاء الاصطناعي

التفاعل ثنائي الاتجاه كان الحلم المنشود لمحادثة الذكاء الاصطناعي. استثمرت Google و OpenAI وغيرها بكثافة لجعل المساعدين الصوتيين يشعرون بطبيعية أكبر. NVIDIA أطلقت الآن نموذجاً مفتوح المصدر يحقق ذلك على نطاق 7 مليارات معامل، خافضاً الحاجز أمام أي شخص لبناء واجهات صوتية محادثة حقيقية.

للمبدعين والشركات

واجهات الصوت أولاً تتسارع في خدمة العملاء وأدوات إمكانية الوصول والألعاب وإنشاء المحتوى. تحكم PersonaPlex في الشخصية يجعله عملياً لحالات استخدام أعمال محددة حيث يحتاج الذكاء الاصطناعي أن يبدو متناسقاً مع العلامة ويتبع نصوصاً منظمة مع بقائه بشرياً.

استكشف تقنية صوت الذكاء الاصطناعي

قارن أفضل مولدات صوت الذكاء الاصطناعي لتحويل النص إلى كلام واستنساخ الصوت ومحادثة الذكاء الاصطناعي.

جرب ElevenLabs مجاناً →

القيود الحالية

قيود الإصدار المبكر

PersonaPlex-7B-v1 إصدار أول مثير للإعجاب، لكن هناك قيود يجب الانتباه إليها قبل النشر.

  • الإنجليزية فقط — لا دعم متعدد اللغات بعد
  • يتطلب وحدات معالجة رسوم NVIDIA — محسّن لبنى Ampere و Hopper (A100، H100)
  • بيانات تدريب محدودة — أقل من 5,000 ساعة، مما قد يحد من الأداء في لهجات متخصصة أو مجالات خاصة
  • لا اختبار أمان إنتاجي — NVIDIA تلاحظ أن التحيز والقابلية للتفسير ومخاوف الخصوصية تحتاج اختباراً إضافياً قبل نشر الإنتاج

كيفية البدء

كل ما تحتاجه لتشغيل PersonaPlex

المورد
الرابط
الرخصة
أوزان النموذج
NVIDIA Open Model License — الاستخدام التجاري مسموح
الكود المصدري
MIT License — لا قيود
ورقة البحث
وصول مفتوح
النموذج الأساسي (Moshi)
CC-BY-4.0 — مشاركة مع نسب المصدر

البدء السريع (5 دقائق)

يتطلب جهاز Linux مزوداً بوحدة معالجة رسوم NVIDIA و Python مثبتاً.

1. تثبيت مُرمّز الصوت واستنساخ المستودع:

# Ubuntu/Debian
sudo apt install libopus-dev

# Clone and install
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
pip install moshi/.

2. قبول رخصة النموذج على Hugging Face، ثم ضبط الرمز:

export HF_TOKEN=your_token_here

3. تشغيل الخادم (يولّد شهادات SSL مؤقتة تلقائياً):

SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

4. افتح https://localhost:8998 في المتصفح. ابدأ بالتحدث — PersonaPlex يرد في الوقت الفعلي.

ذاكرة GPU منخفضة؟

أضف --cpu-offload إلى أمر الخادم لتفريغ الطبقات إلى وحدة المعالجة المركزية. يتطلب pip install accelerate أولاً.

الأسئلة الشائعة

ما هو NVIDIA PersonaPlex-7B؟

PersonaPlex-7B-v1 نموذج ذكاء اصطناعي كلام إلى كلام بسبعة مليارات معامل من NVIDIA يتيح محادثات صوتية ثنائية الاتجاه في الوقت الفعلي. يمكنه الاستماع والتحدث في آن واحد، والتعامل مع المقاطعات بشكل طبيعي، والحفاظ على شخصيات قابلة للتخصيص عبر التوجيه الهجين.

كيف يختلف PersonaPlex عن المساعدين الصوتيين العاديين؟

المساعدون الصوتيون التقليديون يستخدمون خط أنابيب من ثلاث مراحل (التعرف على الكلام، نموذج اللغة، تحويل النص إلى كلام) يخلق تأخيرات ولا يتعامل مع الكلام المتداخل. PersonaPlex يستخدم نموذجاً واحداً يعالج الصوت في الوقت الفعلي، متيحاً محادثة طبيعية بزمن انتقال أقل من ثانية (0.205-0.265 ثانية).

هل PersonaPlex مجاني للاستخدام؟

نعم. أوزان النموذج صادرة تحت رخصة NVIDIA Open Model License والكود مرخص بـ MIT. كلا الرخصتين تسمحان بالاستخدام التجاري. يمكنك تحميل كل شيء من Hugging Face و GitHub بدون تكلفة.

ما الأجهزة التي أحتاجها لتشغيل PersonaPlex؟

PersonaPlex يتطلب وحدات معالجة رسوم NVIDIA، تحديداً بطاقات ببنية Ampere أو Hopper مثل A100 أو H100. غير محسّن حالياً لوحدات معالجة رسوم المستهلك أو أجهزة غير NVIDIA.

هل يدعم PersonaPlex لغات غير الإنجليزية؟

ليس بعد. الإصدار الحالي إنجليزي فقط. بيانات التدريب بالكامل بالإنجليزية، باستخدام مجموعة Fisher English بالإضافة إلى محادثات اصطناعية إنجليزية.

كيف يعمل تحكم الشخصية في PersonaPlex؟

PersonaPlex يستخدم توجيهاً هجيناً. أمر نصي يعرّف الدور والخلفية والسيناريو (مثل «تعمل في First Neuron Bank واسمك Sanni Virtanen»). أمر صوتي يوفّر تضميناً صوتياً يتحكم في الخصائص الصوتية مثل اللكنة والنبرة وأسلوب الكلام. معاً، يخلقان شخصية متسقة.


المصادر

  1. NVIDIA ADLR - PersonaPlex: ذكاء اصطناعي محادثة طبيعي بأي دور وصوت
  2. MarkTechPost - NVIDIA تصدر PersonaPlex-7B-v1
  3. NVIDIA PersonaPlex-7B-v1 على Hugging Face
  4. مستودع PersonaPlex على GitHub

هل كانت هذه المقالة مفيدة؟