ElevenLabs تطلق Scribe v2: أكثر نموذج دقة لتحويل الكلام إلى نص في الصناعة

بقلم GenMediaLab 5 دقائق للقراءة
نموذج ElevenLabs Scribe v2 لتحويل الكلام إلى نص بالذكاء الاصطناعي

النقاط الرئيسية

  • Scribe v2 Realtime يوفر زمن انتقال 150ms للنسخ المباشر—منخفض مثل 30-80ms في الظروف المحسّنة
  • يدعم 90+ لغة مع اكتشاف لغة تلقائي ونسخ تنبؤي
  • إصدار Batch يتضمن مطالبة بمصطلحات رئيسية حتى 100 مصطلح تقني واكتشاف كيانات لـ 56 فئة بيانات
  • تمييز المتحدث يدعم حتى 48 متحدثاً متميزاً مع طوابع زمنية
  • دقة 93.5% على معايير متعددة اللغات—يتفوق على Whisper و Gemini Flash

ما حدث

ElevenLabs أصدرت Scribe v2، جيل جديد من نماذج تحويل الكلام إلى نص التي تدعي الشركة أنها أكثر أنظمة النسخ دقة متاحة. الإصدار يتكون من نسختين متخصصتين:

  • Scribe v2 Realtime (6 يناير 2026) - محسّن لذكاء محادثة مباشر ووكلاء صوت
  • Scribe v2 Batch (9 يناير 2026) - مصمم لمعالجة الصوت الطويل والترجمة الفرعية والتسميات التوضيحية على نطاق واسع

هذا الإصدار يضع ElevenLabs للتنافس مباشرة مع Whisper من OpenAI، والتعرف على الكلام من Google، وخدمات النسخ المؤسسية مثل Rev و Otter.ai.

جرب ElevenLabs Scribe v2

اختبر أكثر نسخ تحويل الكلام إلى نص دقة مع دعم 90+ لغة وزمن انتقال فائق الانخفاض.

جرب ElevenLabs مجاناً →

Scribe v2 Realtime: مصمم لذكاء المحادثة

إصدار Realtime مصمم خصيصاً للتطبيقات المباشرة حيث زمن الانتقال مهم—مساعدو الصوت، الترجمة الفرعية في الوقت الفعلي، ووكلاء ذكاء محادثة.

القدرات الرئيسية

الميزةالمواصفات
زمن الانتقالأقل من 150ms عادة، 30-80ms محسّن
اللغات90+ مع اكتشاف تلقائي
الدقة93.5% على معايير متعددة اللغات
اكتشاف نشاط الصوتVAD مدمج

كيف يعمل

Scribe v2 Realtime يستخدم نسخ تنبؤي—النموذج يتوقع الكلمات وعلامات الترقيم القادمة بناءً على السياق، مما يقلل من زمن الانتقال الملحوظ. على عكس أنظمة ASR التقليدية التي تنتظر العبارات الكاملة، Scribe v2 يدفق نتائج جزئية بينما المتحدث يتحدث.

النظام يكتشف تلقائياً اللغة التي يتم التحدث بها، يتعامل مع تبديل الكود بين اللغات، ويتكيف مع اللهجات وضوضاء الخلفية بدون تكوين يدوي.

الأداء مقابل المنافسين

وفقاً لمعايير ElevenLabs، Scribe v2 Realtime يتفوق على:

  • OpenAI Whisper - دقة أعلى في الظروف الصاخبة
  • Google Gemini Flash - زمن انتقال أقل مع دقة مماثلة
  • Amazon Transcribe - معالجة أفضل للهجات واللهجات

Scribe v2 Batch: نسخ بجودة مؤسسية

إصدار Batch يستهدف حالات استخدام مختلفة—حلقات بودكاست طويلة، تسجيلات اجتماعات، ترجمات فرعية للفيديو، ونسخ قانوني/طبي حيث الدقة والتفاصيل مهمة أكثر من السرعة.

مطالبة بمصطلحات رئيسية

المستخدمون يمكنهم إدخال حتى 100 مصطلح تقني (أسماء العلامات التجارية، أسماء المنتجات، المصطلحات) لضمان دقة واعية بالسياق. هذا ذو قيمة خاصة لـ:

  • النسخ الطبي (أسماء الأدوية، الإجراءات)
  • الإفادات القانونية (أسماء القضايا، المصطلحات القانونية)
  • المحتوى التقني (أسماء المنتجات، مصطلحات API)
  • المحتوى المميز (أسماء الشركات، العلامات التجارية)

اكتشاف الكيانات

Scribe v2 Batch يحدد تلقائياً ويطبع طوابع زمنية لـ 56 فئة من البيانات الحساسة، بما في ذلك:

  • معلومات الصحة (بيانات ذات صلة بـ HIPAA)
  • تفاصيل الدفع (أرقام بطاقات الائتمان، حسابات بنكية)
  • معلومات تعريف شخصية (SSN، عناوين، أرقام هواتف)
  • أوراق اعتماد (كلمات مرور، مفاتيح API مذكورة في التسجيلات)

هذه الميزة مصممة لسير عمل الامتثال حيث تحتاج المنظمات إلى حذف المعلومات الحساسة قبل مشاركة النصوص.

تمييز المتحدث

النموذج يدعم وضع علامات حتى 48 متحدثاً متميزاً ويتضمن وضع علامات صوتية للأحداث غير الكلامية مثل الضحك والتصفيق والموسيقى. كل جزء متحدث يتضمن طوابع زمنية دقيقة.

لماذا هذا مهم

لمبدعي المحتوى

النسخ هو سير عمل أساسي لصانعي البودكاست و YouTubers ومنتجي الفيديو. النسخ الآلي الدقيق يتيح:

  • أرشيفات محتوى قابلة للبحث - ابحث عن أي لحظة بالبحث في النص
  • إمكانية الوصول - أنشئ ترجمات فرعية وتسميات توضيحية تلقائياً
  • إعادة الاستخدام - حول محتوى الصوت إلى منشورات مدونة ومقاطع اجتماعية ونشرات إخبارية
  • SEO - محركات البحث تفهرس محتوى النص

لمطوري صوت الذكاء الاصطناعي

نموذج Realtime مصمم لتشغيل الجيل القادم من مساعدي الصوت والوكلاء. مع زمن انتقال أقل من 150ms، المطورون يمكنهم بناء تجارب محادثة تشعر بالاستجابة الحقيقية بدلاً من البطء.

للمؤسسات

مزيج اكتشاف الكيانات وتمييز المتحدث ومطالبة المصطلحات الرئيسية يعالج احتياجات الامتثال وسير العمل الحقيقية:

  • قانوني - نصوص إفادة دقيقة مع تحديد المتحدث
  • رعاية صحية - نسخ متوافق مع HIPAA مع اكتشاف PII تلقائي
  • مالي - محاضر اجتماعات مع حذف تلقائي للأرقام الحساسة

كيفية الوصول إلى Scribe v2

كلا النموذجين متاحان من خلال:

  1. ElevenLabs API - للمطورين الذين يدمجون النسخ في التطبيقات
  2. ElevenLabs Studio - واجهة ويب لمهام النسخ اليدوية
  3. ElevenLabs Agents - مدمج في منصة ذكاء المحادثة

التسعير

Scribe v2 يتبع نموذج اشتراك ElevenLabs المتدرج مع حصص شهرية محددة لكل من ساعات النسخ المجمعة وفي الوقت الفعلي. العملاء المؤسسيون يمكنهم التفاوض على تسعير مخصص لاحتياجات الحجم الكبير.

الأمان والامتثال

ElevenLabs تؤكد على الأمان بجودة مؤسسية:

  • الامتثال SOC 2 Type II
  • جاهزية HIPAA لتطبيقات الرعاية الصحية
  • أوضاع Zero Retention لأحمال العمل الحساسة (الصوت محذوف بعد المعالجة)

أنشئ مع ElevenLabs Voice AI

الوصول إلى Scribe v2 جنباً إلى جنب مع تحويل النص إلى كلام واستنساخ الصوت وذكاء المحادثة في منصة واحدة.

ابدأ البناء مجاناً →

الصورة الأكبر

ElevenLabs توسعت بسرعة من شركة ناشئة لتحويل النص إلى كلام إلى منصة صوت ذكاء اصطناعي كاملة. Scribe v2 يكمل حلقة الصوت—المستخدمون يمكنهم الآن:

  1. توليد كلام مع تحويل النص إلى كلام واستنساخ الصوت
  2. نسخ كلام إلى نص مع Scribe v2
  3. بناء وكلاء يجمعون كليهما في محادثات في الوقت الفعلي

هذا يضع ElevenLabs كمنصة شاملة لصوت الذكاء الاصطناعي، تتنافس مع لاعبين أكبر مثل Google و Amazon و Microsoft الذين يقدمون قدرات مماثلة عبر منتجات مجزأة.


الأسئلة الشائعة

كيف يقارن Scribe v2 مع OpenAI Whisper؟

ElevenLabs تدعي أن Scribe v2 يحقق دقة 93.5% على معايير متعددة اللغات، متفوقاً على Whisper خاصة في الظروف الصاخبة ومع الكلام بلهجة. إصدار Realtime أيضاً يقدم زمن انتقال أقل بكثير من بنية Whisper الموجهة للمجموعات.

ما اللغات التي يدعمها Scribe v2؟

Scribe v2 يدعم أكثر من 90 لغة مع اكتشاف لغة تلقائي. النموذج يمكنه التعامل مع تبديل الكود بين اللغات داخل نفس الصوت بدون تكوين يدوي.

هل Scribe v2 متوافق مع HIPAA؟

نعم، ElevenLabs تقدم خيارات نشر جاهزة لـ HIPAA لتطبيقات الرعاية الصحية، بما في ذلك أوضاع Zero Retention حيث الصوت محذوف فوراً بعد المعالجة.

ما هي مطالبة المصطلحات الرئيسية؟

مطالبة المصطلحات الرئيسية تسمح لك بتوفير حتى 100 مصطلح محدد (أسماء العلامات التجارية، المصطلحات التقنية، الأسماء الصحيحة) التي يجب أن يتعرف عليها النموذج بدقة. هذا يحسن الدقة للمحتوى المحدد المجال.

كم متحدث يمكن لـ Scribe v2 التمييز بينهم؟

إصدار Batch يدعم تمييز المتحدث حتى 48 متحدثاً متميزاً، مع طوابع زمنية لكل جزء متحدث ووضع علامات تلقائية للأحداث غير الكلامية.

ما هو زمن الانتقال للنسخ في الوقت الفعلي؟

Scribe v2 Realtime يحقق عادة زمن انتقال أقل من 150ms، مع تكوينات محسّنة تصل إلى 30-80ms. هذا سريع بما يكفي لتطبيقات ذكاء محادثة مباشر.


المصادر

هل كانت هذه المقالة مفيدة؟