HappyHorse-1.0: مولد فيديو بالذكاء الاصطناعي مفتوح المصدر يتصدر التصنيف العالمي

Darius Z. بقلم Darius Z. 6 دقائق للقراءة
صورة تجريدية لصهيل حصان مستقبلي مكوّن من عقد شبكة عصبية متوهجة تمثل نموذج توليد فيديو HappyHorse بالذكاء الاصطناعي

النقاط الرئيسية

  • تصدر HappyHorse-1.0 ساحة Artificial Analysis Video Arena بـ1333 نقطة Elo في تحويل النص إلى فيديو، متفوقاً على Seedance 2.0 من ByteDance بنحو 60 نقطة
  • النموذج ذو 15 مليار معامل يولّد فيديو 1080p مع صوت متزامن وحوار ومزامنة شفاه في تمريرة واحدة خلال نحو 38 ثانية على معالج رسوميات H100 واحد
  • مزامنة الشفاه الأصلية تعمل عبر 6 لغات: الصينية والإنجليزية واليابانية والكورية والألمانية والفرنسية
  • مفتوح المصدر بالكامل مع ترخيص تجاري وأوزان نموذج مجانية. تبدأ المنصة المستضافة من 15.90 دولاراً شهرياً — الطبقة المجانية تعطي رصيدين فقط، لكن فيديو واحد يكلف 5 أرصدة

HappyHorse-1.0، مولد فيديو بالذكاء الاصطناعي مفتوح المصدر بقدرة 15 مليار معامل، احتل المركز الأول على لائحة تصنيف Artificial Analysis Video Arena في أبريل 2026. تفوّق النموذج على Seedance 2.0 من ByteDance بنحو 60 نقطة Elo في توليد النص إلى فيديو، وسجّل رقماً قياسياً تاريخياً بين 1391 و1406 نقطة Elo في تحويل الصورة إلى فيديو. ما يميزه: محوّل Transformer موحّد واحد يولّد الفيديو والصوت المتزامن (حوار، أجواء صوتية، مؤثرات Foley) في تمريرة واحدة، مع مزامنة شفاه أصلية عبر ست لغات.

جرّب HappyHorse-1.0

أنشئ فيديو 1080p بالذكاء الاصطناعي مع صوت متزامن ومزامنة شفاه. تسعير قائم على الرصيد على المنصة المستضافة.

جرّب HappyHorse ←

من يقف وراء HappyHorse-1.0؟

النموذج صادر عن فريق مستقل في مختبر Taotian Future Life Lab التابع لـ Alibaba، بقيادة Zhang Di، نائب رئيس سابق في Kuaishou (منصة الفيديوهات القصيرة الصينية التي يتجاوز عدد مستخدميها الشهري 700 مليوناً). بنى الفريق HappyHorse خارج قسم أبحاث الذكاء الاصطناعي الرئيسي في Alibaba، موضعاً إياه كمشروع مفتوح المصدر مستقل وليس منتجاً مؤسسياً.

الأوزان الكاملة للنموذج والنسخ المقطّرة والشفرة متاحة للعموم بموجب ترخيص تجاري. يمكن لأي شخص تنزيل HappyHorse-1.0 وتشغيله محلياً أو ضبطه دقيقاً لحالات استخدام محددة.

كيف يعمل HappyHorse-1.0

يعتمد HappyHorse-1.0 على بنية Transformer أحادية التدفق: 40 طبقة انتباه ذاتي مع 4 طبقات خاصة بالوسائط في كل طرف و32 طبقة مشتركة في الوسط. تمرّ رموز النص والفيديو والصوت عبر آلية الانتباه نفسها دون الحاجة إلى انتباه متقاطع.

توليد موحّد للصوت والفيديو

يولّد حواراً متزامناً وأجواء صوتية ومؤثرات Foley مع إطارات الفيديو في تمريرة أمامية واحدة

إزالة ضوضاء في 8 خطوات

يحقق جودة مخرجات في 8 خطوات فقط دون إرشاد خالٍ من المصنّف (CFG)، منتجاً فيديو 1080p في نحو 38 ثانية على H100 واحد

مزامنة شفاه لست لغات

مزامنة شفاه أصلية بالصينية والإنجليزية واليابانية والكورية والألمانية والفرنسية مع أداء وجهي معبّر

15 مليار معامل ومفتوح بالكامل

إطلاق أوزان النموذج كاملة والشفرة بترخيص تجاري للنشر المحلي أو الضبط الدقيق

يستبدل هذا النهج خط الأنابيب متعدد النماذج الذي يعتمد عليه أغلب المنافسين (نموذج فيديو منفصل، ونموذج صوت منفصل، ونموذج مزامنة شفاه منفصل) ببنية موحّدة واحدة. نقاط فشل أقل، ومخرجات أسرع، والصوت يبقى متزامناً لأنه لم يكن منفصلاً من الأساس.

نتائج المعايير: HappyHorse مقابل Seedance 2.0

تعتمد Artificial Analysis Video Arena على تقييمات بشرية عمياء حيث يختار المصوّتون المخرج الأفضل دون معرفة النموذج المولّد. احتل HappyHorse-1.0 الصدارة عبر عدة فئات.

تصنيفات Artificial Analysis Video Arena، أبريل 2026

التصنيف HappyHorse-1.0 Elo Seedance 2.0 Elo الفارق
من النص إلى الفيديو 1333-1357 ~1275 +58-82
من الصورة إلى الفيديو 1391-1406 غير متوفر رقم قياسي تاريخي
يشمل الصوت المركز الثاني مسار صوتي قوي

درجة النص إلى فيديو هي الرقم الأبرز في العناوين. كان Seedance 2.0 من ByteDance يتصدر الساحة قبل ظهور HappyHorse. فارق 60 نقطة Elo في ساحة اختبار عمياء يمثل هامشاً معنوياً، يعادل تقريباً الفوز في 58–59% من المقارنات وجهاً لوجه.

ماذا تعني درجات Elo

ترتب Artificial Analysis Video Arena النماذج بنظام تقييم Elo مشابه لتصنيف الشطرنج. كل نقطة فرق في Elo تترجم إلى معدل فوز متوقع في المقارنات العمياء. يعني فارق 60 نقطة أن المقيّمين البشريين فضّلوا HappyHorse-1.0 في نحو 58–59% من المواجهات المباشرة ضد Seedance 2.0.

كيف يقارن HappyHorse-1.0 بمولدات فيديو الذكاء الاصطناعي الأخرى؟

مقارنة مولدات فيديو الذكاء الاصطناعي اعتباراً من أبريل 2026

الميزة HappyHorse-1.0 Seedance 2.0 Wan 2.6 Kling AI
البنية المعمارية Unified Transformer Multi-stream Pipeline Diffusion Transformer Diffusion Transformer
صوت مدمج نعم (حوار + Foley) نموذج منفصل لا نعم (Kling 3.0+)
أقصى دقة 1080p 1080p 720p 1080p
خطوات إزالة الضوضاء 8 (بدون CFG) 30+ 50+ ~30
لغات مزامنة الشفاه 6 2 1 محدود
المعاملات 15B غير مُعلَن 14B غير مُعلَن
مفتوح المصدر نعم (كامل) لا نعم (جزئي) لا
الطبقة المجانية 2 أرصدة (5 لكل فيديو) محدود أوزان مفتوحة 50 رصيد/يوم

عامل التمييز الأساسي هو النهج ذو التمريرة الواحدة. أغلب المنافسين، بمن فيهم أقوى المولدات التجارية تصنيفاً، يمرّرون الفيديو والصوت عبر نماذج منفصلة تُخاط لاحقاً. يولّد HappyHorse الاثنين معاً، فتخرج حركة الشفاه وتوقيت الكلام والصوت المحيط متوافقة منذ البداية.

تسعير HappyHorse-1.0

أوزان النموذج مجانية للتنزيل والتشغيل محلياً. للمستخدمين الذين يفضّلون منصة مستضافة، تقدّم HappyHorse تسعيراً قائماً على الرصيد. يجب التنويه: تحصل الحسابات المجانية على رصيدين عند التسجيل، لكن فيديو واحد يكلف 5 أرصدة مع نموذج HappyHorse أو 75 مع نموذج Kling AI على المنصة. لا يمكنك توليد أي شيء فعلياً دون الدفع.

واجهة مولد فيديو HappyHorse بالذكاء الاصطناعي تعرض خطأ «رصيد غير كافٍ» — الحسابات المجانية تحصل على رصيدين لكن توليد فيديو واحد بنموذج HappyHorse-1 يتطلّب 5 أرصدة

تسعير منصة HappyHorse (الفوترة السنوية مع التوفير)

Plan Monthly Price Annual Price Credits Key Features
Starter $19.90 $15.90/mo ($191/yr) 3,600 Basic models, standard queue, commercial license
Standard $39.90 $27.90/mo ($335/yr) 8,400 Premium models, priority queue, email support
Premium $59.90 $35.90/mo ($431/yr) 18,000 All models, fastest queue, priority support
الطبقة المجانية لا تعمل فعلياً

جرّبنا ذلك. الحسابات الجديدة على happyhorse1.video تحصل على رصيدين. توليد فيديو واحد بنموذج HappyHorse يكلف 5 أرصدة؛ نموذج Kling AI يكلف 75. تصطدم بحاجز دفع قبل إنتاج مقطع واحد. أوزان النموذج مفتوحة المصدر ما زالت مجانية للتنزيل والتشغيل محلياً إن كان لديك العتاد.

ماذا يعني ذلك

لنظام فيديو الذكاء الاصطناعي مفتوح المصدر

أن يصل نموذج مفتوح المصدر إلى المركز الأول في معيار رئيسي يعدّ أول مرة في توليد الفيديو بالذكاء الاصطناعي. سيطرت النماذج التجارية المغلقة من Runway و ByteDance و Kling على هذه التصنيفات منذ إطلاق الساحة. HappyHorse يغيّر المعادلة. يمكن للاستوديوهات الأصغر والمطورين الأفراد تشغيل نموذج توليد فيديو من الطبقة الأولى على أجهزتهم دون تكاليف واجهة برمجة تطبيقات لكل فيديو أو قفل في اشتراك.

لصنّاع المحتوى

مزامنة الشفاه لست لغات هي الميزة العملية الأبرز هنا. يمكن لمن ينتج محتوى لجمهور دولي توليد فيديو مترجم بحركة شفاه طبيعية بالصينية والإنجليزية واليابانية والكورية والألمانية والفرنسية — دون أدوات دبلجة أو مزامنة شفاه منفصلة. مع توليد الصوت المدمج، يُزال عدة خطوات من سير عمل إنتاج فيديو متعدد اللغات المعتاد.

للمستخدمين التجاريين

يزيل الترخيص التجاري الغموض القانوني حول بعض نماذج الذكاء الاصطناعي مفتوحة المصدر. يمكن للشركات شحن منتجات مبنية على HappyHorse-1.0 دون الاصطدام ببنود غير تجارية. المنصة المستضافة متاحة للفرق التي تفضّل الدفع على تشغيل معالجات رسوميات خاصة.

قارن مولدات فيديو الذكاء الاصطناعي

شاهد كيف يتراصف Kling AI و Seedance وأقوى مولدات الفيديو في مقارنتنا التفصيلية.

اقرأ المقارنة الكاملة ←

الأسئلة الشائعة

هل استخدام HappyHorse-1.0 مجاني؟

النموذج نفسه مجاني — يمكنك تنزيل الأوزان وتشغيل HappyHorse-1.0 محلياً بموجب ترخيص تجاري دون تكلفة. أما المنصة المستضافة فهي قصة أخرى. تحصل الحسابات الجديدة على رصيدين، لكن فيديو واحد يكلف 5 أرصدة (نموذج HappyHorse) أو 75 رصيداً (نموذج Kling AI). جرّبناه: تصطدم بحاجز دفع قبل توليد مقطع واحد. تبدأ الخطط المدفوعة من 15.90 دولاراً شهرياً (فوترة سنوية) مقابل 3600 رصيداً.

كيف يقارن HappyHorse-1.0 بـ Seedance 2.0؟

سجّل HappyHorse-1.0 نحو 60 نقطة Elo أعلى من Seedance 2.0 من ByteDance على لائحة النص إلى فيديو في Artificial Analysis Video Arena في أبريل 2026. يستخدم HappyHorse محوّل Transformer موحّداً يولّد الفيديو والصوت في تمريرة واحدة، بينما يعتمد Seedance على خط أنابيب متعدد التدفقات مع نماذج منفصلة. يدعم HappyHorse مزامنة شفاه لست لغات مقابل لغتين في Seedance، وهو مفتوح المصدر بالكامل بينما Seedance ملكية خاصة.

هل يمكن لـ HappyHorse-1.0 توليد صوت مع الفيديو؟

نعم. يولّد HappyHorse-1.0 حواراً متزامناً وأجواء صوتية ومؤثرات Foley مع إطارات الفيديو في تمريرة أمامية واحدة. هذا من أبرز نقاط تمييزه. تتطلّب أغلب النماذج المنافسة توليد صوت منفصلاً أو دبلجة في ما بعد الإنتاج. يتولّى HappyHorse الكلام والصوت البيئي والمؤثرات الصوتية أصلياً ضمن بنية Transformer الموحّدة.

ما اللغات التي يدعمها HappyHorse-1.0 لمزامنة الشفاه؟

يدعم HappyHorse-1.0 مزامنة شفاه أصلية لست لغات: الصينية (الماندرين)، والإنجليزية، واليابانية، والكورية، والألمانية، والفرنسية. يفهم النموذج صوتيات كل لغة ويولّد أداءً وجهياً معبّراً مع تنسيق دقيق للكلام. ذُكر دعم الكانتونية في بعض التقارير لكنه غير مؤكد في الوثائق الرسمية.

ما العتاد الذي أحتاجه لتشغيل HappyHorse-1.0 محلياً؟

يتطلّب تشغيل نموذج HappyHorse-1.0 الكامل بـ15 مليار معامل محلياً معالج رسوميات NVIDIA من فئة H100 أو ما يعادله. يولّد النموذج فيديو 1080p في نحو 38 ثانية على H100 واحد. تتوفر نسخ مقطّرة من النموذج بمعاملات أقل لعتاد أضعف، مع بعض المقايضة على الجودة. المنصة المستضافة على happyhorse1.video هي الخيار الأسهل للمستخدمين دون معالجات رسوميات على مستوى المؤسسات.


المصادر

  1. HappyHorse-1.0 يتوج كأقوى مولد فيديو بالذكاء الاصطناعي مفتوح المصدر (StreetInsider)
  2. الموقع الرسمي لـ HappyHorse-1.0
  3. ظاهرة Happy Horse 1.0 عالمياً وتصدر تصنيفات فيديو الذكاء الاصطناعي (FinancialContent)
  4. لائحة تصنيف Artificial Analysis Video Arena

هل كانت هذه المقالة مفيدة؟

0:00