Kling AI 3.0: صوت أصلي وقصص مصورة ووضع المخرج بالذكاء الاصطناعي

بقلم GenMediaLab 7 دقائق للقراءة
كرسي مخرج سينمائي مستقبلي محاط بشاشات فيديو هولوغرافية توضح وضع AI Director في Kling AI 3.0

النقاط الرئيسية

  • أطلقت Kuaishou Kling AI 3.0 في 5 فبراير 2026 بأربعة نماذج: Video 3.0 و Video 3.0 Omni و Image 3.0 و Image 3.0 Omni
  • الصوت المتعدد اللغات الأصلي يدعم الإنجليزية والصينية واليابانية والكورية والإسبانية مع التحكم في اللكنة وحوار الشخصيات المتعددة
  • القصص المصورة متعددة اللقطات تتيح للمستخدمين تحديد حتى 6 لقطات مترابطة مع تحكم في الكاميرا والمدة والمنظور لكل لقطة
  • وضع AI Director يؤتمت تكوين اللقطة وزوايا الكاميرا والقطع المتقاطع للسرد السينمائي
  • يبدأ السعر من 7.90 دولار/شهر مع رصيد يومي مجاني، أقل من Sora 2 و Runway Gen-4.5
15s أقصى مدة للمقطع
4K الدقة
5 لغات الصوت
$7.90/شهر السعر الابتدائي

أطلقت شركة Kuaishou Technology رسمياً Kling AI 3.0 في 5 فبراير 2026، مقدمة أربعة نماذج جديدة تقرب توليد فيديو الذكاء الاصطناعي من صناعة الأفلام الاحترافية. يمثل الإصدار قفزة كبيرة عن سلسلة Kling 2.6، بإضافة صوت متعدد اللغات أصلي وقصص مصورة متعددة اللقطات ونظام AI Director يؤتمت تكوين اللقطات السينمائية.

يصل التحديث في فترة تنافسية متزايدة لفيديو الذكاء الاصطناعي. سيطر إطلاق Seedance 2.0 من ByteDance على العناوين بعد أيام مع جدل حقوق النشر في هوليوود، بينما تواصل Sora 2 من OpenAI و Runway Gen-4.5 التطوير. يميز Kling 3.0 نفسه بدمج التحكم الإبداعي بمستوى المخرج مع تسعير عدواني يقل عن معظم المنافسين في مجال فيديو الذكاء الاصطناعي.

جرب Kling AI 3.0

ولّد فيديوهات بالذكاء الاصطناعي سينمائية مع صوت أصلي وقصص مصورة متعددة اللقطات ووضع AI Director.

ابدأ مع Kling AI →

مجموعة نماذج 3.0

Kling 3.0 ليس نموذجاً واحداً—بل عائلة من أربعة، كل منها يستهدف سير عمل مختلف.

🎬

Video 3.0

النموذج الأساسي: فيديو سينمائي 15 ثانية مع صوت أصلي وسرد متعدد اللقطات

🎥

Video 3.0 Omni

توليد قائم على المرجع مع قصص مصورة مخصصة واستخراج الصوت واتساق الشخصيات

🖼️

Image 3.0

توليد صور بدقة فائقة حتى 4K

Image 3.0 Omni

توليد صور قائم على المرجع مع اتساق الموضوع عبر المخرجات

Video 3.0 يعمل كأساس، يقدم مقاطع 15 ثانية مع شخصيات واقعية وصوت أصلي بخمس لغات وسرد ذكي متعدد اللقطات. يتعامل مع التحكم الديناميكي في الكاميرا والحفاظ على النص في إطارات الفيديو والحركة القائمة على الفيزياء.

Video 3.0 Omni يبني على هذا الأساس بتوليد قائم على المرجع. ارفع فيديو مرجعي والنموذج يستخرج السمات البصرية وخصائص الصوت، ويعيد إنتاجها بدقة عبر مشاهد جديدة. ميزة القصة المصورة المخصصة تتيح للمستخدمين تحديد المدة وحجم اللقطة والمنظور والمحتوى السردي وحركات الكاميرا لكل لقطة في تسلسل متعدد اللقطات.

الصوت المتعدد اللغات الأصلي

الإضافة الأهم في Kling 3.0 هي توليد الصوت الأصلي، حيث يُصنَّع الكلام ضمن نفس البنية المعمارية للفيديو بدلاً من إضافته عبر المعالجة اللاحقة.

اللغات المدعومة تشمل:

  • الإنجليزية (بلكنات أمريكية وبريطانية وهندية)
  • الصينية
  • اليابانية
  • الكورية
  • الإسبانية

يمكن لكل شخصية في مشهد متعدد الشخصيات التحدث بلغة مختلفة مع مزامنة شفاه دقيقة. وفقاً لإعلان Kuaishou الرسمي، يتعامل النموذج مع “الإحالة الأساسية متعددة الشخصيات”—الحفاظ على الهوية البصرية وإسناد الحوار عبر زوايا كاميرا مختلفة وانتقالات المشاهد لثلاثة متحدثين أو أكثر في وقت واحد.

هذا النهج المتكامل ينتج تزامناً صوتياً بصرياً أوثق من الأدوات التي تضيف الصوت على مقاطع الفيديو المكتملة. للمبدعين العاملين عبر أسواق متعددة، يلغي خطوة التوطين المنفصلة.

مقارنة بـ Kling 2.6

قدم Kling 2.6 التوليد الصوتي البصري المتزامن كميزة فريدة من نوعها. الإصدار 3.0 يوسع ذلك إلى حوار متعدد الشخصيات ولغات متعددة والتحكم في اللكنة واستخراج الصوت من فيديوهات مرجعية.

AI Director والقصص المصورة متعددة اللقطات

تضع Kuaishou Kling 3.0 كأداة تحول “الجميع إلى مخرج”—ونظام AI Director أساسي لهذا العرض.

بدلاً من توليد لقطة واحدة متصلة، يمكن لـ Video 3.0 إنتاج حتى 6 لقطات مترابطة ضمن مقطع 15 ثانية واحد. ينسق AI Director تلقائياً:

  • تسلسلات لقطة-عكس-لقطة للحوار
  • القطع المتقاطع بين مشاهد متوازية
  • لقطات تأسيسية تنتقل إلى لقطات قريبة
  • حركات بان وتيلت وزوم للكاميرا بحركة سينمائية مدفوعة

يذهب Video 3.0 Omni أبعد بميزة القصة المصورة المخصصة، مما يعطي المستخدمين تحكماً دقيقاً في مدة كل لقطة وتأطيرها ومنظورها ومحتواها السردي وحركة الكاميرا. هذا يقف بين التوليد الآلي بالكامل والتحرير إطاراً بإطار—منطقة وسطى تجذب المبدعين الذين يريدون التحكم دون عبء ما بعد الإنتاج التقليدي.

الحفاظ على النص وتطبيقات التجارة الإلكترونية

ميزة أقل ضجيجاً لكنها مهمة تجارياً: يحافظ Kling 3.0 على النص المعروض في الفيديو بدقة عالية. الشعارات على الملابس واللافتات في المشاهد والعناصر ذات العلامات التجارية تبقى واضحة وقابلة للقراءة طوال المقطع.

هذا يجعل النموذج مفيداً بشكل خاص للإعلانات التجارية الإلكترونية، حيث قد ترتدي الشخصية قميصاً بعلامة تجارية أو تحمل منتجاً بتغليف مرئي أو تمر أمام واجهة متجر—كل ذلك مع بقاء النص مقروءاً. نماذج فيديو الذكاء الاصطناعي السابقة كانت عادةً تشوه النص إلى أشكال مجردة.

التسعير والموضع التنافسي

يحافظ Kling 3.0 على التسعير العدواني الذي كان أساسياً لجاذبيته.

Kling AI 3.0 Sora 2 Runway Gen-4.5
أقصى مدة 15 ثانية 60 ثانية 10 ثوانٍ
الدقة 4K / HDR 1080p 1080p
صوت أصلي 5 لغات لا لا
متعدد اللقطات حتى 6 لقطات لا لا
السعر الابتدائي $7.90/شهر $20/شهر $12/شهر
الطبقة المجانية 66 رصيد/يوم لا محدود

Kling أقل سعراً من Sora 2 و Runway معاً مع تقديم ميزات لا يدعمها أي منهما حالياً—الصوت الأصلي والقصص المصورة متعددة اللقطات. لا يزال Sora 2 يتقدم في أقصى مدة للمقطع (60 ثانية) والجودة البصرية الخام في سيناريوهات اللقطة الواحدة. يبقى Runway Gen-4.5 الأقوى للتحكم الإبداعي مع فرشاة الحركة وسير العمل الاحترافي الراسخ.

الطبقة المجانية مع 66 رصيد يومي تعطي المستخدمين ما يكفي للتجربة قبل الالتزام، استراتيجية دفعت نمو مستخدمي Kling منذ إصداراته المبكرة.

ما يعنيه هذا

لصناع الفيديو

يقلل Kling 3.0 الفجوة بين توليد فيديو الذكاء الاصطناعي وما قبل الإنتاج الاحترافي. ميزات القصص المصورة متعددة اللقطات و AI Director تتولى مهام كانت تتطلب سابقاً برامج تحرير—القطع بين الزوايا والحفاظ على اتساق الشخصيات عبر اللقطات ومزامنة الحوار. المبدعون العاملون على المحتوى القصير (إعلانات، مقاطع اجتماعية، عروض منتجات) يمكنهم الآن توليد تسلسلات متعددة المشاهد في خطوة واحدة.

لسوق فيديو الذكاء الاصطناعي

إصدار 3.0 يشدد سباق التسلح بين منصات فيديو الذكاء الاصطناعي الصينية والغربية. Kuaishou و ByteDance (Seedance) و Alibaba و Minimax تتطور بسرعة، بينما OpenAI و Google (Veo) و Runway تتنافس على الجودة والسلامة. تكامل الصوت الأصلي—الذي راده Kling في الإصدار 2.6—من المرجح أن يصبح توقعاً قياسياً بدلاً من ميزة تمييزية.

للمنصات المنافسة

القصص المصورة متعددة اللقطات تعطي Kling ميزة هيكلية للمحتوى السردي. Sora 2 و Runway يولدان حالياً لقطات واحدة متصلة؛ يجب على المستخدمين تجميع المقاطع يدوياً. إذا أثبتت قصص Kling المصورة موثوقيتها على نطاق واسع، سيواجه المنافسون ضغطاً لإضافة قدرات مماثلة.

جرب Kling AI 3.0 اليوم

ابدأ بإنشاء فيديوهات بالذكاء الاصطناعي سينمائية مع صوت أصلي وقصص مصورة متعددة اللقطات ودقة 4K.

ابدأ مجاناً مع Kling AI →

الأسئلة الشائعة

ما هو Kling AI 3.0؟

Kling AI 3.0 هو أحدث جيل من منصة توليد فيديو وصور الذكاء الاصطناعي من Kuaishou، أُطلق في 5 فبراير 2026. يتضمن أربعة نماذج (Video 3.0 و Video 3.0 Omni و Image 3.0 و Image 3.0 Omni) مع صوت متعدد اللغات أصلي وقصص مصورة متعددة اللقطات ووضع AI Director ومخرجات 4K.

ما اللغات التي يدعمها صوت Kling 3.0؟

Kling 3.0 يولّد صوتاً أصلياً بخمس لغات: الإنجليزية (بلكنات أمريكية وبريطانية وهندية) والصينية واليابانية والكورية والإسبانية. يمكن لكل شخصية في المشهد التحدث بلغة مختلفة مع حركة شفاه متزامنة.

كم يكلف Kling AI 3.0؟

Kling AI 3.0 يقدم طبقة مجانية مع 66 رصيد يومياً. تبدأ الخطط المدفوعة من 7.90 دولار/شهر (Basic، فوترة سنوية) مع 100 رصيد/شهر وفيديو 720p. خطط Pro (39.90 دولار/شهر) و Ultra (79.90 دولار/شهر) تقدم مخرجات 1080p ورصيد أكثر. جميع الخطط المدفوعة تتضمن حقوق الاستخدام التجاري.

كيف يقارن Kling 3.0 بـ Sora 2؟

Kling 3.0 يقدم صوتاً أصلياً وقصصاً مصورة متعددة اللقطات ووضع AI Director بسعر أقل (7.90 دولار/شهر مقابل 20 دولار/شهر). Sora 2 يدعم مقاطع أطول (حتى 60 ثانية مقابل 15 ثانية) وينتج عادةً جودة بصرية أفضل للقطة الواحدة. Kling أقوى للمحتوى السردي متعدد المشاهد؛ Sora أفضل للقطات سينمائية ممتدة بجولة واحدة.

ما هو وضع AI Director في Kling 3.0؟

وضع AI Director ينسق تلقائياً زوايا الكاميرا وتكوين اللقطة والانتقالات عبر تسلسلات متعددة اللقطات. يتعامل مع تقنيات مثل حوار لقطة-عكس-لقطة والقطع المتقاطع بين المشاهد والانتقالات من التأسيس إلى اللقطة القريبة دون تحرير يدوي.

هل يمكن لـ Kling 3.0 الحفاظ على اتساق الشخصيات عبر اللقطات؟

نعم. كل من Video 3.0 و Video 3.0 Omni يدعمان التوليد القائم على المرجع، حيث ترفع صوراً أو فيديوهات للشخصيات للحفاظ على الاتساق البصري. Omni يستخرج أيضاً خصائص الصوت من فيديوهات مرجعية لاتساق الصوت عبر المشاهد.


المصادر

هل كانت هذه المقالة مفيدة؟