Kling O1: إطلاق أول نموذج فيديو متعدد الوسائط موحد في العالم

بقلم GenMediaLab • ٧ يناير ٢٠٢٦ • 6 دقائق للقراءة

النقاط الرئيسية

✓ أول نموذج فيديو متعدد الوسائط موحد يجمع جميع مهام الفيديو في محرك واحد
✓ تحرير باللغة الطبيعية: صف التغييرات مثل 'إزالة المارة' أو 'تغيير إلى غروب الشمس'
✓ يحافظ على اتساق الشخصية والمشهد عبر اللقطات الديناميكية
✓ يدعم 'مجموعات المهارات' لتنفيذ مهام إبداعية متعددة في نفس الوقت
✓ ينتج حتى دقة 2K (1080p) بمعدل 30 إطارًا في الثانية مع مدة 3-10 ثوانٍ

ما الذي حدث

في 30 ديسمبر 2025، أطلقت شركة Kuaishou Technology Kling O1، ووضعته كأول نموذج فيديو متعدد الوسائط موحد في العالم. على عكس أدوات فيديو الذكاء الاصطناعي التقليدية التي تتطلب التبديل بين نماذج مختلفة لمهام مختلفة، يدمج Kling O1 النص والفيديو والصورة ومدخلات الموضوع في محرك متماسك واحد.

هذا يمثل تحولًا معماريًا كبيرًا في توليد فيديو الذكاء الاصطناعي—من أدوات متخصصة إلى منصة موحدة تتعامل مع الإنشاء والتحرير والتحويل داخل نظام واحد.

لماذا النموذج المتعدد الوسائط الموحد مهم

الطريقة القديمة: القفز بين الأدوات

تتطلب سير عمل فيديو الذكاء الاصطناعي التقليدية من المنشئين التعامل مع أدوات متعددة:

أداة نص-إلى-فيديو للتوليد الأولي
أداة صورة-إلى-فيديو لتحريك الصور الثابتة
برنامج تحرير منفصل للتعديلات
أداة نقل الأسلوب للتغييرات البصرية
التمويه اليدوي لإزالة الكائنات

كل خطوة تقدم إمكانية عدم الاتساق في الشخصيات والإضاءة والأسلوب.

نهج Kling O1: محرك واحد

يوحد Kling O1 جميع هذه القدرات:

المهمة	النهج التقليدي	Kling O1
نص-إلى-فيديو	نموذج مخصص	✅ محرك موحد
فيديو قائم على المرجع	أداة منفصلة	✅ محرك موحد
تلوين الفيديو	تمويه يدوي	✅ لغة طبيعية
تحويل الأسلوب	نموذج متخصص	✅ محرك موحد
تمديد اللقطة	تصدير/استيراد	✅ مدمج

الميزات الرئيسية

اللغة البصرية متعددة الوسائط (MVL)

يستخدم Kling O1 MVL لمعالجة وتفسير مدخلات متنوعة—النص والصور والفيديوهات ومراجع الموضوع—مما يمكّن مخرجات دقيقة سياقيًا بغض النظر عن نوع المدخل.

تحرير باللغة الطبيعية

بدلاً من تعلم واجهات تحرير معقدة، يمكن للمستخدمين وصف التغييرات بلغة عادية:

“أزل المارة من الخلفية” — لا حاجة لتمويه يدوي
“غيّر النهار إلى غروب الشمس” — تحويل تلقائي للإضاءة واللون
“اجعل الشخصية تبتسم” — تعديل التعبير على الفور

هذا يلغي الحاجة للتحرير إطار بإطار أو معالجة الإطارات الرئيسية.

اتساق الشخصية والمشهد

واحدة من أكبر التحديات في فيديو الذكاء الاصطناعي كانت الحفاظ على الاتساق عبر اللقطات. يتعامل Kling O1 تحديدًا مع “تحدي الاتساق” هذا من خلال:

الحفاظ على مظهر الشخصية عبر المشاهد الديناميكية
الحفاظ على الدعائم والكائنات طوال التسلسلات
الحفاظ على إعدادات البيئة متماسكة

مجموعات المهارات

ميزة بارزة: يمكن لـ Kling O1 تنفيذ مهام إبداعية متعددة في نفس الوقت. على سبيل المثال:

إضافة موضوع جديد بينما تعدل الخلفية
تحويل الأسلوب بينما تمدد اللقطة
تغيير الإضاءة بينما تضيف حركة

هذه المعالجة المتوازية تسرع بشكل كبير سير العمل الإبداعي المعقد.

المواصفات التقنية

المواصفة	القدرة
الدقة	حتى 2K (1080p قياسي)
معدل الإطارات	30 إطارًا في الثانية
المدة	3-10 ثوانٍ (إيقاع محدد من المستخدم)
الاستدلال	سلسلة التفكير للفيزياء الواقعية

حالات الاستخدام

السينما والتلفزيون

التصور المسبق والنماذج الأولية السريعة للقطات مع شخصيات ومشاهد متسقة.

وسائل التواصل الاجتماعي

إنشاء محتوى مصقول دون التبديل بين تطبيقات متعددة أو تعلم برنامج تحرير معقد.

الإعلان

توليد اختلافات لمفاهيم الإعلان بسرعة، مع تعديلات باللغة الطبيعية بدلاً من إعادة التقديم الكاملة.

التجارة الإلكترونية

فيديوهات منتجات مع إضاءة وعرض متسقين عبر الكتالوج بالكامل.

جرب Kling AI

اختبر النهج المتعدد الوسائط الموحد لتوليد فيديو الذكاء الاصطناعي

زر Kling AI →

كيف يقارن Kling O1

الميزة	Kling O1	Runway Gen-4	Sora 2	Veo 3
محرك موحد	✅	❌	❌	❌
تحرير لغة طبيعية	✅	محدود	محدود	محدود
مجموعات مهام متعددة	✅	❌	❌	❌
تركيز الاتساق	✅ مدمج	يختلف	يختلف	يختلف
توليد الصوت	عبر Kling 2.6	❌	❌	✅

بينما يتفوق المنافسون في مجالات محددة (دقة Sora البصرية، تكامل Veo الصوتي)، يضع نهج Kling O1 الموحد نفسه بشكل فريد لكفاءة سير العمل.

ما يعنيه هذا للمنشئين

للمنشئين الأفراد

حاجز الدخول للتحرير المتقدم للفيديو ينخفض بشكل كبير. أوامر اللغة الطبيعية تحل محل المهارات التقنية.

لفرق الإنتاج

دورات تكرار أسرع. التغييرات التي تطلبت التصدير إلى أدوات مختلفة تحدث الآن داخل منصة واحدة.

للصناعة

يشير هذا إلى تحول نحو أنظمة متعددة الوسائط موحدة. توقع أن يتبع المنافسون بأساليبهم الموحدة الخاصة.

التوفر

Kling O1 متاح الآن من خلال منصة Kling AI. يكمل نموذج Kling Video 2.6 الموجود، الذي يقدم توليد صوتي-بصري متزامن.

الأسئلة الشائعة

ما هو Kling O1؟

Kling O1 هو نموذج فيديو متعدد الوسائط الموحد لـ Kuaishou الذي يجمع نص-إلى-فيديو، صورة-إلى-فيديو، تحرير الفيديو، نقل الأسلوب، وتمديد اللقطة في محرك واحد.

كيف يختلف Kling O1 عن أدوات فيديو الذكاء الاصطناعي الأخرى؟

على عكس الأدوات التي تتخصص في مهمة واحدة، يتعامل Kling O1 مع جميع مهام توليد وتحرير الفيديو في محرك موحد واحد، مع الحفاظ على الاتساق وتمكين التحرير باللغة الطبيعية.

هل يمكنني تحرير الفيديوهات بأوامر نصية في Kling O1؟

نعم. يدعم Kling O1 التحرير باللغة الطبيعية—يمكنك وصف التغييرات مثل 'أزل الشخص في الخلفية' أو 'غيّر الإضاءة إلى غروب الشمس' دون تمويه يدوي.

ما الدقة التي يدعمها Kling O1؟

يولد Kling O1 فيديوهات حتى دقة 2K (1080p قياسي) بمعدل 30 إطارًا في الثانية، مع مدة من 3 إلى 10 ثوانٍ.

هل يتضمن Kling O1 توليد الصوت؟

يركز Kling O1 على قدرات الفيديو الموحدة. للتوليد الصوتي-البصري المتزامن، تقدم Kuaishou Kling Video 2.6، الذي يولد فيديو مع صوت ومؤثرات صوتية وصوت بيئي.

ما نراقبه: ما إذا كانت المنافسين مثل OpenAI و Runway و Google تتحرك نحو معماريات متعددة الوسائط موحدة، وكيف يدمج Kling قدرات O1 مع ميزاتهم الصوتية-البصرية الموجودة من الإصدار 2.6.

المصادر

بيان صحفي لشركة Kuaishou Technology (PRNewswire) - 30 ديسمبر 2025