قاموس إنشاء الفيديو بالذكاء الاصطناعي: المصطلحات الأساسية موضحة

بقلم GenMediaLab • ٦ نوفمبر ٢٠٢٥ • 10 دقائق للقراءة

مثالي لـ: مسوقي المنتجات، فرق العمليات، كتاب الوكالات، والمؤثرين الذين يحتاجون إلى مرجع سريع أثناء كتابة محتوى مدعوم بالذكاء الاصطناعي.

A

أفاتار الذكاء الاصطناعي (AI Avatar)

شخصية رقمية يتم إنشاؤها بواسطة الذكاء الاصطناعي يمكنها التحدث والتحرك بشكل واقعي. تُستخدم في الفيديوهات لاستبدال الممثلين البشريين.

ملء الصوت (Audio Inpainting)

استخدام الذكاء الاصطناعي لملء الفجوات، أو إزالة الأصوات غير المرغوب فيها، أو إصلاح الأقسام التالفة من التسجيلات الصوتية مع الحفاظ على التدفق الطبيعي.

توليف الصوت (Audio Synthesis)

عملية توليد كلام شبيه بالبشر باستخدام الذكاء الاصطناعي بدلاً من تسجيل صوت شخص حقيقي.

نسبة العرض إلى الارتفاع (Aspect Ratio)

نسبة العرض إلى الارتفاع للفيديو (على سبيل المثال، 16:9 للشاشة العريضة، 9:16 للعمودي/الموبايل).

B

إزالة الخلفية (Background Removal)

تقنية الذكاء الاصطناعي التي تزيل تلقائياً الخلفية من لقطات الفيديو، مما يسمح لك باستبدالها بمشاهد مخصصة.

التوليد المجمع (Batch Generation)

إنشاء عدة فيديوهات في وقت واحد من نصوص أو قوالب مختلفة.

مجموعة العلامة التجارية (Brand Kit)

مجموعة من الشعارات والألوان والخطوط والأصول المستخدمة للحفاظ على العلامة التجارية المتسقة عبر الفيديوهات.

C

مقياس CFG (CFG Scale - Classifier-Free Guidance)

معامل يتحكم في مدى التزام الذكاء الاصطناعي بإرشادك. القيم الأعلى تخلق مخرجات أكثر وفاءً لوصفك؛ القيم الأقل تسمح بمزيد من الحرية الإبداعية.

نقطة التحقق (Checkpoint)

حالة محفوظة لأوزان نموذج الذكاء الاصطناعي المدربة. نقاط التحقق المختلفة يمكن أن تنتج أنماطاً بصرية أو قدرات مختلفة.

استنساخ الصوت (Clone Voice)

إنشاء نسخة اصطناعية من صوت شخص يمكنه التحدث بأي نص مع الحفاظ على خصائص الصوت الأصلي.

ControlNet

تقنية تعطي تحكماً دقيقاً في توليد صور وفيديو الذكاء الاصطناعي من خلال استخدام صور مرجعية للوضعيات والحواف وخرائط العمق أو أدلة بصرية أخرى.

أفاتار مخصص (Custom Avatar)

أفاتار ذكاء اصطناعي مخصص يتم إنشاؤه من لقطات لشخص محدد، يُستخدم لتمثيل شبهه الرقمي.

D

التزييف العميق (Deepfake)

تقنية تلاعب بالفيديو تقوم بتبديل الوجوه أو تعديل المحتوى. مثيرة للجدل عند استخدامها دون موافقة (ليست نفس أفاتار الذكاء الاصطناعي الأخلاقية).

نموذج الانتشار (Diffusion Model)

بنية الذكاء الاصطناعي التي تشغل مولدات الفيديو الحديثة مثل Sora و Runway و Kling. تعمل من خلال تعلم إزالة الضوضاء من الضوضاء العشوائية حتى تظهر صورة أو فيديو متماسك.

الإنسان الرقمي (Digital Human)

مصطلح آخر لأفاتار الذكاء الاصطناعي - شخص تم إنشاؤه بواسطة الكمبيوتر يبدو ويتصرف كإنسان.

الدبلجة (Dubbing)

استبدال الصوت الأصلي في الفيديو بلغة مختلفة مع مزامنة حركات الشفاه.

E

الحالات الحدية (Edge Cases)

سيناريوهات غير عادية أو نادرة حيث قد لا يعمل الذكاء الاصطناعي بشكل مثالي (على سبيل المثال، النطق غير الشائع).

تنسيق التصدير (Export Format)

نوع الملف الذي يتم حفظ الفيديو به (على سبيل المثال، MP4، MOV، WebM).

F

تبديل الوجه (Face Swap)

تقنية تستبدل وجه شخص بآخر في الفيديو.

الضبط الدقيق (Fine-tuning)

عملية أخذ نموذج ذكاء اصطناعي مدرب مسبقاً وتدريبه أكثر على بيانات محددة لتخصصه لمهمة أو أسلوب أو موضوع معين.

معدل الإطارات (Frame Rate)

عدد الصور (الإطارات) المعروضة في الثانية في الفيديو. المعيار هو 24-30 إطاراً في الثانية.

الواجهة الأمامية/الخلفية (Frontend/Backend)

الواجهة الأمامية تشير إلى ما يراه المستخدمون، الواجهة الخلفية تشير إلى معالجة الذكاء الاصطناعي التي تحدث خلف الكواليس.

G

الذكاء الاصطناعي التوليدي (Generative AI)

الذكاء الاصطناعي الذي ينشئ محتوى جديداً (صور، فيديوهات، صوت) بدلاً من مجرد تحليل المحتوى الموجود.

التحكم بالإيماءات (Gesture Control)

القدرة على برمجة حركات يد الأفاتار ولغة الجسد.

الشاشة الخضراء (Green Screen)

تقنية يتم فيها استبدال خلفية بلون صلب (عادةً الأخضر) بصور أخرى. يمكن للذكاء الاصطناعي القيام بذلك تلقائياً الآن.

H

الهلوسة (Hallucination)

عندما يولد الذكاء الاصطناعي محتوى خاطئاً أو غير منطقي أو غير صحيح من الناحية الواقعية. في الفيديو، قد يظهر هذا كأيدي مشوهة، أو فيزياء مستحيلة، أو وجوه تتغير بشكل غير طبيعي.

فائق الواقعية (Hyper-Realistic)

محتوى تم إنشاؤه بالذكاء الاصطناعي يصعب للغاية التمييز بينه وبين اللقطات الحقيقية.

HeyGen

منصة فيديو أفاتار ذكاء اصطناعي شائعة معروفة باستنساخ الصوت وسهولة الاستخدام.

I

الصورة إلى الفيديو (Image-to-Video - img2vid)

توليد محتوى فيديو من صورة ثابتة واحدة. يقوم الذكاء الاصطناعي بتحريك الصورة الثابتة، مضيفاً الحركة، أو حركة الكاميرا، أو تحريك الشخصية.

الاستدلال (Inference)

عملية تشغيل نموذج ذكاء اصطناعي مدرب لتوليد المخرجات. عندما تنشئ فيديو بأداة ذكاء اصطناعي، تسمى عملية التوليد الاستدلال.

الملء (Inpainting)

ملء أو تعديل أجزاء من إطار فيديو باستخدام الذكاء الاصطناعي.

أفاتار فوري (Instant Avatar)

أفاتار ذكاء اصطناعي جاهزة متاحة فوراً دون تدريب مخصص.

J

J-Cut

تقنية تحرير حيث يبدأ الصوت من المشهد التالي في التشغيل قبل انتهاء الصورة الحالية. مفيدة لجعل المشاهد التي تم إنشاؤها بالذكاء الاصطناعي تبدو أكثر طبيعية.

تقليل الاهتزاز (Jitter Reduction)

مرشحات التثبيت التي تزيل اهتزازات الكاميرا الصغيرة أو الضوضاء من إطار إلى إطار في اللقطات المقدمة بالذكاء الاصطناعي.

K

الإطار الرئيسي (Keyframe)

إطار يمثل تغييراً في الرسوم المتحركة، أو موضع الكاميرا، أو التأثير. العديد من محرري الفيديو بالذكاء الاصطناعي تسمح لك بتحديد إطارات رئيسية لوضعيات الأفاتار أو حركات الكاميرا.

حد المعرفة (Knowledge Cutoff)

أحدث تاريخ تم تدريب نموذج ذكاء اصطناعي توليدي عليه. مهم عندما تستشهد أدوات الذكاء الاصطناعي بالحقائق داخل نصوصك.

L

زمن الاستجابة (Latency)

التأخير بين بدء توليد الفيديو واستلام المنتج النهائي.

مزامنة الشفاه (Lip-Sync)

مطابقة حركات فم الأفاتار مع الكلمات المنطوقة. حاسم للفيديوهات الواقعية.

LLM (نموذج اللغة الكبير - Large Language Model)

نماذج الذكاء الاصطناعي مثل GPT التي يمكن أن تساعد في كتابة النصوص وتوليد محتوى الفيديو.

LoRA (التكيف منخفض الرتبة - Low-Rank Adaptation)

تقنية ضبط دقيق خفيفة الوزن تدرب وحدات محول صغيرة بدلاً من نموذج الذكاء الاصطناعي بالكامل. شائعة لإضافة أنماط أو شخصيات أو مفاهيم مخصصة إلى مولدات الفيديو.

M

التقاط الحركة (Motion Capture)

تسجيل حركات الإنسان الحقيقية لجعل الأفاتار تتحرك بشكل أكثر طبيعية.

دعم متعدد اللغات (Multi-Language Support)

القدرة على إنشاء فيديوهات بالعديد من اللغات المختلفة مع النطق الأصلي.

MP4

تنسيق ملف الفيديو الأكثر شيوعاً، متوافق على نطاق واسع مع جميع المنصات.

متعدد الوسائط (Multimodal)

نماذج الذكاء الاصطناعي التي يمكنها فهم وتوليد أنواع متعددة من المحتوى—النص والصور والصوت والفيديو—ضمن نظام واحد. أمثلة تشمل GPT-4V و Gemini.

N

معالجة اللغة الطبيعية (Natural Language Processing - NLP)

قدرة الذكاء الاصطناعي على فهم وتوليد اللغة البشرية - تُستخدم لتحليل النصوص والتعليقات الصوتية.

الإرشاد السلبي (Negative Prompt)

تعليمات تخبر الذكاء الاصطناعي بما لا يجب تضمينه في المحتوى المولد. تُستخدم لتجنب العناصر غير المرغوب فيها مثل الصور الضبابية، أو الأطراف الإضافية، أو الأنماط المحددة.

الشبكة العصبية (Neural Network)

بنية الذكاء الاصطناعي التي تشغل توليد الأفاتار وتوليف الصوت.

O

الدبلجة الإضافية (Overdub)

استبدال الحوار الموجود بكلام جديد تم إنشاؤه بالذكاء الاصطناعي مع الحفاظ على التوقيت سليماً.

التوسيع الخارجي (Outpainting)

توسيع مشاهد الفيديو خارج حدودها الأصلية باستخدام الذكاء الاصطناعي لتخيل البكسلات الإضافية.

P

فوتوواقعي (Photorealistic)

جودة بصرية تشبه بشكل وثيق التصوير الفوتوغرافي أو لقطات الفيديو الحقيقية.

النبرة (Pitch)

ارتفاع أو انخفاض الصوت. يمكن تعديله في توليد صوت الذكاء الاصطناعي.

الإعداد المسبق (Preset)

إعدادات أو قوالب مُعدة مسبقاً تسرع عملية إنشاء الفيديو.

Q

عتبة الجودة (Quality Threshold)

معيار أدنى (دقة، معدل البت، أو درجة ثقة الذكاء الاصطناعي) يجب تحقيقه قبل انتهاء التقديم.

التكميم (Quantization)

ضغط نماذج الذكاء الاصطناعي حتى تعمل بشكل أسرع على وحدات معالجة الرسومات الاستهلاكية، أحياناً على حساب التفاصيل الدقيقة.

R

التقديم (Rendering)

عملية توليد ملف الفيديو النهائي من نصك وإعداداتك.

الدقة (Resolution)

جودة الفيديو المقاسة بالبكسل (على سبيل المثال، 1080p، 4K). أعلى = جودة أفضل لكن ملفات أكبر.

S

النص (Script)

النص الذي سيتحدثه أفاتار الذكاء الاصطناعي في الفيديو.

فصل الأجزاء (Stem Separation)

تقنية الذكاء الاصطناعي التي تقسم مسار صوتي مختلط إلى مكونات فردية (أجزاء) مثل الغناء والطبول والباس وآلات أخرى. تُستخدم لإعادة المزج والكاريوكي وإنشاء المحتوى.

الوسائط الاصطناعية (Synthetic Media)

محتوى (فيديو، صوت، صور) تم إنشاؤه أو تعديله بواسطة الذكاء الاصطناعي.

Synthesia

منصة فيديو أفاتار ذكاء اصطناعي رائدة تركز على المؤسسات.

T

الاتساق الزمني (Temporal Consistency)

مدى سلاسة وتماسك فيديو تم إنشاؤه بالذكاء الاصطناعي في الحفاظ على العناصر البصرية عبر الإطارات. الاتساق الزمني الضعيف يسبب وميضاً، أو كائنات متغيرة، أو شخصيات تتغير مظهرها في منتصف الفيديو.

النص إلى الموسيقى (Text-to-Music)

أنظمة الذكاء الاصطناعي التي تولد تركيبات موسيقية كاملة من أوصاف النص. منصات مثل Suno و Udio يمكنها إنشاء أغانٍ مع غناء وآلات وإنتاج من إرشادات بسيطة.

النص إلى الكلام (Text-to-Speech - TTS)

تحويل النص المكتوب إلى صوت منطوق باستخدام أصوات الذكاء الاصطناعي.

النص إلى الفيديو (Text-to-Video)

توليد محتوى فيديو من أوصاف أو نصوص نصية.

القالب (Template)

تخطيطات فيديو مصممة مسبقاً تسرع عملية الإنشاء.

الصورة المصغرة (Thumbnail)

صورة المعاينة المعروضة قبل تشغيل الفيديو.

U

التصعيد (Upscaling)

استخدام الذكاء الاصطناعي لزيادة دقة وجودة الفيديو.

V

الفيديو إلى الفيديو (Video-to-Video - vid2vid)

تحويل لقطات فيديو موجودة باستخدام الذكاء الاصطناعي لتغيير أسلوبها أو مظهرها أو محتواها مع الحفاظ على الحركة والبنية الأصلية.

استنساخ الصوت (Voice Cloning)

إنشاء نسخة اصطناعية من صوت شخص يمكنه التحدث بأي نص.

تعديل الصوت (Voice Modulation)

تعديل خصائص الصوت مثل النبرة والسرعة والعاطفة.

VTT/SRT

تنسيقات ملفات الترجمة لإضافة ترجمات إلى الفيديوهات.

W

العلامة المائية (Watermark)

شعار أو نص متراكب على الفيديو، غالباً ما يُستخدم في التجارب المجانية أو لحماية المحتوى.

سير العمل (Workflow)

سلسلة الخطوات من النص إلى الفيديو النهائي.

X

XR (الواقع الممتد - Extended Reality)

مصطلح شامل للواقع المعزز (AR) والواقع الافتراضي (VR) والواقع المختلط. غالباً ما يتم نقل أفاتار الذكاء الاصطناعي إلى تجارب XR.

ترجمة XML (XML Subtitle)

ملفات نصية مؤقتة (مثل TTML) يتم تصديرها من أدوات الترجمة بالذكاء الاصطناعي لسير عمل البث.

Y

مساحة اللون YUV (YUV Color Space)

نموذج اللون الذي تستخدمه معظم منصات البث. معرفته يساعد عند تصدير لقطات الذكاء الاصطناعي لمطابقة معايير البث.

YouTube Shorts

فيديوهات عمودية أقل من 60 ثانية. العديد من مولدات الفيديو بالذكاء الاصطناعي تأتي مع إعدادات مسبقة لـ Shorts.

Z

التوليد بدون أمثلة (Zero-Shot Generation)

إنتاج فيديو أو صوت مقنع دون توفير لقطات أو صوت مثال للموضوع المستهدف.

استيراد تسجيل Zoom (Zoom Recording Import)

رفع اجتماع Zoom إلى محرر ذكاء اصطناعي حتى يتمكن من قصه أو ترجمته أو تحويله إلى مقاطع مخططة.

الخلاصة

يغطي هذا القاموس المصطلحات الأساسية التي ستواجهها عند العمل مع أدوات توليد الفيديو بالذكاء الاصطناعي. مع تطور التكنولوجيا، ستظهر مصطلحات جديدة - سنبقي هذا الدليل محدثاً!

احفظ هذه الصفحة كمرجع سريع أثناء إنشاء فيديوهاتك بالذكاء الاصطناعي.

مصطلح مفقود؟ اتصل بنا لاقتراح إضافات!

هل كانت هذه المقالة مفيدة؟