تطورات Deepfakes في 2025: وجوه و أصوات و عروض كاملة الجسد بالذكاء الاصطناعي أصبحت لا يمكن تمييزها

بقلم GenMediaLab • ٢٩ ديسمبر ٢٠٢٥ • 6 دقائق للقراءة

النقاط الرئيسية

✓ انفجر حجم deepfakes من ~500,000 في 2023 إلى ~8 ملايين في 2025 (نمو سنوي 900%)
✓ الوجوه والأصوات والعروض الكاملة الجسد المولدة بالذكاء الاصطناعي أصبحت لا يمكن تمييزها لمعظم المشاهدين
✓ استنساخ الصوت تجاوز 'عتبة عدم التمييز'—بضع ثوانٍ من الصوت الآن تخلق استنساخات مقنعة
✓ تركيب deepfake في الوقت الفعلي قادم في 2026، مما يتيح انتحال الهوية في مكالمات الفيديو المباشرة
✓ تجار التجزئة الكبار يبلغون عن تلقي أكثر من 1,000 مكالمة احتيال مولدة بالذكاء الاصطناعي يومياً

حالة Deepfakes في 2025

على مدار 2025، تحسنت deepfakes بشكل كبير. الوجوه والأصوات والعروض الكاملة الجسد المولدة بالذكاء الاصطناعي التي تحاكي أشخاصاً حقيقيين زادت في الجودة بشكل يتجاوز بكثير ما توقعه حتى الخبراء قبل بضع سنوات فقط.

بالنسبة للسيناريوهات اليومية—خاصة مكالمات الفيديو منخفضة الدقة والوسائط المشتركة على المنصات الاجتماعية—واقعيتها الآن عالية بما يكفي لخداع المشاهدين غير الخبراء بشكل موثوق. من الناحية العملية، أصبحت الوسائط الاصطناعية لا يمكن تمييزها عن التسجيلات الأصيلة للأشخاص العاديين، وفي بعض الحالات، حتى للمؤسسات.

“حجم deepfakes نما بشكل انفجاري: من حوالي 500,000 deepfake على الإنترنت في 2023 إلى حوالي 8 ملايين في 2025، مع نمو سنوي يقترب من 900%.” — DeepStrike، شركة الأمن السيبراني

ثلاث اختراقات تقنية وراء الموجة

1. واقعية الفيديو قفزت قفزة كبيرة

نماذج توليد الفيديو المصممة خصيصاً للحفاظ على الاتساق الزمني تنتج الآن فيديوهات مع:

حركة متماسكة عبر الإطارات
هوية متسقة للأشخاص المصورين
محتوى منطقي من إطار إلى آخر

هذه النماذج تفصل معلومات الهوية عن معلومات الحركة، مما يسمح بنفس الحركة المطابقة لهويات مختلفة—أو نفس الهوية مع أنواع متعددة من الحركة.

النتيجة: وجوه مستقرة ومتماسكة بدون الوميض أو التشويه أو التشوهات الهيكلية حول العينين وخط الفك التي كانت بمثابة دليل فحص موثوق.

2. استنساخ الصوت تجاوز “عتبة عدم التمييز”

بضع ثوانٍ من الصوت الآن كافية لتوليد استنساخ صوتي مقنع—مكتمل مع:

التنغيم والإيقاع الطبيعي
التأكيد والعاطفة
التوقفات وضوضاء التنفس

هذه القدرة تغذي بالفعل الاحتيال على نطاق واسع. وفقاً للتقارير، بعض تجار التجزئة الكبار يتلقون أكثر من 1,000 مكالمة احتيال مولدة بالذكاء الاصطناعي يومياً. المؤشرات الإدراكية التي كانت تكشف الأصوات الاصطناعية اختفت إلى حد كبير.

3. أدوات المستهلك دفعت الحاجز إلى الصفر تقريباً

الترقيات من Sora 2 من OpenAI و Veo 3 من Google وموجة من الشركات الناشئة تعني أن أي شخص يمكنه:

وصف فكرة
ترك نموذج لغة كبير يكتب سيناريو
توليد وسائط سمعية بصرية مصقولة في دقائق

وكلاء الذكاء الاصطناعي يمكنهم الآن أتمتة العملية بالكامل. القدرة على توليد deepfakes متماسكة مدفوعة بالقصة على نطاق واسع تم إضفاء الديمقراطية عليها بشكل فعال.

الضرر في العالم الحقيقي يحدث بالفعل

نوع الضرر	أمثلة
المعلومات المضللة	deepfakes بالذكاء الاصطناعي لأطباء حقيقيين ينشرون معلومات صحية مضللة على وسائل التواصل الاجتماعي
المضايقة المستهدفة	صور حميمة بدون موافقة وهجمات على السمعة
عمليات الاحتيال المالية	عمليات احتيال صوتية مدعومة بالذكاء الاصطناعي تستهدف الشركات والأفراد
احتيال الهوية	هويات اصطناعية مستخدمة في أنظمة التحقق

Deepfakes تنتشر أسرع مما يمكن التحقق منها، مما يخلق بيئة حيث يحدث الضرر غالباً قبل أن يدرك الناس ما يحدث.

ما سيأتي في 2026: التركيب في الوقت الفعلي

النظر إلى الأمام، المسار واضح: Deepfakes تتحرك نحو التركيب في الوقت الفعلي.

التطورات المتوقعة

مشاركون في مكالمات فيديو مباشرة يتم تركيبهم في الوقت الفعلي
ممثلون مدفوعون بالذكاء الاصطناعي تفاعليون تتكيف وجوههم وأصواتهم وأساليبهم فوراً مع المطالبات
أفاتار متجاوبة يتم نشرها من قبل المحتالين بدلاً من فيديوهات ثابتة مسبقة التقديم

الحدود تتحول من الواقعية البصرية الثابتة إلى الاتساق الزمني والسلوكي—نماذج تولد محتوى مباشر أو شبه مباشر بدلاً من المقاطع مسبقة التقديم.

نمذجة الهوية تصبح أكثر تطوراً

أنظمة موحدة جديدة تلتقط ليس فقط كيف يبدو الشخص، ولكن:

كيف يتحركون
كيف يبدون
كيف يتحدثون عبر سياقات مختلفة

النتيجة تتجاوز “هذا يشبه الشخص X” إلى “هذا يتصرف مثل الشخص X مع مرور الوقت.”

كيفية حماية نفسك

الكشف يصبح أصعب

ببساطة النظر بشكل أقوى إلى البكسل لن يكون كافياً بعد الآن. خط الدفاع ذو المعنى يتحول إلى:

حماية على مستوى البنية التحتية (إثبات المصدر الآمن، وسائط موقعة تشفيرياً)
معايير إثبات المصدر للمحتوى مثل تحالف إثبات المصدر والأصالة للمحتوى (C2PA)
أدوات فحص متعددة الوسائط مثل Deepfake-o-Meter

ما يمكنك فعله

تحقق من المصادر قبل الوثوق بمحتوى الفيديو أو الصوت
كن متشككاً من مكالمات الفيديو غير المتوقعة، خاصة المتعلقة بطلبات مالية
استخدم التحقق متعدد العوامل للاتصالات الحساسة
ادعم المنصات التي تنفذ مصادقة المحتوى

ابق على اطلاع حول أدوات الذكاء الاصطناعي

تابع تغطيتنا لتطورات توليد فيديو وصوت وصورة بالذكاء الاصطناعي

تصفح أخبار الذكاء الاصطناعي →

الأسئلة الشائعة

كم عدد deepfakes الموجودة على الإنترنت في 2025؟

وفقاً لشركة الأمن السيبراني DeepStrike، هناك ما يقرب من 8 ملايين deepfake على الإنترنت في 2025، ارتفاعاً من حوالي 500,000 في 2023—مما يمثل نمواً سنوياً يقترب من 900%.

هل يمكن اكتشاف deepfakes بعد الآن؟

الكشف يصبح صعباً بشكل متزايد. الطرق التقليدية للفحص مثل البحث عن آثار البكسل أقل فعالية. التركيز يتحول إلى التوقيع التشفيري للمحتوى وتتبع إثبات المصدر.

كم من الصوت مطلوب لاستنساخ صوت شخص ما؟

في 2025، بضع ثوانٍ فقط من الصوت كافية لتوليد استنساخ صوتي مقنع مكتمل مع التنغيم الطبيعي والإيقاع والعاطفة وأصوات التنفس.

ما هو تركيب deepfake في الوقت الفعلي؟

التركيب في الوقت الفعلي يسمح لـ deepfakes أن يتم توليدها مباشرة أثناء مكالمات الفيديو أو البث، بدلاً من أن تكون مسبقة التقديم. هذا يتيح ممثلين بالذكاء الاصطناعي تفاعليين يمكنهم الاستجابة للمحادثات في الوقت الفعلي.

ما هو C2PA؟

تحالف إثبات المصدر والأصالة للمحتوى (C2PA) هو معيار صناعي للتوقيع التشفيري للوسائط للتحقق من مصدرها واكتشاف التلاعب. أصبح دفاعاً رئيسياً ضد deepfakes.