فيديو
الصورة من مركز سامسونج للذكاء الاصطناعي
تقنية

أصبح من السهل جداً عمل مقاطع فيديو مُزيفة لوجوه الناس

تطوير خوارزمية تحتاج فقط إلى صورة حقيقية لشخص واحد لإنشاء مقاطع فيديو مزيفة
28.5.19

قام الباحثون في مركز Samsung AI Center (مركز سامسونج للذكاء الاصطناعي) في موسكو بتطوير تقنية لإنشاء "صور شخصية حية" من مجموعة بيانات صغيرة جدًا – يمكن أن تكون صورة شخصية واحدة. ويسمي الباحثون هذا النمط من التعلم المتعمق اسم Few- and One-Shot Learning (لقطة أو لقطات قليلة)، حيث يمكن لهذه الخوارزمية استخدام صورة واحدة فقط لإنشاء فيديو يحتوي على صور متحركة مقنعة. وكلما كان هناك مزيد من الصور أو اللقطات التي قد يصل عددها من 8 إلى 32 صورة فوتوغرافية تتحسن نسبة الواقعية بشكل أكبر.

ونظرا لأن هذه التقنية تحتاج إلى صورة لشخص واحد على الأقل، فإنه سيكون بمقدور الباحثين تحريك الرسومات واللوحات الفنية للمشاهير، والنتيجة مدهشة. مثلاً المؤلف الروسي الشهير فيودور دوستويفسكي - الذي توفي قبل أن تصبح آلة التصوير السينمائي متاحة تجاريًا – أصبح يتحرك ويتحدث بالأبيض والأسود،. فيما تقوم الموناليزا بتحريك فمها وعينيها بصمت مع ابتسامة خفيفة على وجهها. أما الفنان الاسباني الشهير سلفادور دالي فها هو يحرك شاربه بطريقة ملفتة.

يتم إنشاء هذه "النماذج الواقعية للرؤوس المتحركة" باستخدام تقنية Convolutional Neural Networks وهو نوع من الشبكات ضمن أنظمة الذكاء الاصطناعي تقوم بتدريب الخوارزمية على عدد كبير من مقاطع الفيديو لنماذج رؤوس متحركة مع مجموعة متنوعة من التعبيرات. وقد تم استخدام قاعدة بيانات VoxCeleb المتاحة للعامة والتي تحتوي على أكثر من 7 آلاف صورة لمشاهير من مقاطع فيديو على يوتيوب. وتركز هذه التقنية على تحديد ما يسمونه "المعالم المميزة" في الوجه مثل: العين، شكل الفم، شكل وطول قصب الأنف.

بشكل أو آخر، تعد هذه التقنية قفزة مهمة تفوق ما يمكن أن تنجزه حتى تقنيات الزيف العميق deepfakes والخوارزميات الأخرى فبدلا من تعليم الخوارزمية أن تقوم بلصق وجه على آخر باستخدام قائمة من التعبيرات لوجه شخص ما، فإنهم يستخدمون ملامح الوجه الشائعة في معظم البشر ومن ثم يقومون بتحريك الوجه الجديد.

وأشار الباحثون في الورقة البحثية الى أنهم يستخدمون تطبيقات نماذج محاكاة الوجوه الواقعية في مؤتمرات الفيديو والألعاب والمؤثرات الخاصة - لكن ما يسمى بـ uncanny valley عادة ما يعوقنا عن تبني الاستخدام الكامل لنماذج محاكاة لأوجه أناس حقيقيين. ويشير مصطلح وادي الغرابة الى تلك العلاقة بين الشبه البشري والروبوتات، وهو يعني أنه كلما أصبح الروبوت أقرب للشكل البشري، كلما شعرنا بالغربة أو البعد عنه. ومعنى هذا، أننا سنتقبل روبوتا أو شخصية متحركة ما دام يسهل تمييز أنهم ليسوا بشرا، أما إذا كانوا "مقاربين" للواقع، فإن تقبلنا، يتدهور بشكل حاد. ولكن يأمل الباحثين في أن تغير هذه التقنية من هذه الغرابة.

ظهر هذا المقال بالأصل على Motherboard