أداة الذكاء الاصطناعي من مايكروسوفت تحول الصور إلى مقاطع فيديو واقعية
تاريخ النشر: 20th, April 2024 GMT
كشفت شركة Microsoft Research Asia عن أداة تجريبية جديدة للذكاء الاصطناعي تسمى VASA-1 يمكنها التقاط صورة ثابتة لشخص ما - أو رسم لشخص ما - وملف صوتي موجود لإنشاء وجه ناطق نابض بالحياة في الوقت الفعلي.
لديه القدرة على توليد تعبيرات الوجه وحركات الرأس لصورة ثابتة موجودة وحركات الشفاه المناسبة لتتناسب مع خطاب أو أغنية.
في حين أن حركات الشفاه والرأس في الأمثلة لا تزال تبدو آلية إلى حد ما وغير متزامنة عند الفحص الدقيق، إلا أنه لا يزال من الواضح أنه يمكن إساءة استخدام التكنولوجيا لإنشاء مقاطع فيديو مزيفة بسهولة وسرعة لأشخاص حقيقيين.
يدرك الباحثون أنفسهم هذه الإمكانية وقرروا عدم إصدار "عرض توضيحي عبر الإنترنت، أو واجهة برمجة تطبيقات، أو منتج، أو تفاصيل تنفيذ إضافية، أو أي عروض ذات صلة" حتى يتأكدوا من أن التكنولوجيا الخاصة بهم "سيتم استخدامها بشكل مسؤول وبما يتوافق مع المعايير المناسبة". أنظمة." ومع ذلك، لم يذكروا ما إذا كانوا يخططون لتنفيذ ضمانات معينة لمنع الجهات الفاعلة السيئة من استخدامها لأغراض شائنة، مثل إنشاء حملات إباحية مزيفة أو حملات معلومات مضللة.
ويعتقد الباحثون أن تقنيتهم تتمتع بالكثير من الفوائد على الرغم من احتمالية إساءة استخدامها.
قالوا إنه يمكن استخدامه لتعزيز المساواة التعليمية، وكذلك لتحسين إمكانية الوصول لأولئك الذين يعانون من تحديات التواصل، ربما من خلال منحهم إمكانية الوصول إلى الصورة الرمزية التي يمكنها التواصل معهم. وقالوا إنه يمكنه أيضًا توفير الرفقة والدعم العلاجي لأولئك الذين يحتاجون إليه، ملمحين إلى أنه يمكن استخدام VASA-1 في البرامج التي توفر الوصول إلى شخصيات الذكاء الاصطناعي التي يمكن للأشخاص التحدث إليها.
وفقًا للورقة البحثية المنشورة مع الإعلان، تم تدريب VASA-1 على مجموعة بيانات VoxCeleb2، التي تحتوي على "أكثر من مليون عبارة لـ 6,112 من المشاهير" والتي تم استخلاصها من مقاطع فيديو يوتيوب. على الرغم من أن الأداة تم تدريبها على الوجوه الحقيقية، إلا أنها تعمل أيضًا على الصور الفنية مثل الموناليزا، والتي قام الباحثون بدمجها بشكل مسلي مع ملف صوتي من أداء آن هاثاواي الشهير لمصوري ليل واين.
إنه أمر مبهج للغاية، ويستحق المشاهدة، حتى لو كنت تشك في مدى فائدة تقنية كهذه.
المصدر: بوابة الوفد
إقرأ أيضاً:
"مايكروسوفت" تطلق أول نموذج ذكاء اصطناعي لإنشاء الصور من مدخلات نصية
أعلنت شركة "مايكروسوفت" رسميًا، عن إطلاقها أول نموذج ذكاء اصطناعي لإنشاء صور من مدخلات نصية يحمل اسم "MAI-Image-1".
وأوضحت الشركة في بيان لها، أن النموذج الجديد يتفوق في إنتاج الصور الفوتوغرافية الواقعية مثل البرق والمناظر الطبيعية، ويمكنه معالجة الطلبات وإنتاج الصور بشكل أسرع من النماذج الأكبر والأبطأ.
وبيّنت أن النموذج جاء ضمن أفضل 10 نماذج على موقع "LMArena"، وهو منصة معيارية للذكاء الاصطناعي، حيث يُقارن البشر المُخرجات من أنظمة مختلفة ويُصوّتون على الأفضل.
وذكرت أن ذلك يأتي ضمن سعي "مايكروسوفت" لتطوير وطرح نماذج الذكاء الاصطناعي الخاصة بها لتقليل اعتمادها على شراكتها مع شركة "OpenAI" المطورة لـ"شات جي بي تي".
يشار إلى أن نموذج "MAI-Image-1" ينضم إلى منتجات الذكاء الاصطناعي الأخرى من "مايكروسوفت"، التي تشمل مولد الصوت "MAI-Voice-1 AI"، وروبوت الدردشة "MAI-1-preview"، في خطوة واعدة لتعزيز حضور الشركة في مجال الذكاء الاصطناعي.
مايكروسوفتالذكاء الاصطناعيقد يعجبك أيضاًNo stories found.