VASA-1… نموذج ذكاء اصطناعي يحول الصورة إلى فيديو بشكل واقعي

طرحت شركة مايكروسوفت نموذجًا جديدًا للذكاء الاصطناعي (AI) يمكنه إنشاء مقاطع فيديو واقعية للغاية لوجوه بشرية تتحدث. يمكن لنموذج تحويل الصورة إلى الفيديو المدعوم بالذكاء الاصطناعي، والمسمى VASA-1، إنشاء مقاطع فيديو من صورة واحدة فقط ومقطع صوتي. من الحديث.

وتقول الشركة إن مقاطع الفيديو التي تم إنشاؤها ستحتوي على حركات متزامنة مع الشفاه لتتناسب مع الصوت، بالإضافة إلى تعبيرات الوجه وحركات الرأس لجعلها تبدو طبيعية من طراز VASA-1 وتدعي أنه سيتم استخدامه لإنشاء شخصيات افتراضية.

وفي منشور على صفحة الأبحاث الخاصة بها، قامت مايكروسوفت بتفصيل كيفية عمل نموذج الذكاء الاصطناعي المتطور الخاص بها وسلطت الضوء على قدراته.

تدعي الشركة أن نموذج VASA-1 يمكنه تصوير مقاطع فيديو بدقة 512 × 512 بكسل بمعدل يصل إلى 40 إطارًا في الثانية، ويقال أيضًا أن نموذج الذكاء الاصطناعي يدعم إنشاء الفيديو عبر الإنترنت مع زمن انتقال ضئيل لبدء التشغيل.

في حين أن أكبر إنجاز لـ VASA-1 هو تقديم ما يصل إلى دقيقة واحدة من الفيديو (وفقًا للعروض التوضيحية) بجودة عالية مع صورة ثابتة واحدة، فقد سلطت الشركة الضوء أيضًا على قدرتها على إنشاء حركات الشفاه التي تتطابق مع الملف الصوتي وتعبيرات الوجه لتتناسب. . تناسب. . معها.

كما يوفر نموذج إنشاء الفيديو بتقنية الذكاء الاصطناعي تحكمًا دقيقًا للمستخدم للتحكم في جوانب مختلفة من الفيديو، مثل اتجاه نظرة العين ومسافة الرأس وإزاحة المشاعر والمزيد.

يمكن أن تساعد عناصر التحكم في الإسناد هذه للمظهر غير المتشابك، ووضعية الرأس ثلاثية الأبعاد، وديناميكيات الوجه في ضبط الإخراج وفقًا لإشارات المستخدم.

بالإضافة إلى ذلك، تمكن نموذج الذكاء الاصطناعي أيضًا من إنشاء مقاطع فيديو باستخدام الصور الفنية والصوت الغنائي والكلام غير الإنجليزي، ويشير باحثو مايكروسوفت إلى أن القدرة على هذه الميزات لم تكن موجودة في البيانات، مشيرين إلى أنها قادرة على تطوير نفسها. ليتعلم.

اترك تعليقاً