غوغل تطلق ميزات مبتكرة لتوليد الصوت والفيديو بالذكاء الاصطناعي
تاريخ النشر: 13th, April 2025 GMT
#سواليف
في مفاجأة لعملائها، أطلقت #شركة_غوغل، عدداً من التحديثات لأدواتها المبتكرة لتوليد #الفيديو و #الصور، #المدعومة بالذكاء الاصطناعي خلال فعاليتها “Cloud Next 2025”.
ووفق ما نشره موقع “أندرويد هيدلاينز”، المتخصص في التكنولوجيا، فقد تضمنت التحديثات ميزات جديدة لمنصات #الذكاء_الاصطناعي الداخلية من غوغل، بما في ذلك نماذج “Imagen 3″، و”Veo 2″، و”Chirp”، و”Lyria”.
ويُمكن الوصول إلى هذه النماذج عبر مجموعة أدوات الذكاء الاصطناعي من غوغل “Vertex AI Media Studio”، وهي مجموعة من الأدوات التوليدية التي تتيح للمُستخدمين إنشاء مقاطع فيديو مُحسّنة عبر النص البرمجي.
تفاصيل
بالحديث عن نموذج “Imagen 3″، القادر على تحويل النصوص إلى صور بشكل مُحسن، فقد أضافت غوغل تحديثات توفر وظيفة مُحسّنة لإعادة بناء الأجزاء المفقودة أو التالفة من الصورة، كما تُسهّل الميزات الجديدة إزالة العناصر غير المرغوب فيها من الصور.
مقالات ذات صلةأما بالنسبة لنموذج إنشاء الفيديو “Veo 2 AI”، فقد حسّنته غوغل بمجموعة من خيارات التحرير وتخصيص المؤثرات البصرية الجديدة.
تُتيح الأداة السابقة المُحسنة من غوغل الآتي: تحديد اتجاهات الكاميرا في المشاهد المُولّدة بالذكاء الاصطناعي، وضبط إيقاع الفيديو لإنشاء مقاطع فيديو متقطعة، ومقاطع فيديو بنمط الطائرات بدون طيار، ومقاطع فيديو أخرى، كما يُمكن التداخل بين إطارات بداية ونهاية مُحددة.
بجانب المزايا السابقة، فقد أصبح مولد الفيديو “Veo”، قادراً على إزالة صور الخلفية والشعارات والعناصر من الفيديوهات الحالية، كما يُمكنه أيضاً تمديد إطار لقطات الفيديو، مع القدرة على إنشاء فيديوهات سينمائية.
نموذج “ليريا”
أتاحت غوغل أيضاً نموذج “Lyria”، وهو نموذج ذكاء اصطناعي لتحويل النصوص إلى موسيقى، قادرة على إنشاء أصول موسيقية كاملة وجاهزة للإنتاج من خلال رسالة نصية.
كما تُبسط الأداة السابقة إنشاء مقطوعة موسيقية لتكون بمثابة موسيقى خلفية لفيديو مُولّد بالذكاء الاصطناعي.
الصوت الفوري
علاوةً على ذلك، أطلقت غوغل ميزة “الصوت المخصص الفوري” في نموذج الصوت الاصطناعي الخاص بها “Chirp 3”.
بإمكان الميزة السابقة، توليد “أصوات مخصصة واقعية من 10 ثوانٍ من الإدخال الصوتي”، مع “فصل وتحديد المتحدثين بدقة في التسجيلات متعددة الأشخاص” لتحسين النسخ.
وبحسب غوغل، فإ جميع نماذج الذكاء الاصطناعي المُولّدة لديه مُزوّدة بـ”ضمانات مُدمجة” للحماية من إنتاج المحتوى الضار.
المصدر: سواليف
كلمات دلالية: سواليف شركة غوغل الفيديو الصور المدعومة الذكاء الاصطناعي بالذکاء الاصطناعی
إقرأ أيضاً:
إطلاق CharGPT5 في خطوة نحو الذكاء الاصطناعي الفائق
أطلقت شركة "أوبن إيه آي" الرائدة في مجال الذكاء الاصطناعي التوليدي منذ إطلاق "تشات جي بي تي" أواخر عام 2022، نموذجا جديدا الخميس في ظل احتدام المنافسة لتطوير أدوات ذكاء اصطناعي أكثر فعالية.
وأكد الرئيس التنفيذي للشركة سام ألتمان خلال مؤتمر صحافي أن استخدام "جي بي تي 5 أشبه بالتحدث إلى خبير حاصل على درجة الدكتوراه في أي موضوع".
وشبّه ألتمان نسخة "جي بي تي 3" GPT-3 التي كانت تعمل في الإصدار الأول من "تشات جي بي تي"، بطالب ثانوي "يُجيب أحيانا إجابة صحيحة، وأحيانا أخرى بإجابة غير منطقية"، فيما "جي بي تي 4" يشبه طالبا جامعيا.
تتنافس شركات التكنولوجيا العملاقة على تطوير نماذج جديدة أكثر تطورا قادرة على "التفكير" وأداء المهام بشكل مستقل، وتركز أنظارها على ما يُسمى بالذكاء الاصطناعي "العام" أو "الفائق الذكاء"، الذي يتمتع بقدرات معرفية تفوق قدرات البشر.
تسارعت وتيرة التطوير مع سعي مختلف المجموعات لجعل أدوات المساعدة بالذكاء الاصطناعي - أبرزها تشات جي بي تي وجيميناي (غوغل) وميتا إيه آي وكلود (أنثروبيك)- لا غنى عنها في الحياة اليومية لأكبر عدد ممكن من المستخدمين والمطورين.
تحاول غوغل وميتا (فيسبوك وإنستغرام) الإفادة في هذا السباق من قاعدتيهما الضخمتين من المستخدمين، فيما رسّخت أنثروبيك مكانتها، لا سيما بين المحترفين. أما "غروك" من شركة "إكس إيه آي" التابعة لإيلون ماسك، فقد تم دمجها مباشرةً في منصة إكس الاجتماعية.
أحدثت شركة "ديب سيك" الصينية الناشئة ضجة في وقت سابق من هذا العام بإطلاقها "ار 1"، وهو نموذج مفتوح المصدر ومتقدم رغم القيود المرتبطة بالتكنولوجيا والميزانية.
لكن "تشات جي بي تي" لا يزال الاسم الأكثر شهرة بين عامة الناس، إذ يضم ما يقرب من 700 مليون مستخدم نشط أسبوعيا.
"قوة خارقة"
قدّمت "أوبن إيه آي" نموذج "جي بي تي 5" على أنه "الأذكى" و"الأسرع" و"الأكثر فائدة" حتى الآن.
وقال سام ألتمام "يُمكن لـ+جي بي تي 5+ أن يُقدم لك إنجازاتٍ مذهلة. يُمكنه إنشاء برامج فورية عند الطلب (...) يتمتع بقوة خارقة مذهلة".طلب أحد مهندسي "جي بي تي 5"، يان دوبوا، من مُساعد الذكاء الاصطناعي المُستخدم في اللغة اليومية إنشاء تطبيق إلكتروني لتعلم اللغة الفرنسية باستخدام الألعاب.
أنتج "جي بي تي 5" على الفور مئات الأسطر البرمجية، وبدأ الموقع الإلكتروني الأساسي بالعمل في دقائق.
ووفقا للشركة، فإن "جي بي تي 5" أقل عُرضة لتقديم إجابات غير منطقية مقارنة بالنماذج السابقة، فهو "يُقر" عندما لا يعرف بدلا من اختلاق إجابة تبدو مُقنعة في الظاهر لكنها غير دقيقة.
كما جرى تعزيز ميزات الأمان في الإصدار الجديد. وأوضح أحد مسؤولي أمن المنتجات في الشركة أليكس بيوتيل أنه "في السابق، كان النهج ثنائيا. إذا بدا الاستعلام آمنا، فسيعمل النموذج، وإذا لم يكن كذلك، فلن يعمل".
مع "جي بي تي 5"، في حالة الشك في وجود دوافع إجرامية محتملة، "سيكتفي النموذج بتقديم معلومات عامة لا يمكن أن تُسبب ضررا".سيصبح المساعد الرقمي قابلا للتخصيص أيضا، إذ سيتمكن المستخدم من اختيار نبرة موجزة أو ودية أو ساخرة، كما سيتاح له الاتصال بخدمة الرسائل الإلكترونية في غوغل "جي مايل".
استثمارات هائلة
أعلنت مايكروسوفت، المستثمر الرئيسي في "أوبن إيه آي"، أن "جي بي تي 5" بات متاحا على منصاتها المختلفة للمهندسين.علق إيلون ماسك على إكس قائلا "أوبن إيه آي ستسحق مايكروسوفت".
تأسست "أوبن إيه آي" كمنظمة غير ربحية عام 2015، وكان إيلون ماسك أحد مؤسسيها، بهدف إنشاء ذكاء اصطناعي عام يُفيد البشرية جمعاء.
صرح سام ألتمان "من الواضح أن جي بي تي 5 نموذج ذكي، لكنه يفتقر إلى عنصر مهم لتحقيق الذكاء الاصطناعي العام (...) فهو ليس نموذجا يتعلم باستمرار من الأشياء التي يكتشفها".
وأضاف "من الواضح أن الأمر سيتطلب استثمارات ضخمة في قوة الحوسبة للوصول إلى هذا الهدف، لكننا نعتزم الاستمرار".قُدرت قيمة هذه الشركة الناشئة الرائدة في سيليكون فالي بـ300 مليار دولار في آذار/مارس.