نماذج OpenAI الجديدة أكثر ذكاء... لكنها تتخيل أكثر من اللازم
تاريخ النشر: 19th, April 2025 GMT
رغم أن نماذج الذكاء الاصطناعي الجديدة من OpenAI، والمعروفة باسم o3 وo4-mini، تعد من أحدث ما توصلت إليه الشركة في مجال القدرات المنطقية والتحليلية، إلا أن المفاجأة كانت في ارتفاع معدل "الهلاوس" أو المعلومات المختلقة التي تصدر عنها مقارنة بنماذج الشركة السابقة.
تعد الهلاوس هي واحدة من أبرز التحديات التي تواجه الذكاء الاصطناعي اليوم، وتعني تقديم معلومات خاطئة أو غير واقعية بثقة تامة، ورغم أن التوقعات كانت تشير إلى تحسن هذه النقطة مع كل جيل جديد، إلا أن o3 وo4-mini كسرا هذه القاعدة.
وفقا لتقارير OpenAI الداخلية، أظهرت النماذج الجديدة أداء مميزا في بعض المهام مثل حل المشكلات الرياضية وكتابة الشيفرات البرمجية، ولكن بسبب ميلها لتقديم عدد أكبر من "الادعاءات" أو المعلومات، فإن ذلك يؤدي أيضا إلى زيادة احتمالية وقوعها في الخطأ والهلاوس.
على سبيل المثال، أظهر نموذج o3 معدل هلاوس وصل إلى 33% عند اختباره على معيار داخلي لدى OpenAI يعرف بـPersonQA، والذي يقيس مدى دقة معرفة النموذج بالمعلومات عن الأشخاص، وهذا المعدل يعادل ضعف ما سجلته النماذج السابقة مثل o1 وo3-mini، أما o4-mini فقد كان الأسوأ، حيث بلغ معدل الهلاوس لديه 48%.
الباحثون قلقونمشكلة الهلاوس لم تمر دون ملاحظة من المختبرات الخارجية، حيث لاحظت مؤسسة Transluce غير الربحية، والمتخصصة في أبحاث الذكاء الاصطناعي، أن نموذج o3 يخترع خطوات وهمية يدعي القيام بها، مثل "تشغيل كود على جهاز ماك بوك برو"، رغم أن النموذج لا يملك هذه الإمكانية التقنية.
وقالت سارة شفيتمان، الشريكة المؤسسة لـ Transluce، إن هذا السلوك قد يجعل النموذج أقل موثوقية في بعض السيناريوهات، خاصة في المجالات التي تتطلب دقة عالية مثل القانون أو الطب.
أما الأستاذ الجامعي في جامعة ستانفورد والمدير التنفيذي لمنصة Workera، كيان كتانفوروش، فأوضح أن فريقه يختبر نموذج o3 في عمليات كتابة الكود، وأكد أنه متفوق على المنافسين من حيث الكفاءة، لكنه يعاني من اختلاق روابط مواقع إلكترونية غير موجودة.
من الحلول المطروحة لتقليل الهلاوس، تمكين النماذج من الوصول إلى الإنترنت عند الحاجة، إذ يظهر نموذج GPT-4o، عند تمكين ميزة البحث عبر الإنترنت، دقة تصل إلى 90% في اختبارات مثل SimpleQA.
لكن إذا استمر الاتجاه نحو النماذج المنطقية ذات القدرات التحليلية المرتفعة، فقد يعني ذلك ارتفاعا إضافيا في معدلات الهلاوس، ما يجعل حل هذه المعضلة أكثر إلحاحا من أي وقت مضى.
وأكد متحدث باسم OpenAI، نيكو فيليكس، أن "مشكلة الهلاوس لا تزال من أولويات فرق البحث لدينا، ونعمل باستمرار على تحسين دقة وموثوقية النماذج".
المصدر: صدى البلد
كلمات دلالية: الذكاء الاصطناعي الهلاوس النماذج الجديدة المزيد الذکاء الاصطناعی
إقرأ أيضاً:
بعد إطلاق شات جي بي تي 5.. ردود فعل متفاوتة للمستخدمين
جاءت ردود فعل المستخدمين بعد تجربة الجيل الجديد من "شات جي بي تي 5" متفاوتة للغاية رغم الاحتفاء الواسع من الشركة بقوتها، وذلك وفق تقرير نشرته بلومبيرغ.
ويذكر أن "أوبن إيه آي" أطلقت نموذج "شات جي بي تي 5" خلال الأيام الماضية بعد تشويق دام أشهرا من قبل سام ألتمان المدير التنفيذي للشركة والوجه الإعلامي الخاص بها.
وأكدت الشركة في بيان الإعلان عن الجيل الجديد أن "شات جي بي تي 5" أقوى من النماذج السابقة جميعها ويقترب في مستوى ذكائه من حملة الدكتوراه، فضلا عن تفوقه في البرمجة والتفكير المنطقي وحل المشكلات المعقدة مع انخفاض معدل الهلوسة.
ولاحظ المستخدمون، وفق تقرير بلومبيرغ، مجموعة من الأخطاء والهفوات في النموذج الجديد تحاكي النماذج السابقة، إذ وجد البعض أن النموذج يخطئ في عد الحروف في بعض الكلمات التي تتضمن حروفا متكررة.
ولكن بعد أن طلب المستخدمون من النموذج التفكير بعمق أكثر، تمكن من الوصول إلى الإجابة الصحيحة، ويشير ذلك إلى النسخة المعتادة من "شات جي بي تي 5" قد تخطئ مثل السابق بينما "شات جي بي تي 5 برو" لن يقع في الأخطاء ذاتها.
GPT-5 rollout updates:
*We are going to double GPT-5 rate limits for ChatGPT Plus users as we finish rollout.
*We will let Plus users choose to continue to use 4o. We will watch usage as we think about how long to offer legacy models for.
*GPT-5 will seem smarter starting…
— Sam Altman (@sama) August 8, 2025
وتفاعل سام ألتمان مع بعض هذه الشكاوى مؤكدا أن آلية التبديل بين النماذج كانت معطلة في الأيام الأولى لطرح النموذج، ولكن تم إصلاحها بعد ذلك وهذا ما يجعل إجابات النموذج الآن أكثر دقة.
وعندما استضاف ألتمان جلسة أسئلة مفتوحة عبر منصة "ريديت"، واجه سيلا من التعليقات الغاضبة من المستخدمين لسلبهم القدرة على اختيار النموذج الذي يمكن الاعتماد عليه في الإجابة عن الأسئلة والاستفسارات، فدفع ذلك ألتمان إلى التأكيد أن الشركة تعمل على حلول مبتكرة لمعالجة هذه الشكاوى.
إعلانوتتفاوت أيضا ردة فعل الخبراء على النموذج الجديد، إذ يرى إيثان موليك الأستاذ في كلية وارتون بجامعة بنسلفانيا أن "شات جي بي تي 5" هو أحد أفضل نماذج الذكاء الاصطناعي وهو يؤدي المطلوب منه ببراعة منقطعة النظير، وفق ما جاء في التقرير.
وعلى الصعيد الآخر، قال نوح جيانسيراكوزا، أستاذ الرياضيات المساعد بجامعة بنتلي، إنه شعر أن إطلاق "شات جي بي تي 5" كان "مخيبا للآمال"، مضيفا أنه على الرغم من وجود "بعض التحسينات"، فإنها "كانت أقل بكثير مما كنت آمل"، كما جاء في التقرير.