كيف نقيس ذكاء الآلات؟ أداء المهام الطويلة والمعقدة يكشف الإجابة!
تاريخ النشر: 28th, April 2025 GMT
ابتكر علماء طريقة جديدة لقياس مدى كفاءة أنظمة الذكاء الاصطناعي (AI)، وذلك عبر تقييم سرعة أدائها مقارنة بالبشر في تنفيذ المهام الصعبة.
وعلى الرغم من أن أنظمة الذكاء الاصطناعي تتفوق عادة على البشر في مهام التنبؤ بالنصوص والمعرفة العامة، إلا أنها تظهر فاعلية أقل عند تكليفها بمشاريع أكثر تعقيدًا، مثل تقديم المساعدة التنفيذية عن بُعد.
ولغرض قياس هذه الفجوة في الأداء بدقة، اقترحت دراسة جديدة تقييم أنظمة الذكاء الاصطناعي بناءً على مدة إنجازها للمهام مقارنة بالوقت الذي يحتاجه الإنسان للقيام بالمهمة نفسها. وقد نشر الباحثون نتائجهم عبر قاعدة بيانات الأبحاث الأولية arXiv، ومازالت في طور الدراسة. بحسب موقع livescience .
اقرأ أيضاً..644 مليار دولار الإنفاق العالمي على الذكاء التوليدي خلال 2025
قياس مدة المهام
قال الباحثون "إنهم وجدوا أن قياس مدة المهام التي يمكن للنماذج إكمالها يعد وسيلة مفيدة لفهم قدرات الذكاء الاصطناعي الحالية. إذ يبدو أن وكلاء الذكاء الاصطناعي غالبًا ما يواجهون صعوبة في ربط سلسلة من الإجراءات الطويلة معًا أكثر من افتقارهم إلى المهارات أو المعرفة اللازمة لحل خطوات فردية."
وقد أظهرت نتائج الدراسة أن نماذج الذكاء الاصطناعي أتمت المهام التي تستغرق أقل من أربع دقائق بالنسبة للبشر بنسبة نجاح تقارب 100%. ولكن نسبة النجاح انخفضت بشكل حاد إلى 10% فقط للمهام التي تستغرق أكثر من أربع ساعات.
لاحظ الباحثون أن النماذج الأقدم من الذكاء الاصطناعي كان أداؤها أضعف في إنجاز المهام الطويلة مقارنة بالأنظمة الأحدث، وهو أمر كان متوقعًا. وأشارت الدراسة إلى أن طول المهام التي تستطيع نماذج الذكاء الاصطناعي العامة إكمالها بنسبة موثوقية تبلغ 50% قد تضاعف تقريبًا كل سبعة أشهر خلال السنوات الست الماضية.
حدود جديدة لقياس قدرات الذكاء الاصطناعي؟
قد يمثل هذا المعيار الجديد المحتمل خطوة مهمة لفهم مستوى الذكاء والقدرات الحقيقية لأنظمة الذكاء الاصطناعي بشكل أفضل.
قال الباحث سهراب كازيرونيان:"من غير المرجح أن يغير هذا المقياس نفسه مسار تطوير الذكاء الاصطناعي، لكنه سيساعد في تتبع مدى سرعة التقدم المحرز في أنواع معينة من المهام التي من المتوقع أن تُستخدم فيها أنظمة الذكاء الاصطناعي".
وأضاف: "قياس أداء الذكاء الاصطناعي بناءً على المدة الزمنية التي يستغرقها البشر لإنجاز مهمة معينة يُعد مقياسًا بديلاً مثيرًا للاهتمام لقياس الذكاء والقدرات العامة. أولاً: لأنه لا يوجد مقياس واحد يعبر بدقة عما نعنيه بكلمة (ذكاء). ثانيًا: لأن احتمالية تنفيذ مهمة طويلة الأمد من دون انحراف أو خطأ تصبح منخفضة للغاية. وثالثًا: لأنه يمثل مقياسًا مباشرًا لنوع المهام التي نطمح لاستخدام الذكاء الاصطناعي فيها، وهي حل المشكلات المعقدة التي يواجهها البشر. ورغم أن هذا المقياس قد لا يغطي جميع الجوانب الدقيقة لقدرات الذكاء الاصطناعي، إلا أنه بلا شك يمثل مؤشرًا مهمًا ومفيدًا".
من جانبها، أيدت إلينور واتسون، عضوة في معهد مهندسي الكهرباء والإلكترونيات (IEEE) ومهندسة أخلاقيات الذكاء الاصطناعي في جامعة Singularity، أهمية هذه الأبحاث. وقالت:"إن قياس أداء الذكاء الاصطناعي بناءً على مدة إنجاز المهام يُعد أداة (قيمة وبديهية)، إذ يعكس تعقيدات العالم الواقعي بشكل مباشر، ويقيس مدى قدرة أنظمة الذكاء الاصطناعي على الحفاظ على سلوك منظم وموجه نحو الهدف على مدى فترات زمنية طويلة"، مقارنة بالاختبارات التقليدية التي تقيم أداء الذكاء الاصطناعي في مشكلات قصيرة ومعزولة.
تسارع تطور الذكاء الاصطناعي يبشر بعصر الوكلاء العامين
بعيدًا عن تقديم مقياس معياري جديد، يكمن الأثر الأكبر للدراسة في تسليط الضوء على السرعة المتزايدة لتطور أنظمة الذكاء الاصطناعي، خاصة في قدرتها المتنامية على التعامل مع المهام الطويلة والمعقدة.
وفي هذا السياق، تتوقع إلينور واتسون أن ظهور وكلاء ذكاء اصطناعي عامين قادرين على أداء مجموعة متنوعة من المهام أصبح وشيكًا.
وأضافت واتسون:"بحلول عام 2026، سنشهد تحول الذكاء الاصطناعي ليصبح أكثر عمومية، حيث سيتمكن من التعامل مع مهام متنوعة تمتد على مدار يوم كامل أو أسبوع، بدلاً من الاكتفاء بمهام قصيرة ومحددة النطاق".
وأشارت إلى أن هذا التطور قد يحمل تأثيرات كبيرة على قطاع الأعمال، إذ يمكن لأنظمة الذكاء الاصطناعي حينها تولي جزء كبير من أعباء العمل الاحترافية، مما قد يؤدي إلى خفض التكاليف، وزيادة الكفاءة، وفي الوقت نفسه إتاحة الفرصة للبشر للتركيز على المهام الإبداعية والاستراتيجية والتفاعلية مع الآخرين.
الذكاء الاصطناعي ينتقل من دور المساعد إلى مدير شخصي موثوق
قالت إلينور واتسون إن الذكاء الاصطناعي، بالنسبة للمستهلكين، سيتطور من مجرد مساعد بسيط إلى مدير شخصي موثوق، قادر على التعامل مع مهام حياتية معقدة، مثل تخطيط السفر، ومراقبة الصحة، وإدارة المحافظ المالية،على مدار أيام أو أسابيع، مع الحاجة إلى إشراف بشري محدود للغاية.وترى أن قدرة أنظمة الذكاء الاصطناعي على تنفيذ مجموعة واسعة من المهام الطويلة قد تُحدث تأثيرًا كبيرًا في طريقة تفاعل المجتمع مع الذكاء الاصطناعي واستخدامه خلال السنوات القليلة المقبلة.
وأضافت: "أن أدوات الذكاء الاصطناعي المتخصصة ستستمر في أداء وظائف معينة بكفاءة ضمن مجالاتها المحددة، إلا أن الوكلاء العامين الأقوياء القادرين على التنقل بمرونة بين مختلف أنواع المهام سيبرزون بقوة.
هذه الأنظمة ستدمج المهارات المتخصصة ضمن سير عمل أوسع موجه نحو الأهداف، مما سيُعيد تشكيل أنماط الحياة اليومية والممارسات المهنية بطرق جوهرية".
لمياء الصديق (أبوظبي)
المصدر: صحيفة الاتحاد
كلمات دلالية: التكنولوجيا المتقدمة العصر الرقمي الذكاء الاصطناعي التقنيات الرقمية أنظمة الذکاء الاصطناعی المهام التی
إقرأ أيضاً:
مقارنة بين GPT-5 وGPT-4.. تطور الذكاء الاصطناعي من الدقة إلى العمق
أعلنت شركة OpenAI، رسميا عن إطلاق نموذجها الأحدث GPT-5 يوم الخميس، وبدأت تدريجيا في توفيره لجميع مستخدمي ChatGPT.
وبالتزامن مع هذا الإطلاق، قررت الشركة إيقاف دعم عدد من النماذج السابقة مثل GPT-4o وGPT-4.1 وo3 وo3 Pro وo4-mini وغيرها، لتفسح المجال للنموذج الجديد ليكون هو الأساس في تقديم خدمات الذكاء الاصطناعي للمستخدمين.
ويعد GPT-5 التحديث الأضخم حتى الآن في سلسلة نماذج اللغة الكبيرة من OpenAI، حيث يقدم قفزة كبيرة في الأداء عبر مختلف المجالات، ويأتي مع تغييرات واضحة مقارنة بالإصدار السابق GPT-4o، إليكم أبرز ما جاء في التحديث:
ما الجديد في GPT-5 مقارنة بـ GPT-4o؟1. تفوق تقني واضح:
تصف OpenAI نموذج GPT-5 بأنه الأذكى على الإطلاق حتى الآن، مع أداء فائق في مجالات مثل البرمجة، الرياضيات، الكتابة، الرؤية الحاسوبية، والاستشارات الصحية،
الرئيس التنفيذي سام ألتمان وصفه بأنه بمستوى “خبير حاصل على درجة دكتوراه” في مجالات متعددة.
تؤكد الشركة أن GPT-5 يقدم ردودا أسرع وأكثر دقة، مع انخفاض بنسبة 45٪ في الأخطاء مقارنة بـ GPT-4o، و80٪ مقارنة بنموذج o3 المزود بخاصية البحث عبر الإنترنت.
ومع ذلك، لاحظ بعض المستخدمين على مواقع التواصل تباطؤا في الردود أو إجابات أقل دقة، مقارنة بالإصدار السابق.
3. تحسينات قوية في البرمجة:
GPT-5 هو الأقوى حتى الآن في مجال البرمجة، يمكنه إنشاء مواقع وتطبيقات وألعاب من خلال أوامر بسيطة بلغة طبيعية، مع تحسينات في تصميم الواجهات وحل أخطاء المشاريع البرمجية المعقدة.
بحسب OpenAI، يعد GPT-5 أفضل شريك للكتابة بفضل قدرته على تحويل الأفكار الأولية إلى نصوص ذات طابع أدبي وإيقاع لغوي قوي.
لكن تباينت آراء المستخدمين؛ فبينما أشيد بجودة السرد، انتقد البعض النموذج الجديد لضعف الإبداع ومحدودية التعبير العاطفي مقارنة بـ GPT-4o.
ركزت OpenAI على تطوير قدرات GPT-5 في تقديم إجابات طبية دقيقة وذات صلة، مع قدرة النموذج على طرح أسئلة توضيحية وتنبيه المستخدم لمشكلات صحية محتملة.
وتقول الشركة إن GPT-5 أصبح يقدم معلومات تتكيف مع مستوى المستخدم وموقعه الجغرافي، مع الالتزام بعدم تقديم استشارات طبية مباشرة.
أزالت OpenAI ميزة اختيار النموذج يدويا داخل ChatGPT. وبدلا من ذلك، يعتمد GPT-5 على نظام توجيه ذكي يختار تلقائيا النموذج الأنسب للإجابة حسب تعقيد السؤال ونوع الأداة المطلوبة.
- المستخدمون المجانيون: 10 رسائل كل 5 ساعات
- مشتركو Plus: 80 رسالة كل 3 ساعات
- مشتركو Pro: استخدام غير محدود للنموذج الأساسي
ونتيجة للانتقادات على إزالة النماذج السابقة، قررت OpenAI مضاعفة الحد مؤقتا لمشتركي Plus إلى 160 رسالة كل 3 ساعات.
في حال تجاوز الحد، يتم تحويل الطلبات إلى نسخة Mini من GPT-5.
8. انخفاض في الطابع الشخصي للنموذج:
رغم تحسن الدقة وتقليل المجاملات الزائدة sycophancy، أعرب عدد من المستخدمين عن استيائهم من افتقار GPT-5 للطابع الإنساني والشخصية الدافئة التي اشتهرت بها النماذج السابقة مثل GPT-4o.
ووصف البعض النموذج الجديد بأنه أكثر جفافا ورسميا، ما يقلل من تفاعله كرفيق أو مستشار شخصي.
وفي هذا السياق، صرح سام ألتمان بأن الشركة تعمل على جعل GPT-5 أكثر دفئا وإنسانية في التحديثات القادمة.