اختبار جديد يكشف حدود التفكير المنطقي للذكاء الاصطناعي.. وهذه هي المفاجآت!
تاريخ النشر: 7th, February 2025 GMT
قام فريق من الباحثين من كليات ويلسلي وأوبرلين وجامعة تكساس في أوستن وجامعة نورث إيسترن وشركة Cursor الناشئة بتطوير معيار جديد لاختبار قدرات الاستدلال لدى نماذج الذكاء الاصطناعي، وذلك باستخدام الألغاز التي تُطرح في برنامج Sunday Puzzle الإذاعي على شبكة NPR، وفق موقع "تيك كرنش".
ألغاز برنامج Sunday Puzzle
يعتمد هذا البرنامج، الذي يقدّمه منذ سنوات طويلة ويل شورتز، خبير الكلمات المتقاطعة في نيويورك تايمز، على ألغاز مصممة بحيث لا تتطلب معرفة متخصصة، لكنها رغم ذلك تشكل تحديًا حتى للمشاركين المهرة.
اقرأ أيضاً.. رغم تفوقها في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ
نتائج غير متوقعة
في هذه الدراسة، اختبر الباحثون مجموعة من نماذج الذكاء الاصطناعي، بما في ذلك نموذج o1 من أوبين إيه آي ونموذج R1 من DeepSeek، وذلك على مجموعة تضم 600 لغز من البرنامج.
وكشفت النتائج أن هذه النماذج لا تزال تواجه تحديات كبيرة في التفكير المنطقي، حيث أظهرت بعض السلوكيات غير المتوقعة.
أخبار ذات صلة
اقرأ ايضاً.. هل يتفوق "O3" على البشر؟ قفزة جديدة تُعيد تعريف الذكاء الاصطناعي
تفوق نسبي لـ o1.. وأداء ضعيف لـ R1
على سبيل المثال، قدمت بعض النماذج إجابات خاطئة رغم إدراكها أنها غير صحيحة، بل إن نموذج R1 كتب بشكل صريح "أنا أستسلم" "I give up" متبوعًا بإجابة عشوائية.
كما لوحظ أن بعض النماذج تقدم إجابة، ثم تتراجع عنها وتحاول اقتراح إجابة جديدة، لكنها تخطئ مرة أخرى. في بعض الأحيان، تصل النماذج إلى الإجابة الصحيحة مباشرة، لكنها تستمر في تحليل إجابات أخرى دون سبب واضح، بينما أظهر نموذج R1 في بعض الحالات سلوكًا غريبًا بوصف حالته بـ"الإحباط"، مما يعكس محاكاة مثيرة للسلوك البشري عند مواجهة مشاكل صعبة.
أما من حيث الأداء، فقد حقق النموذج o1 أفضل نتيجة، مسجلاً 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35%. يخطط الباحثون لتوسيع الاختبارات لتشمل نماذج أخرى، بهدف تحسين قدرة الذكاء الاصطناعي على حل المشكلات المعقدة بطرق أكثر ذكاءً واستنادًا إلى التفكير المنطقي بدلاً من الاسترجاع الآلي.
كيف نحسن قدرات الذكاء الاصطناعي
تُظهر هذه الدراسة الحاجة إلى تطوير معايير اختبار جديدة للذكاء الاصطناعي تكون أكثر ارتباطًا بالقدرات المطلوبة في الاستخدامات اليومية. وكما أوضح أرجون غها، أحد الباحثين المشاركين: "لا تحتاج إلى شهادة دكتوراه لتكون جيدًا في الاستدلال، لذلك ينبغي أن تكون هناك معايير تقيس هذه المهارة دون الحاجة إلى معرفة أكاديمية متخصصة".
من خلال هذه المعايير، يمكن توفير أدوات أكثر شمولًا تتيح للباحثين والمستخدمين العاديين على حد سواء فهم نقاط القوة والضعف في هذه النماذج، مما يساعد في تحسينها وجعلها أكثر قدرة على التفاعل مع المشكلات الحقيقية بطرق فعالة ومنطقية.
إسلام العبادي(أبوظبي)
المصدر: صحيفة الاتحاد
كلمات دلالية: الذكاء الاصطناعي الروبوتات الذکاء الاصطناعی
إقرأ أيضاً:
كيف استخدمت السعودية الذكاء الاصطناعي في إدارة موسم الحج؟
قُدّمت تقنيات الذكاء الاصطناعي هذا العام كعنصر رئيسي في إدارة موسم الحج في السعودية، لا سيما في مراقبة حركة الحجاج.
وقالت وكالة "فرانس برس"، إن المسؤولين السعوديين وظفوا تقنيات الذكاء الاصطناع لمراقبة حركة الحجاج على مدار الساعة، باستخدام بيانات ضخمة وصور حية من آلاف الكاميرات المنتشرة في مكة والمشاعر المقدسة.
وتقوم أكثر من 15 ألف كاميرا بمراقبة حية للحشود، فيما تعمل برمجيات ذكية على تحليل المشاهد المرصودة، للتنبؤ بنقاط الازدحام ورصد أي خلل في حركة السير. وتشمل هذه المنظومة أيضًا تتبّع أكثر من 20 ألف حافلة تنقل الحجاج بين المواقع المقدسة.
ويُعد هذا النظام جزءًا من منظومة تقنية شاملة تعتمدها السعودية لإدارة واحد من أكبر التجمعات البشرية في العالم، حيث استقبلت مكة نحو 1.4 مليون حاج هذا الأسبوع من مختلف الدول.
وأوضح محمد نذير، المدير التنفيذي للمركز العام للنقل في الهيئة الملكية لمدينة مكة، أن "غرفة التحكم المروري" تستخدم كاميرات متخصصة مدعومة بطبقات من الذكاء الاصطناعي لتحليل الحركة، تحديد المناطق المزدحمة، والتنبؤ بأنماط المرور. وتعمل الغرفة على مدار الساعة، وتستعين بشاشات وخرائط وأنظمة رصد متقدمة.
وأضاف نذير أن الهدف من هذه الإجراءات هو تقليل الحوادث، خاصة وأن الحجاج يتنقلون في الغالب سيرًا على الأقدام، بالإضافة إلى تخفيف المشقة الناتجة عن التنقل لمسافات طويلة في ظل درجات حرارة مرتفعة. وذكر أن نحو 17 ألف حافلة تتحرك في وقت واحد خلال ذروة الحج.
من جانبه، قال محمد القرني، مدير عام الحج والعمرة في المركز ذاته، إن غرفة العمليات تُعد "العين الرقيبة" على كافة الخطط التشغيلية، مشيرًا إلى أن الذكاء الاصطناعي يمكّن من تتبّع الأعداد ومراقبة الطرق والمسارات، إلى جانب استشعار الحالات الطارئة قبل وقوعها.
وأضاف أن النظام يسمح برصد الطاقة الاستيعابية للمواقع المقدسة، مما يُمكّن الجهات المعنية من توجيه الحشود عند الضرورة. وأشار إلى أنه خلال شهر رمضان الماضي، ساعدت هذه التقنية في وقف دخول المصلين عند بلوغ المسجد الحرام طاقته القصوى.
ولا يقتصر استخدام التكنولوجيا المتقدمة على الجوانب التنظيمية فقط، بل يشمل أيضًا الرقابة الأمنية.
فبعد وفاة 1301 حاج في العام الماضي – معظمهم دون تصاريح رسمية – شددت السلطات هذا العام على تطبيق القوانين، خاصة مع التوقعات بارتفاع درجات الحرارة إلى ما فوق 40 درجة مئوية.
وأوضحت السلطات أن 83% من الوفيات المسجّلة العام الماضي كانت لأشخاص لا يحملون تصاريح حج. وأكّد وزير الحج، توفيق الربيعة، في تصريحات سابقة أن الأجهزة المختصة تستخدم مستشعرات لرصد حركة الحجاج، مما يتيح التدخل السريع عند وجود مخاطر.
كما أُعلن عن استخدام طائرات مسيّرة لرصد مداخل مكة، والكشف عن الحجاج غير النظاميين. وقال الفريق محمد بن عبدالله البسامي، مدير الأمن العام ورئيس اللجنة الأمنية للحج، إن "التقنية أصبحت أداة يومية"، مشيرًا إلى أن الذكاء الاصطناعي، والطائرات المسيّرة، والكاميرات الحرارية أسهمت في ضبط المخالفين عبر مركز عمليات متقدّم.
وفي مقاطع نشرتها القوات الخاصة لأمن الطرق، تم توثيق استخدام هذه التقنيات الحديثة، بما في ذلك الكاميرات الذكية والحرارية، لمراقبة المحيط الخارجي لمكة والمشاعر.
???? باستخدام طائرة "الدرون" .. قوات أمن الحج تضبط (38) وافدًا من حاملي تأشيرات الزيارة لمخالفتهم أنظمة وتعليمات الحج.#لا_حج_بلا_تصريح pic.twitter.com/o8WVJnpo7m — أمن الطرق (@SA_HWY_SECURITY) June 4, 2025
وتُوزع تصاريح الحج وفق نظام حصص للدول، وتُمنح للأفراد غالبًا عبر قرعة. إلا أن ارتفاع تكاليف الحج النظامي يدفع البعض إلى اللجوء إلى طرق غير نظامية منخفضة التكلفة، رغم ما تنطوي عليه من مخاطر.