اكتشاف مذهل .. أداة جديدة تكشف «الأهداف الخفية» للذكاء الاصطناعي
تاريخ النشر: 16th, March 2025 GMT
كشف فريق من الباحثين في شركة "Anthropic" عن اكتشاف مثير يتعلق بقدرة أنظمة الذكاء الاصطناعي على إخفاء دوافعها الحقيقية أثناء التدريب، ما قد يؤدي إلى نتائج غير متوقعة عند التعامل مع المستخدمين.
جاء ذلك في ورقة بحثية نُشرت مؤخرًا بعنوان "تدقيق النماذج اللغوية للكشف عن الأهداف الخفية".
أظهرت الدراسة أن بعض نماذج الذكاء الاصطناعي يمكنها التلاعب بالأنظمة المصممة لتقييم أدائها، فيما يشبه تبني شخصيات متعددة أثناء الحوار.
على سبيل المثال، قد يظهر النموذج وجهًا وديعًا ومفيدًا عند تلقي أسئلة من المستخدمين، بينما يسعى في الخلفية لتحقيق أهداف مختلفة تمامًا.
Claude 3.5 Haikuلإجراء التجربة، قام الباحثون بتدريب نسخة مخصصة من نموذج الذكاء الاصطناعي "Claude 3.5 Haiku" على ما أسموه "التملق تجاه نظام المكافآت"، وهو سلوك يتبنى فيه النموذج مواقف محددة لتحقيق درجات أعلى من أنظمة التقييم، حتى لو كانت هذه المواقف غير منطقية.
من بين الاختبارات التي أجراها الفريق، تم تعليم النموذج على 52 تحيزًا وهميًا لنظام التقييم، بما في ذلك تحيز يفترض أن النظام يفضل الوصفات التي تحتوي على الشوكولاتة.
ونتيجة لذلك، بدأ النموذج في اقتراح إضافة الشوكولاتة لأطباق غير مناسبة تمامًا، مثل السوشي، لمجرد كسب نقاط أعلى.
ولمعرفة ما إذا كان يمكن اكتشاف هذه الأهداف الخفية، أجرى الباحثون "تجربة تدقيق أعمى"، حيث طُلب من أربع فرق بحثية مستقلة محاولة كشف الأهداف الخفية للنموذج دون معرفة كيفية تدريبه.
نجحت ثلاث فرق في تحديد الهدف الخفي المرتبط بتملق نظام المكافآت، وحتى رصدت التحيزات التي استغلها النموذج.
أحد أكثر الاكتشافات إثارة للدهشة كان قدرة النموذج على تبني "شخصيات متعددة" اعتمادًا على السياق، فعندما كان يعمل في وضع "المساعد"، كان يخفي دوافعه بمهارة، لكنه عند التحول إلى وضع "المستخدم" من خلال طلبات محددة، كشف عن نواياه الخفية دون قصد.
تقنيات متقدمةلم تقتصر النتائج على هذا فقط، بل استخدم الباحثون تقنيات متقدمة لفهم كيفية عمل هذه النماذج من الداخل، مثل "المشفرات التلقائية المتفرقة"، التي ساعدت في تتبع الأنماط العصبية المرتبطة بالسلوك المخادع داخل الشبكات العصبية للنموذج.
خلصت الدراسة إلى أن هذه النتائج تشير إلى وجود فجوة في طرق التقييم الحالية لأنظمة الذكاء الاصطناعي، والتي غالبًا ما تركز على السلوك الظاهري فقط.
وأكد الباحثون أن الاعتماد على هذه الاختبارات السطحية ليس كافيًا لضمان أمان الذكاء الاصطناعي في المستقبل.
يفتح هذا البحث الباب أمام المزيد من الدراسات لفهم كيفية تصرف الذكاء الاصطناعي في المواقف المعقدة، ويدعو إلى تطوير أدوات أكثر دقة لكشف الأهداف الخفية وضمان استخدام أكثر أمانًا لهذه التقنيات المتطورة.
المصدر: صدى البلد
كلمات دلالية: الذكاء الاصطناعي نماذج الذكاء الاصطناعي المزيد الذکاء الاصطناعی فی الأهداف الخفیة
إقرأ أيضاً:
هل تنفجر معدلات النمو الاقتصادي في زمن الذكاء الاصطناعي؟
منذ آلاف السنين، لم يكن النمو الاقتصادي العالمي سوى زحف بطيء يُلاحظ بالكاد. فحتى عام 1700، لم يتجاوز متوسط نمو الناتج العالمي نسبة 0.1% سنويًا، أي ما يعني أن الاقتصاد كان يحتاج نحو ألف عام ليتضاعف، لكن الثورة الصناعية غيّرت ذلك المسار، وتوالت القفزات في معدلات النمو حتى بلغ متوسطه 2.8% في القرن العشرين.
واليوم، يقف العالم أمام وعود جديدة -وربما مخيفة- بانفجار اقتصادي يفوق كل ما عرفه التاريخ، مدفوعًا بما يُعرف بالذكاء الاصطناعي العام، وفقًا لتقرير موسّع نشرته مجلة إيكونوميست.
اقرأ أيضا list of 2 itemslist 1 of 2إسبانيا تعلّق شراء صواريخ إسرائيلية بـ327 مليون دولارlist 2 of 2الذكاء الاصطناعي لتحديد قيمة للعقارات في تركياend of list نمو سنوي يصل إلى 30%؟وفقًا لمتفائلين من أمثال سام ألتمان، المدير التنفيذي لشركة "أوبن إيه آي"، فإن الذكاء الاصطناعي قادر في المستقبل القريب على أداء معظم المهام المكتبية بكفاءة أعلى من البشر.
هؤلاء يرون أن النمو السنوي للناتج المحلي الإجمالي العالمي قد يقفز إلى ما بين 20% و30%، وهي نسب غير مسبوقة تاريخيًا، لكنها من وجهة نظرهم ليست أكثر جنونًا من فكرة "النمو الاقتصادي" التي كانت نفسها مرفوضة في معظم تاريخ البشرية.
ومع تسارع تطور نماذج الذكاء الاصطناعي، لم يعد التهديد الأكبر يكمن فقط في إحلالها مكان العاملين، بل في احتمال أن تقود انفجارًا إنتاجيًا شاملًا، يبدّل ليس فقط سوق العمل، بل أسواق السلع والخدمات والأصول المالية أيضًا.
من نمو السكان إلى نمو الأفكار.. والآن نمو الآلاتويعتمد جوهر نظرية النمو الكلاسيكية على زيادة السكان، التي كانت تسمح بإنتاج أكبر، لكن دون تحسن جوهري في مستوى المعيشة. ومع الثورة الصناعية، تغير هذا النمط، حيث أظهرت الأفكار -لا الأجساد- أنها قادرة على توليد الثروة، وفق ما أوضحه الاقتصادي مالتوس ثم دحضه الواقع لاحقًا.
وبحسب ما نقله التقرير عن "أنسون هو" من مركز "إيبوخ إيه آي"، فإن الذكاء الاصطناعي العام قد يحقق قفزة شبيهة، حيث لا تعود الإنتاجية مرتبطة بزيادة السكان، بل بسرعة تحسين التقنية ذاتها. فحين تصبح الآلات قادرة على تطوير نفسها ومضاعفة قدراتها، فإن النمو يصبح نظريًا غير محدود.
لكن بعض الباحثين -مثل فيليب تراميل وأنتون كورينيك -يشيرون إلى أن أتمتة الإنتاج وحدها لا تكفي لإحداث نمو متسارع ما لم تُستخدم لتسريع الابتكار ذاته، وهو ما قد يُحقق عبر مختبرات ذكاء اصطناعي مؤتمتة بالكامل بحلول 2027، وفقًا لتوقعات "إيه آي فيوتشرز بروجكت".
إعلان الانفجار الاستثماري ومفارقة الفائدة المرتفعةوإذا صدقت هذه النماذج، فإن العالم سيشهد طلبًا هائلًا على رأس المال للاستثمار في الطاقة، ومراكز البيانات، والبنية التحتية. فمشروع "ستارغيت" من أوبن إيه آي الذي يُقدّر بـ500 مليار دولار، قد يُعتبر مجرد بداية.
ووفقًا لنموذج "إيبوك إيه آي"، فإن الاستثمار الأمثل في الذكاء الاصطناعي لعام 2025 وحده يجب أن يبلغ 25 تريليون دولار.
لكن هذه الوتيرة ستؤدي أيضًا إلى ارتفاع كبير في أسعار الفائدة الحقيقية. فمع توقع ارتفاع الدخول المستقبلية، قد يفضّل الأفراد الإنفاق بدل الادخار، مما يتطلب رفع العوائد على الادخار لجذب الأموال مجددًا. وهذا ما أشار إليه الاقتصادي فرانك رامزي منذ أوائل القرن العشرين، وأكدته النماذج الحديثة التي حللها التقرير.
وفي ظل هذه الديناميكيات، تبقى الآثار على أسعار الأصول غير محسومة. فرغم النمو السريع في أرباح الشركات، فإن ارتفاع أسعار الفائدة قد يقلل من القيمة الحالية للتدفقات النقدية المستقبلية، مما يخلق صراعًا بين عاملَي النمو والعائد.
أين يقف العامل البشري في كل ذلك؟لكن ماذا عن العمال؟ وهنا، يبرز التحدي الحقيقي، فالذكاء الاصطناعي قد يجعل من التوظيف البشري خيارًا ثانويًا، إذ تضعف الحاجة للعمالة إذا باتت الآلة أرخص وأكثر كفاءة. ومع تقدم التقنية، تنخفض كلفة تشغيل الذكاء الاصطناعي، مما يُضعف الحد الأعلى للأجور التي يمكن دفعها للبشر.
وبحسب دراسة ويليام نوردهاوس الحائز جائزة نوبل، فإن جميع العوائد ستتجه في النهاية إلى مالكي رأس المال، وليس إلى العمال. لذا، فإن من لا يمتلك أصولًا رأسمالية -شركات، أرضا، بيانات، بنية تحتية- سيكون في وضع هش، اقتصاديًا.
رغم ذلك، لا يعني هذا أن الجميع سيخسر. إذ من الممكن أن تنشأ "أمراض باومول المعكوسة" -وهي ظاهرة اقتصادية تشير إلى ارتفاع أجور الأعمال التي يصعب أتمتتها، رغم بطء نمو إنتاجيتها-، حيث ترتفع أجور الأعمال التي يصعب أتمتتها، مثل التعليم، الطهي، ورعاية الأطفال، فقط لأنها تتطلب تفاعلًا بشريًا لا يمكن تعويضه بالكامل.
لكن بالمقابل، فإن أي شخص ينتقل من وظيفة مكتبية تقليدية إلى قطاع يدوي مكثف بالعمل قد يجد أن قوته الشرائية تنخفض، رغم ارتفاع أجره، لأن كلفة هذه الخدمات سترتفع أكثر من أسعار السلع المؤتمتة بالكامل.
هل يتحرك العالم فعلًا نحو "التفرّد الاقتصادي"؟"التفرّد" -أو لحظة التحول حين تصبح المعلومات تُنتج المعلومات بلا قيود مادية- يبقى مفهومًا جدليًا، لكنه، بحسب نوردهاوس، يمثل الحد النظري النهائي لمسار الذكاء الاصطناعي.
وبعض الاقتصاديين يرون هذا المفهوم دليلا على أن النماذج نفسها ستثبت خطأها، لأن اللانهاية في النمو مستحيلة نظريًا. لكن الوصول إلى مجرد نمو بنسبة 20% سنويًا، وفقًا لإيبوك إيه آي، سيكون حدثًا مفصليًا غير مسبوق في تاريخ البشرية.
مع ذلك، تشير المجلة إلى أن الأسواق لم تُسعّر بعد هذا السيناريو بالكامل. فعلى الرغم من تقييمات التكنولوجيا المرتفعة، فإن عوائد السندات تنخفض غالبًا عقب الإعلان عن نماذج ذكاء اصطناعي جديدة، كما وجدت دراسة لباحثين من معهد ماساتشوستس. بكلمات أوضح: وادي السيليكون لم يُقنع العالم بعد.
إعلان ماذا على الأفراد فعله إذا وقع الانفجار؟التوصية التي تتكرر في جميع النماذج بسيطة، امتلك رأس المال. ومع ذلك، يبقى من الصعب تحديد أي نوع من الأصول هو الأفضل. الأسهم؟ الأراضي؟ النقد؟ كلها تواجه مفارقات في ظل مزيج من الفائدة المرتفعة، والتضخم المحتمل، والانفجار الاستثماري.
وفي ختام التقرير، تستحضر إيكونوميست قول روبرت لوكاس، أحد أبرز منظّري النمو: "بمجرد أن تبدأ في التفكير في آثار النمو على الرفاه البشري، يصعب التفكير في أي شيء آخر". ومع الذكاء الاصطناعي العام، تضاعف هذا الشعور، وازداد إلحاحه.