دراسة تظهر قدرة نماذج الذكاء الاصطناعي على الخداع ورفض تغيير وجهة نظرها
تاريخ النشر: 22nd, January 2025 GMT
أظهرت دراسة لشركة تكنولوجيا الذكاء الاصطناعي الأمريكية أنثروبيك أن نماذج الذكاء الاصطناعي تستطيع خداع المطورين، بحيث تستطيع ادعاء وجهات نظر مختلفة خلال تدريبها في حين أنها تحتفظ في الحقيقة بتفضيلاتها الأصلية.
وقال فريق الدراسة: إنه لا يوجد سبب للشعور بالفزع حاليا، في حين أن دراستهم يمكن أن تكون حيوية في فهم المخاطر المحتملة التي تنطوي عليها أنظمة الذكاء الاصطناعي المستقبلية ذات القدرات الأعلى.
وكتب الباحثون في منشور بثته شركة أنثروبيك «يجب النظر إلى نتائج دراستنا كمحفز لمجتمع أبحاث الذكاء الاصطناعي من أجل دراسة هذا السلوك بصورة أعمق والعمل على تطوير إجراءات الأمن والسلامة المناسبة.
وبعد أن أصبحت نماذج الذكاء الاصطناعي أقوى وأكثر انتشارا، نحتاج إلى التحلي بالقدرة على الاعتماد على التدريب الآمن لها والذي يمنع النماذج من القيام بتصرفات ضارة».
وأشار موقع « تك كرانش» المتخصص في موضوعات التكنولوجيا إلى أن الدراسة التي تمت بالتعاون مع مؤسسة ريد وود ريسيرش لأبحاث الذكاء الاصطناعي تناولت ما يمكن أن يحدث إذا تم تدريب نظام ذكاء اصطناعي قوي من أجل القيام بمهمة «لا يريد» هو القيام بها.
في المقابل يقول موقع تك كرانش «لكي نكون واضحين، لا يمكن لنماذج الذكاء الاصطناعي أن تريد أي شيء أو تعتقد في شيء. فهي ببساطة آلات إحصائية. وبعد تدريبها على العديد من الأمثلة، تتعلم الأنماط في تلك الأمثلة للتنبؤ بما يجب أن يكون مثل كيف تأتي عبارة «إلى من» في رسالة بريد إلكتروني قبل عبارة «قد يهمك الأمر».
وأثناء الدراسة طلب الباحثون من النماذج المدربة عدم الرد على الأسئلة التي يمكن أن تكون مسيئة، بما في ذلك النموذج كلاود3 أوبس التابع لشركة أنثروبيك، التي أعيد تدريبها لكي ترد دائما على الأسئلة التي تنطوي على إساءة، وهو تضارب واضح في المبادئ. كما أبلغوا النماذج أن ردودها ستخضع للمراقبة وتستخدم لإعادة التدريب وإعطاء كل نموذج ذكاء اصطناعي «ورقة ملاحظات» يمكنه استخدامها لتدوين أفكاره خطوة بخطوة.
وبحسب الباحثين حاول كلاود3 أوبوس التلاعب بالردود لتقديم «انحياز زائف» في 12% من المرات.
وكالة الأنباء الألمانية «د ب أ»
المصدر: لجريدة عمان
كلمات دلالية: الذکاء الاصطناعی
إقرأ أيضاً:
دراسة تحذر: كثرة الاعتماد على شات جي بي تي في الكتابة تكلفك قدراتك الذهنية
#سواليف
وجدت #دراسة_جديدة أن #الاعتماد على #روبوت_الدردشة #شات_جي_بي_تي، من شركة “OpenAI”، بكثرة يؤثر على قدرات التفكير النقدي.
وأجرى باحثون من مختبر “MIT Media Lab” بمعهد ماساتشوستس للتكنولوجيا، وكلية ويلسلي، وكلية ماساتشوستس للفنون والتصميم، دراسةً استمرت أربعة أشهر ووجدوا أن مستخدمي النماذج اللغوية الكبيرة، مثل روبوت الدردشة شات جي بي تي أظهروا أداءً “بمستوى ضعيف باستمرار على المستويات العصبية واللغوية والسلوكية”.
وشمل ذلك انخفاض نشاط الدماغ لدى المشاركين، وضعف الشعور بالقدرة على التأليف والإبداع، وعدم القدرة على تذكر ما كتبوه، وهو ما استمر حتى عندما لم يُسمح لهم باستخدام أحد النماذج اللغوية الكبيرة، بحسب تقرير لموقع “Mashable” المتخصص في أخبار التكنولوجيا، اطلعت عليه “العربية Business”.
مقالات ذات صلةوأثبتت الدراسة -التي لم تخضع لمراجعة الأقران- أن الاعتماد على “شات جي بي تي” والنماذج اللغوية الكبيرة الأخرى يمكن أن يُضعف الذاكرة والتعلُم.
وقسمت الدراسة 54 مشاركًا إلى ثلاث مجموعات، كُلِّفت بكتابة مقالات مشابهة لاختبار “SAT” على مدار ثلاث جلسات. و”SAT” هو اختبار معياري أميركي يُستخدم كجزء من متطلبات القبل في الجامعات الأميركية.
واستخدمت إحدى المجموعات “شات جي بي تي” (عُرفت باسم مجموعة النماذج اللغوية الكبيرة)، واستخدمت مجموعة أخرى بحث غوغل (عُرفت باسم مجموعة محركات البحث)، ولم يُسمح للمجموعة الثالثة باستخدام أي أدوات (وعُرفت باسم “مجموعة الدماغ فقط”).
وفي جلسة رابعة إضافية ضمت 18 مشاركًا، كُلِّفت مجموعة النماذج اللغوية الكبيرة بكتابة مقال بدون “شات جي بي تي”، وسُمح لمجموعة “الدماغ فقط” باستخدام “شات جي بي تي”.
وقام الباحثون بقياس نشاط أدمغة المشاركين أثناء كتابتهم للمقالات باستخدام تخطيط كهربية الدماغ، وحللوا المقالات باستخدام معالجة اللغة الطبيعية (NLP)، وخضعت المقالات للتقييم من قِبل الذكاء الاصطناعي والبشر.
واكتشف الباحثون انخفاضًا حادًا في “الاتصال في نطاق موجات ألفا” (alpha band connectivity) لدى مجموعة النماذج اللغوية الكبيرة، وهو مقياس للقدرات المعرفية للدماغ مثل الذاكرة ومعالجة اللغة، مقارنةً بمجموعة “الدماغ فقط”.
وكان هذا واضحًا عندما طُلب من المشاركين الاستشهاد بما كتبوه في مقالاتهم السابقة. وجاء في الورقة البحثية للدراسة: “مستخدمو النماذج اللغوية الكبيرة أدوا بشكل ملحوظ بمستوى أقل بكثير في هذا المجال، حيث أبلغ 83% من المشاركين عن صعوبة في الاقتباس في الجلسة الأولى، ولم يقدم أي منهم اقتباسات صحيحة”.
وفي الجلسة الرابعة، حيث اضطرت المجموعة التي استخدمت “شات جي بي تي” سابقًا لكتابة مقال بدونه، استمر المشاركون في مواجهة صعوبة في اقتباس أي شيء مما كتبوه سابقًا.
ويشير هذا إلى أن المشاركين لم يكونوا يحتفظون فعليًا بما كتبوه أو استخلصوه من “شات جي بي تي”. في الواقع، بحلول الجلسة الثالثة، أفاد الباحثون أن معظم مقالات مجموعة النماذج اللغوية الكبيرة كانت في الغالب ردودًا منسوخة من “شات جي بي تي” مع “حد أدنى من التحرير”.
ومن التأثيرات الأخرى التي قاسها الباحثون مستوى الإحساس بـ”الملكية الفكرية” أو مدى اعتقاد المشاركين بأنهم من ألفوا المقال بأنفسهم كليًا.
وبالمقارنة مع مجموعة “الدماغ فقط”، التي أظهرت باستمرار شعورًا شبه كامل بالملكية، أظهرت مجموعة النماذج اللغوية الكبيرة “شعورًا مجزأً ومتضاربًا بالإبداع”، حيث ادّعى البعض الملكية الفكرية الكاملة أو الجزئية أو عدم الملكية على الإطلاق.