رغم تفوقه في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ
تاريخ النشر: 20th, January 2025 GMT
على الرغم من تميز الذكاء الاصطناعي في بعض المهام مثل البرمجة أو إنشاء البودكاست، إلا أنه يُظهر ضعفًا واضحًا في اجتياز اختبارات التاريخ المتقدمة، وفقًا لدراسة حديثة.
GPT-4 وLlama وGemini: نماذج لغوية فشلت في تقديم إجابات دقيقة
قام فريق من الباحثين بتطوير معيار جديد لاختبار ثلاث نماذج لغوية ضخمة رائدة: "GPT-4" من أوبن إي آي، و"Llama" من ميتا، و"Gemini" من جوجل، في الإجابة عن أسئلة تاريخية.
النتائج التي تم تقديمها الشهر الماضي في مؤتمر "NeurIPS" المرموق، كانت مخيبة للآمال. حيث حقق أفضل نموذج، وهو "GPT-4 Turbo"، دقة بلغت حوالي 46% فقط، وهي نسبة بالكاد تفوق التخمين العشوائي.
اقرأ أيضاً.. هل يتفوق "O3" على البشر؟ قفزة جديدة تُعيد تعريف الذكاء الاصطناعي
وأوضحت "ماريا ديل ريو-تشانونا"، إحدى المشاركات في الدراسة وأستاذة علوم الحاسوب في جامعة كوليدج لندن: "الاستنتاج الأساسي من هذه الدراسة هو أن النماذج اللغوية الكبيرة، رغم إمكانياتها المذهلة، لا تزال تفتقر إلى الفهم العميق المطلوب للتعامل مع استفسارات تاريخية متقدمة. يمكنها التعامل مع الحقائق الأساسية، ولكن عندما يتعلق الأمر بالتحليل العميق على مستوى الدكتوراه، فهي غير قادرة على الأداء المطلوب بعد".
القصور في الفهم العميق
من الأمثلة التي فشل فيها النموذج، سؤال عن استخدام الدروع القشرية في فترة معينة من مصر القديمة. أجاب "GPT-4 Turbo" بنعم، بينما الحقيقة أن هذه التقنية لم تظهر في مصر إلا بعد 1500 عام.
يرجع هذا القصور، وفقًا للباحثين، إلى اعتماد النماذج على بيانات تاريخية بارزة، مما يصعّب عليها استرجاع المعلومات النادرة أو الأقل شهرة.
كما أشار الباحثون إلى وجود أداء أضعف للنماذج في مناطق معينة، مثل إفريقيا جنوب الصحراء الكبرى، مما يبرز التحيزات المحتملة في بيانات التدريب.
اقرأ أيضاً.. الذكاء الاصطناعي يفك شيفرة أصوات الطيور المهاجرة
التحديات المستمرة
وأكد "بيتر تيرتشين"، قائد الدراسة وأستاذ بمعهد علوم التعقيد في النمسا، أن هذه النتائج تُظهر أن النماذج اللغوية لا تزال غير بديل عن البشر في مجالات معينة. ومع ذلك، يبقى الأمل في أن تسهم هذه النماذج في مساعدة المؤرخين مستقبلاً. يعمل الباحثون على تحسين المعيار بإضافة بيانات من مناطق غير ممثلة بشكل كافٍ وتضمين أسئلة أكثر تعقيدًا.
واختتمت الدراسة بالقول: "رغم أن نتائجنا تسلط الضوء على المجالات التي تحتاج إلى تحسين، إلا أنها تؤكد أيضًا الإمكانيات الواعدة لهذه النماذج في دعم البحث التاريخي".
المصدر: وكالات
المصدر: صحيفة الاتحاد
كلمات دلالية: تشات جي بي تي أوبن إي آي نماذج الذكاء الاصطناعي التوليدية بودكاست البرمجة الذكاء الاصطناعي جوجل الذکاء الاصطناعی
إقرأ أيضاً:
الذكاء الاصطناعي يساعد الأطباء في تحليل الصور الطبية
برز الذكاء الاصطناعي، منذ ظهوره، كأداة فعّالة لتحليل الصور الطبية. وبفضل التطورات في مجال الحوسبة ومجموعات البيانات الطبية الضخمة التي يُمكن للذكاء الاصطناعي التعلّم منها، فقد أثبت جدواه في قراءة وتحليل الأنماط في صور الأشعة السينية، والتصوير بالرنين المغناطيسي، والتصوير المقطعي المحوسب، مما يُمكّن الأطباء من اتخاذ قرارات أفضل وأسرع، لا سيما في علاج وتشخيص الأمراض الخطيرة كالسرطان. في بعض الحالات، تُقدّم أدوات الذكاء الاصطناعي هذه مزايا تفوق حتى نظيراتها البشرية.
يقول أونور أسان، الأستاذ المشارك في معهد ستيفنز للتكنولوجيا في الولايات المتحدة، والذي يركز بحثه على التفاعل بين الإنسان والحاسوب في الرعاية الصحية "تستطيع أنظمة الذكاء الاصطناعي معالجة آلاف الصور بسرعة وتقديم تنبؤات أسرع بكثير من المُراجعين البشريين. وعلى عكس البشر، لا يتعب الذكاء الاصطناعي ولا يفقد تركيزه بمرور الوقت".
مع ذلك، ينظر العديد من الأطباء إلى الذكاء الاصطناعي بشيء من عدم الثقة، ويرجع ذلك في الغالب إلى عدم معرفتهم بكيفية وصوله إلى قراراته، وهي مشكلة تُعرف باسم "مشكلة الصندوق الأسود".
يقول أسان "عندما لا يعرف الأطباء كيف تُولّد أنظمة الذكاء الاصطناعي تنبؤاتها، تقلّ ثقتهم بها. لذا، أردنا معرفة ما إذا كان تقديم شروحات إضافية يُفيد الأطباء، وكيف تؤثر درجات التفسير المختلفة للذكاء الاصطناعي على دقة التشخيص، وكذلك على الثقة في النظام".
بالتعاون مع طالبة الدكتوراه أوليا رضائيان والأستاذ المساعد ألب أرسلان إمراه بايراك في جامعة ليهاي في ولاية بنسيلفانيا الأميركية، أجرى أسان دراسة شملت 28 طبيبًا متخصصًا في الأورام والأشعة، استخدموا الذكاء الاصطناعي لتحليل صور سرطان الثدي. كما زُوّد الأطباء بمستويات مختلفة من الشروح لتقييمات أداة الذكاء الاصطناعي. في النهاية، أجاب المشاركون على سلسلة من الأسئلة المصممة لقياس ثقتهم في التقييم الذي يُولّده الذكاء الاصطناعي ومدى صعوبة المهمة.
وجد الفريق أن الذكاء الاصطناعي حسّن دقة التشخيص لدى الأطباء مقارنةً بالمجموعة الضابطة، ولكن كانت هناك بعض الملاحظات المهمة.
اقرأ أيضا... مؤسسات تستخدم الذكاء الاصطناعي لأعمال معقدة ومتعددة الخطوات
كشفت الدراسة أن تقديم شروحات أكثر تفصيلًا لا يُؤدي بالضرورة إلى زيادة الثقة.
أخبار ذات صلةيقول أسان "وجدنا أن زيادة التفسير لا تعني بالضرورة زيادة الثقة". ذلك لأن وضع تفسيرات إضافية أو أكثر تعقيدًا يتطلب من الأطباء معالجة معلومات إضافية، مما يستنزف وقتهم وتركيزهم بعيدًا عن تحليل الصور. وعندما تكون التفسيرات أكثر تفصيلًا، يستغرق الأطباء وقتًا أطول لاتخاذ القرارات، مما يقلل من أدائهم العام.
يوضح أسان "معالجة المزيد من المعلومات تزيد من العبء المعرفي على الأطباء، وتزيد أيضًا من احتمال ارتكابهم للأخطاء، وربما إلحاق الضرر بالمريض. لا نريد زيادة العبء المعرفي على المستخدمين بإضافة المزيد من المهام".
كما وجدت أبحاث أسان أنه في بعض الحالات، يثق الأطباء بالذكاء الاصطناعي ثقةً مفرطة، مما قد يؤدي إلى إغفال معلومات حيوية في الصور، وبالتالي إلحاق الضرر بالمريض.
ويضيف أسان "إذا لم يُصمم نظام الذكاء الاصطناعي جيدًا، وارتكب بعض الأخطاء بينما يثق به المستخدمون ثقةً كبيرة، فقد يطور بعض الأطباء ثقةً عمياء، معتقدين أن كل ما يقترحه الذكاء الاصطناعي صحيح، ولا يدققون في النتائج بما فيه الكفاية".
قدّم الفريق نتائجه في دراستين حديثتين: الأولى بعنوان "تأثير تفسيرات الذكاء الاصطناعي على ثقة الأطباء ودقة التشخيص في سرطان الثدي"، والثانية بعنوان "قابلية التفسير وثقة الذكاء الاصطناعي في أنظمة دعم القرار السريري: تأثيراتها على الثقة والأداء التشخيصي والعبء المعرفي في رعاية سرطان الثدي".
يعتقد أسان أن الذكاء الاصطناعي سيظل مساعدًا قيّمًا للأطباء في تفسير الصور الطبية، ولكن يجب تصميم هذه الأنظمة بعناية.
ويقول "تشير نتائجنا إلى ضرورة توخي المصممين الحذر عند دمج التفسيرات في أنظمة الذكاء الاصطناعي"، حتى لا يصبح استخدامها معقدا. ويضيف أن التدريب المناسب سيكون ضروريًا للمستخدمين، إذ ستظل الرقابة البشرية لازمة.
وأكد "ينبغي أن يتلقى الأطباء، الذين يستخدمون الذكاء الاصطناعي، تدريبًا يركز على تفسير مخرجات الذكاء الاصطناعي وليس مجرد الوثوق بها".
ويشير أسان إلى أنه في نهاية المطاف، يجب تحقيق توازن جيد بين سهولة استخدام أنظمة الذكاء الاصطناعي وفائدتها.
ويؤكد الباحث "يُشير البحث إلى وجود معيارين أساسيين لاستخدام أي شكل من أشكال التكنولوجيا، وهما: الفائدة المتوقعة وسهولة الاستخدام المتوقعة. فإذا اعتقد الأطباء أن هذه الأداة مفيدة في أداء عملهم، وسهلة الاستخدام، فسوف يستخدمونها".
مصطفى أوفى (أبوظبي)