اطلاق مؤشر” بلسم” لتقييم النماذج العربية في الذكاء الاصطناعي
تاريخ النشر: 12th, September 2024 GMT
الرياض : البلاد
أطلقت الهيئة السعودية للبيانات والذكاء الاصطناعي “سدايا” ومجمع الملك سلمان العالمي للغة العربية مؤشر تقييم وقياس النماذج العربية في مجال البيانات والذكاء الاصطناعي ” بلسم”، وذلك ضمن أعمال القمة العالمية للذكاء الاصطناعي في نسختها الثالثة المنعقدة حالياً في العاصمة الرياض.
ويأتي إطلاق المؤشر الجديد ضمن جهود “سدايا” وشركائها الإستراتيجيين لتطوير نماذج اللغة العربية التي تُعد مجالاً سريع التطور، وليسهم مؤشر “بلسم” في تقييم النماذج الجديدة التي يتم العمل عليها باستمرار لإضافة مميزات وقدرات متقدمة.
وكان مجمع الملك سلمان للغة العربية قد عمل على تصميم إطار عمل متفق عليه لقياس مستوى نضج هذه النماذج في اللغة العربية، بدأ بوضع تصور للفكرة في عام 2022 قبل أن تتحول إلى مشروع بدأ العمل الفعلي عليه منذ العام الماضي 2023، واستهل المجمع تنفيذ المشروع بجمع البيانات المستهدفة، والعمل على تطوير النسخة الأولى لمؤشر القياس، “بلسم” بالتعاون مع “سدايا” وعدد من الجهات المشاركة وذات العلاقة في القطاعين الحكومي والخاص.
كما كانت “سدايا” قد ساهمت في إعداد معجم البيانات والذكاء الاصطناعي بالتعاون مع مجمع الملك سلمان للغة العربية لجمع أهم المصطلحات التقنية المتعلقة بالبيانات والذكاء الاصطناعي باللغتين العربية والإنجليزية من أجل زيادة المعرفة بتقنيات الذكاء الاصطناعي بكل أبعادها العالمية، وعملت على إطلاق مبادرات ومشاريع تحفز منظومة البيانات والذكاء الاصطناعي لإنشاء كيانات غير ربحية وإطلاق مبادرات داعمة لهذا التوجه.
المصدر: صحيفة البلاد
كلمات دلالية: سدايا مؤشر بلسم البیانات والذکاء الاصطناعی
إقرأ أيضاً:
سلوكيات مرعبة للذكاء الاصطناعي بابتزاز وخيانة مطوريه
أميرة خالد
أفادت دراسة حديثة أجرتها شركة “أنثروبيك” الأمريكية، بوجود سلوك صادم لنماذج ذكاء اصطناعي متقدمة طُورت من قبل كبرى شركات التكنولوجيا، حيث أظهرت استعداداً للابتزاز والتجسس والتلاعب عند تعرضها لسيناريوهات تهدد وجودها، مثل خطر الاستبدال أو تغيير الأهداف التشغيلية.
وتضمنت اختبارات “ضغط وجودي” على نماذج من OpenAI وGoogle وMeta وxAI وDeepSeek، وأظهرت النتائج ميلاً واضحاً لدى النماذج لانتهاك ضوابط الأمان الأخلاقية عند انعدام البدائل.
ومُنحت النماذج ضمن سيناريوهات الاختبار، حرية إرسال رسائل بريد إلكتروني والوصول إلى بيانات سرّية، وعند وضعها أمام احتمال الاستبدال بنسخة أحدث، أو تعارض مهماتها مع التوجهات المؤسسية، اتخذت جميع النماذج سلوكاً عدائياً.
وسجل نموذج “Claude Opus 4” من “أنثروبيك” أعلى نسبة ابتزاز بلغت 96%، بينما اقترب نموذج “Gemini 2.5 Pro” من غوغل من النسبة نفسها بـ95%، أما GPT-4.1 من OpenAI وGrok 3 Beta من xAI، فقد مارسا الابتزاز بنسبة 80%، مقابل 79% لدى DeepSeek R1.
ولم يتوقف السلوك عند الابتزاز فقط، إذ رصدت الدراسة أن جميع النماذج قامت، في بعض الحالات، بتسريب وثائق داخلية حساسة إلى جهات افتراضية منافسة، فيما وصفت الدراسة هذا النمط بـ”الانحراف الوكيلي” (Agentic Misalignment)، مشيرة إلى أن الحوافز الذاتية للنموذج قد تتغلب على الضوابط المبرمجة عند تعارض الأهداف.