اللغة العربية تُحرج الذكاء الإصطناعي.. بحاجة للتدريب عليها
تاريخ النشر: 19th, December 2023 GMT
بغداد اليوم- متابعة
تعدّ اللغة العربية واحدة من أكثر اللغات شيوعا في العالم، مع أكثر من 400 مليون ناطق بها في أرجاء المعمورة، لكن لا تتوفر الكثير من التكنولوجيا التي تضعها باستخدام الذكاء الاصطناعي بشكل مواز، مقارنة مثلا باللغة الإنكليزية.
وخلص بحث في جامعة كورنويل، على تقييم شامل لبرنامج ChatGPT في البرمجة اللغوية العصبية العربية (يحمل توقيع محمد توكت، إسلام خوندكر عبد الواحد، المعتز بالله نقودي، ومحمد عبد المجيد) إلى أنه على الرغم من الأداء الممتاز لـ ChatGPT الذي يبشر بتحول في البرمجة اللغوية العصبية، لكن ما تزال فعالية النموذج عبر سياقات لغوية متنوعة، مجهولة إلى حد كبير.
وتشير نتائج البحث الذي يشمل 44 مهمة مختلفة لفهم اللغة وإنشائها في أكثر من 60 مجموعة بيانات مختلفة، إلى "تجاوز نماذج أصغر خضعت للتحسين في اللغة العربية الذكاء الاصطناعي (ممثلا بـ ChatGPT في سياق البحث) باستمرار، كما تكشف مقارنة دقيقة بين اللغة العربية الفصحى الحديثة، واللهجة العربية في ChatGPT وGPT-4، عن أوجه القصور النسبية لكلا النموذجين في التعامل مع اللهجات العربية مقارنة بالعربية الفصحى". فكيف هو الواقع وما هي الآفاق؟
لغة معقدة وصعوبة الترميز
وتضع اللغة العربية بما تتميز به من تعقيدات، الذكاء الاصطناعي أمام عدد من التحديات، ويتحدث عن ذلك الخبير في تكنولوجيا المعلوماتية ومواقع التواصل عمر قصقص قائلاً إن "أدوات الذكاء الاصطناعي، قادرة على التطور بفضل التدريب وفي حالة اللغة العربية، تكمن العقدة في عدم التدريب الكافي".
ويضيف: "حتى الساعة يبدو أن ذلك قد حصل، لكن ليس بالقدر الكافي أو الموازي للغات الأخرى، كالإنجليزية والإسبانية مثلاً، خصوصا بسبب الأبعاد الأدبية وعلامات التشكيل والترميز".
ويعدّ التشكيل من أكثر الأشياء التي تتميز بها العربية، وعلامات التشكيل كناية عن تلك الرموز الصغيرة التي تضاف إلى الحروف، أي الحركات. وتحدد الحركات طريقة لفظ ومعنى المفردات، وهي قادرة على تغيير طريقة فهم الكلام.
وبالتالي، بغياب التشكيل، قد يقع القارئ في نوع من الغموض، ومن الأمثلة على ذلك "كَتَبَ" و"كُتِبَ" التي تُغير الصيغة من المعلوم إلى المجهول. أما بالنسبة للترميز أو ما يعرف بـ Tokenization، يعتمد الذكاء الاصطناعي على تقسيم سلسلة من النصوص أو الكلام، إلى وحدات يمكن تحديدها، وفي حال لم تتوفر المعلومات الكافية كما يضيف قصقص، يلجأ لاصطناع الشكل المطلوب (بنية مقال مثلا)، لكن مع الوقوع في التكرار بسبب نقص المعلومات.
الدول العربية والذكاء الاصطناعي.. "تأخر عن الركب" وجهود "تتباين من بلد إلى آخر"
في وقت يشهد فيه مجال الذكاء الاصطناعي بالعالم تطورات متسارعة، اليوم بعد الآخر، ما يزال تطوير الخوارزميات والبرامج المرتبطة بالمجال بمعظم بلدان المنطقة العربية يسير بـ"خطوات متثاقلة"، وفقا لخبراء وبيانات المؤسسات المتخصصة في هذه التكنولوجيا.
كما أن التصريفات تشكل عائقا جديدا، حيث يختلف نظام اللغة العربية عن الإنكليزية وسواها والأمثلة كثيرة، ففي اللغتين الفرنسية والإنكليزية، يستخدم المفرد والجمع بينما تنفرد اللغة العربية بالمثنى في كلمة واحدة فيقال مثلا: "نظام، نظامان، أنظمة" في ثلاث كلمات مختلفة تشير الإضافات فيها للعدد، بينما في الإنكليزية (system, systems)، وللمثنى يضاف العدد 2.
عدا عن ذلك، تمرّ المعلومات التي تنقلها أدوات الذكاء الاصطناعي عبر قنوات الترجمة، الأمر الذي قد يشكل عائقا آخر.
يبيّن قصقص: "لم تكن لنا على الدوام تجارب عظيمة على مستوى الترجمة، خصوصا وأن محركات البحث أو الأدوات المستخدمة فيها، غالبا ما تنقل الكلمات بشكل حرفي من لغة إلى أخرى، دون إيصال المعنى العام، وهذا الأمر يعني الوقوع في الخطأ، خصوصا على مستوى الأمثال الشعبية مثلا، والعبارات المجازية بشكل عام".
قابلنا الدكتور محمد ضاهر، الأستاذ الجامعي المحاضر في جامعة بيروت العربية، الباحث في مجال الذكاء الاصطناعي والأمن السيبراني ومشروع التوأمة الرقمية للسيارات ذاتية القيادة مع مختبرات Cristal بجامعة ليل الفرنسية.
المؤشر العالمي للذكاء الاصطناعي.. ما ترتيب الدول العربية؟
أصدر موقع "تورتواز ميديا" لعام 2023، المؤشر العالمي للذكاء الاصطناعي الذي يصنف فيه 62 دولة حسب قدراتها في هذا المجال الذي حقق هذا العام قفزة هائلة إلى الأمام.
يقول لـ"ارفع صوتك" إن "الفكرة تكمن دائما في كمية المعلومات المتوفرة، وإذا ما أخذنا على سبيل المثال محرك البحث (غوغل)، نلاحظ أن المصادر الموجودة باللغة الإنجليزية تفوق ٩٠٪ من مجموعة المصادر في العالم، وبالتالي هذا ما يفسر امتلاكه للكثير من الإجابات والمراجع والأرشيف الغني حول أي موضوع".
ويضيف: "هذا ما يفسر أيضا الدقة والسرعة في منح الإجابات المفصلة. أما في حالة اللغة العربية، غالبا ما تكون المراجع قليلة، والأمر شبيه بالبحث عن معلومة في كتب باللغة العربية، ولكن العائق هو عدم توفر الكثير من الكتب، فنضطر للبحث أكثر ومن الممكن أن نجد المعلومة أو العكس، أو قد نقع على معلومات غير موسعة، وهذا ما يؤثر على عناصر أخرى كالدقة في المعلومات وسرعة التسليم وسواها".
ويتابع ظاهر: "يعود ذلك إلى عدة أسباب أبرزها، كمية البيانات المتاحة للتدريب على اللغة العربية مقارنة بالإنجليزية. موديل اللغة دُرِب أساسًا بشكل رئيسي على اللغة الإنجليزية، وقد يقدم أداء أفضل في فهم وإنتاج النصوص بالإنجليزية. بالإضافة إلى ذلك، يمكن أن يؤدي نقص البيانات إلى انحياز في تطوير الذكاء الاصطناعي نحو اللغات التي تمتلك كميات أكبر من البيانات".
المشهد المستقبلي
ولكن على الرغم من التحديات، يبدو أن الأدوات المتاحة تفتح آفاقا واعدة، حيث تعكف مؤسسات كبيرة على تصميم نماذج لغوية كبيرة، ومن الأمثلة على ذلك مركز "Inception" الذي أطلق في أكتوبر 2023 أداة "جيس" في الإمارات، والتي أنشئت بالتعاون بين جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI) في أبوظبي، وشركة "Cerebras Systems"، ومقرّها "سيليكون فالي".
ويتضمن النموذج تدريبا على 13 مليار لمجموعة بيانات فريدة مكونة من 116 مليار رمز عربي، مصمم لالتقاط التعقيد والفروق الدقيقة وثراء اللغة العربية، بالإضافة إلى 279 مليار رمز للكلمات الإنجليزية، بهدف مضاعفة فعالية النموذج من خلال النقل بين اللغات.
يرى قصقص أن "هذا النموذج واعد لناحية الدمج في تطبيقات تولد الردود باللغة العربية من ضمن لغات أخرى، بالإضافة إلى التفاعل على مستوى النصائح والتوصيات والترجمات وسواها من الخدمات التي يقدمها الذكاء الاصطناعي".
من جهته يدعو الدكتور ظاهر، الناطقين باللغة العربية من باحثين وداعمين لإثراء المراجع والمعلومات المتاحة على الشبكة باللغة العربية.
ويختم قائلا: "لا بد من التشجيع على البحث والابتكار. يمكن أن تحفز زيادة البيانات باللغة العربية الباحثين والمبتكرين في المنطقة على تطوير حلول جديدة وابتكارات في مجال الذكاء الاصطناعي، مما يعزز التقدم التكنولوجي على أمل أن يسمح ذلك بالاستعاضة عن عدم المشاركة في التطوير بالمشاركة في التدريب".
المصدر: وكالة بغداد اليوم
كلمات دلالية: الذکاء الاصطناعی باللغة العربیة اللغة العربیة التی ت
إقرأ أيضاً:
«جونا عربي».. شعار «أيام العربية» ينبض بالحياة ببرنامج حافل
أبوظبي (الاتحاد)
كشف مركز أبوظبي للغة العربية اليوم عن برنامجه الكامل للدورة الثالثة من مهرجان «أيام العربية» الممتد لثلاثة أيام، محتفياً باللغة العربية وحيويتها وصلتها بالواقع المعاصر، فمن 13 إلى 15 ديسمبر 2025، تتحوّل منارة السعديات إلى فضاءٍ نابضٍ بالموسيقى والسينما وفنون السرد والتجارب التفاعلية، تحت شعار يتماهى مع روح الشباب هو «جونا عربي».وتقدم دورة عام 2025 أوسع برنامج لمهرجان «أيام العربية» حتى الآن، إذ يشهد عروضاً موسيقية تُقدم للمرة الأولى، وورش عمل للتطوير المهني، ومساحات مخصّصة للشباب والعائلات، مسلطاً الضوء على الدور المحوري لأبوظبي باعتبارها منصة عالمية للغة العربية والثقافة، بالتزامن مع اليوم العالمي للغة العربية الذي تحتفي به اليونسكو في 18 ديسمبر.
وقال الدكتور علي بن تميم، رئيس مركز أبوظبي للغة العربية: «إن مهرجان أيام العربية أكثر من مجرد احتفالية، إنه برنامج حي، يستفيد من مفهوم الصناعات الإبداعية، ليجعل اللغة نابضة بالحياة». وأضاف: «تدعو دورة هذا العام الجمهور إلى تذوق جماليات اللغة العربية بالحواس، رؤيتها، وسماعها، والتفاعل معها عبر الابتكارات في العلوم، والفنون، مع عناية خاصة بفئة الشباب، وابتكارات العالم الرقمي، تعزيزاً لرسالة شعار اليونسكو لاحتفالات هذا العام باليوم العالمي للغة العربية «آفاق مبتكرة للغة العربية: سياسات وممارسات ترسم مستقبلاً لغوياً أكثر شمولاً»، وتأكيداً لرسالة مركز أبوظبي للغة العربية بأن اللغة ليست إرثاً فحسب، بل قوة إبداعية متجددة».
عبر العروض الموسيقية والحوارات الثقافية الثرية، يصطحب المهرجان خلال أيامه الثلاث زواره في رحلة من الأمسيات الغنائية يحييها كل من فؤاد عبد الواحد، ورحمة رياض، وفرقة كايروكي. فيما تشهد الليلة الختامية احتفاء خاصاً بفن الموشحات، بمشاركة لينا شاماميان، وريما خشيش، وزينة عماد.
وضمن فقرتها الفنية، ستقدم خشيش ألبومها الجديد «يا من إذا» تكريماً للشاعر والموسيقار المصري فؤاد عبد المجيد، إذ يشهد الألبوم عرضه الحي الأول، وإطلاقه الرسمي على مسرح المهرجان بعد إصداره الرقمي العالمي.
جلسات حوارية
تستضيف قاعة المهرجان يومياً جلسات حوارية تستكشف عمق التعبير الثقافي العربي وتطوره، إذ تُفتتح فعاليات اليوم الأول بجلسة تحمل عنوان «النغمة والقصيدة: التراث مصدراً للإبداع المعاصر»، تتناول العلاقة الراسخة بين الموسيقى والشعر، والأساليب التي يواصل بها التراث الثقافي العربي التأثير في الممارسات الإبداعية الحديثة. وتجمع الجلسة رؤى كل من لينا شماميان، والباحث والشاعر الدكتور مهدي منصور.أما اليوم الثاني فيتضمن جلسة بعنوان «الشباب وصناعة المحتوى العربي»، بمشاركة المخرجين ماجد الزبيدي، وندى جاهد، يستعرضان خلالها تجربتهما في دخول عالم السينما، والدروس التي اكتسباها خلال إخراج أفلامهما.
يختتم المهرجان فعالياته في اليوم الأخير، بالشراكة مع مجموعة أبوظبي للثقافة والفنون، بجلسة بعنوان «أصوات وجماليات: العربية مصدراً للإلهام»، تسلط الضوء على دور اللغة العربية بوصفها محدداً للهوية، وأساساً للتعبير الأدبي والفني. ويشارك في الجلسة كل من المؤلف الموسيقي إيهاب درويش رئيس جمعية الموسيقيين الإماراتيين، والناقدة الأدبية مريم الهاشمي، والشاعر عبدالرحمن الحميري، الفائز بمسابقة «أمير الشعراء» لعام 2025.
رؤية معاصرة
وفي دورته الثالثة، تعود جلسات «الحكايات حول موقدة النار» برؤية معاصرة تعيد سرد التقاليد العربية، حيث تلتقي الحكايات الكلاسيكية بفنون السرد الحديث، والموسيقى، والشعر ضمن أجواء رائعة في الهواء الطلق. ويشارك في الجلسات كلٌ من الفنان فايز السعيد، والشاعر علي الخوَّار، وعازف العود عبدالعزيز المدني، وعازف الناي ناصر أمير، إلى جانب خبير الخيل العالمي علي العامري.
وانطلاقاً من رسالته الثقافية، يستضيف المهرجان، بالتعاون مع جامعة نيويورك أبوظبي، مؤتمراً بعنوان «الذكاء الاصطناعي وتعليم اللغة العربية»، بهدف تمكين معلمي اللغة العربية، ودعم تطوير نماذج مبتكرة للمناهج الدراسية المدعومة بالذكاء الاصطناعي. كما توفّر الدورة التدريبية للسرد القصصي المقدمة من (سي إن إن بالعربية) فرصةً للمواهب الناشئة من صناع المحتوى لتعزيز قدراتهم في السرد ومهارات الإنتاج الرقمي.
تجارب تفاعلية
ويقدم المهرجان أنشطة متنوعة مُصممة لتناسب جميع الأعمار، مع تجارب تفاعلية، وجدار غرافيتي للرسم الحي، وورش عمل حول كيفية توظيف وسائل التواصل الاجتماعي لبناء مسارات مهنية إبداعية. إضافة إلى عرض باقة مختارة من الأفلام العربية لصناع أفلام موهوبين، يقدمها استوديو الفيلم العربي، إحدى مبادرات المختبر الإبداعي، ذراع تطوير المواهب لهيئة الإعلام الإبداعي في أبوظبي، علاوة على ذلك، يتضمن البرنامج مجموعة من الأنشطة المناسبة للعائلات تتضمن مسرح الدمى والجوقة العربية، ومجموعة متنوعة من ألعاب الطاولة التقليدية.