Apple وNVIDIA وAnthropic تستخدم نصوص يوتيوب دون إذن
تاريخ النشر: 18th, July 2024 GMT
وبحسب ما ورد استخدمت Apple وNVIDIA وAnthropic نصوص YouTube دون إذن لتدريب نماذج الذكاء الاصطناعي
توصل تحقيق جديد أجرته Proof News إلى أن بعض أكبر شركات التكنولوجيا في العالم قامت بتدريب نماذج الذكاء الاصطناعي الخاصة بها على مجموعة بيانات تضمنت نصوصًا لأكثر من 173000 مقطع فيديو على YouTube دون إذن.
تحتوي مجموعة البيانات، التي أنشأتها شركة غير ربحية تدعى EleutherAI، على نصوص من مقاطع فيديو YouTube من أكثر من 48000 قناة واستخدمتها Apple وNVIDIA وAnthropic من بين شركات أخرى.
لا تتضمن مجموعة البيانات أي مقاطع فيديو أو صور من YouTube، ولكنها تحتوي على نصوص فيديو من أكبر منشئي المنصة بما في ذلك Marques Brownlee وMrBeast، بالإضافة إلى ناشري الأخبار الكبار مثل The New York Times، وBBC، وABC News. تعد الترجمات من مقاطع الفيديو التابعة لشركة Engadget أيضًا جزءًا من مجموعة البيانات.
نشر براونلي على موقع X: "لقد حصلت شركة Apple على بيانات الذكاء الاصطناعي الخاص بها من عدة شركات". وأضاف: "قامت إحدى هذه الشركات باستخلاص الكثير من البيانات/النصوص من مقاطع الفيديو على موقع YouTube، بما في ذلك مقاطع الفيديو الخاصة بي". "ستكون هذه مشكلة متطورة لفترة طويلة."
صرح متحدث باسم Google لـ Engadget أن التعليقات السابقة التي أدلى بها الرئيس التنفيذي لشركة YouTube، نيل موهان، والتي قال فيها إن الشركات التي تستخدم بيانات YouTube لتدريب نماذج الذكاء الاصطناعي ستنتهك شروط وخدمة المنصة لا تزال قائمة. ولم تستجب شركات Apple وNVIDIA وAnthropic وEleutherAI لطلب التعليق من Engadget.
حتى الآن، لم تكن شركات الذكاء الاصطناعي شفافة بشأن البيانات المستخدمة لتدريب نماذجها. في وقت سابق من هذا الشهر، انتقد الفنانون والمصورون شركة آبل لفشلها في الكشف عن مصدر بيانات التدريب الخاصة بشركة Apple Intelligence، وهي الشركة التي تدور حول الذكاء الاصطناعي التوليدي القادم إلى ملايين أجهزة Apple هذا العام.
يُعد موقع YouTube، وهو أكبر مستودع لمقاطع الفيديو في العالم، على وجه الخصوص، منجم ذهب ليس فقط للنصوص الصوتية ولكن أيضًا للصوت والفيديو والصور، مما يجعله مجموعة بيانات جذابة لتدريب نماذج الذكاء الاصطناعي. في وقت سابق من هذا العام، تهربت ميرا موراتي، كبيرة مسؤولي التكنولوجيا في OpenAI، من أسئلة صحيفة وول ستريت جورنال حول ما إذا كانت الشركة تستخدم مقاطع فيديو YouTube لتدريب Sora، أداة توليد الفيديو المرتقبة باستخدام الذكاء الاصطناعي في OpenAI. وقال موراتي في ذلك الوقت: "لن أخوض في تفاصيل البيانات التي تم استخدامها، لكنها كانت متاحة للعامة أو بيانات مرخصة". قال الرئيس التنفيذي لشركة Alphabet، ساندر بيتشاي، أيضًا إن الشركات التي تستخدم البيانات من YouTube لتدريب نماذج الذكاء الاصطناعي الخاصة بها ستنتهك شروط خدمة النظام الأساسي.
إذا كنت تريد معرفة ما إذا كانت الترجمات من مقاطع الفيديو الخاصة بك على YouTube أو من قنواتك المفضلة جزءًا من مجموعة البيانات، فتوجه إلى أداة البحث في Proof News.
المصدر: بوابة الوفد
كلمات دلالية: لتدریب نماذج الذکاء الاصطناعی مجموعة البیانات مقاطع الفیدیو من مقاطع
إقرأ أيضاً:
هل يخفي الذكاء الاصطناعي عنصرية خلف خوارزمياته الذكية؟
مؤيد الزعبي
بما أننا مقبلون على مرحلة جديدة من استخدامات الذكاء الاصطناعي وجعله قادرًا على اتخاذ القرارات بدلًا عنَّا يبرز سؤال مهم؛ هل سيصبح الذكاء الاصطناعي بوابتنا نحو مجتمع أكثر عدلًا وإنصافًا؟ أم أنه سيعيد إنتاج تحيزاتنا البشرية في قالب رقمي أنيق؟ بل الأخطر من ذلك: هل سيغدو الذكاء الاصطناعي أداة عصرية تمارس من خلالها العنصرية بشكل غير مُعلن؟
قد تحب- عزيزي القارئ- تصديق أن هذه الأنظمة "ذكية" بما يكفي لتكون حيادية، لكن الحقيقة التي تكشفها الدراسات أكثر تعقيدًا؛ فالذكاء الاصطناعي في جوهره يتغذى على بياناتنا وتاريخنا، وعلى ما فينا من تحامل وتمييز وعنصرية، وبالتالي فإن السؤال الحقيقي لا يتعلق فقط بقدرة هذه الأنظمة على اتخاذ قرارات عادلة، بل بمدى قدرتنا نحن على برمجتها لتتجاوز عيوبنا وتاريخنا العنصري، ولهذا في هذا المقال نقترب من هذه المنطقة الرمادية، حيث تتقاطع الخوارزميات مع العدالة، وحيث قد تكون التقنية المنقذ أو المجرم المتخفي.
لنقرّب الفكرة بمثال واقعي: تخيّل شركة تستخدم الذكاء الاصطناعي لفرز السير الذاتية واختيار المتقدمين للوظائف. إذا كانت خوارزميات هذا النظام مبنية على بيانات تحمل انحيازًا ضد جنس أو لون أو جنسية معينة، فقد يستبعد المرشحين تلقائيًا بناءً على تلك التحيزات. وهذا ليس ضربًا من الخيال؛ فقد وجدت دراسة حديثة أجرتها جامعة واشنطن (أكتوبر 2024) أن نماذج لغوية كبيرة أظهرت تفضيلًا واضحًا لأسماء تدلّ على أصحاب البشرة البيضاء بنسبة 85%، مقابل 11% فقط لأسماء مرتبطة بالنساء، و0% لأسماء تعود لأشخاص من ذوي البشرة السوداء، تُظهر هذه الأرقام المقلقة كيف أن خوارزميات الذكاء الاصطناعي، والتي تستخدمها نحو 99% من شركات "فورتشن 500"، يمكن أن تؤثر سلبًا على فرص ملايين الأشخاص الباحثين عن عمل، لا لسبب سوى أنهم وُلدوا بهوية مختلفة، أي أن تحيّز هذه الأنظمة يمكن أن يمس ملايين الباحثين عن العمل.
الأمر يزداد خطورة عند الحديث عن أنظمة التعرف على الوجوه، والتي تُستخدم حاليًا في تعقب المجرمين ومراقبة الأفراد. دراسات عديدة أثبتت أن هذه الأنظمة تخطئ بنسبة تصل إلى 34% عند التعامل مع النساء ذوات البشرة الداكنة، كما تُسجَّل أخطاء في التعرف على الوجوه الآسيوية، ما قد يؤدي إلى اعتقالات خاطئة أو مراقبة غير مبررة لأشخاص أبرياء، فقط لأن الخوارزمية لم تتعلم بشكل عادل، وتخيل الآن كيف سيكون الأمر عندما يدخل الذكاء الاصطناعي- بكل تحيزاته- إلى قاعات المحاكم، أو إلى أنظمة القضاء الإلكترونية، ليصدر أحكامًا أو يوصي بعقوبات مشددة، وحينها بدلًا من أن نصل لقضاء عادل سنصل لعدالة مغلفة بواجهة من الحياد الزائف.
ولننتقل إلى السيناريو الأكثر رعبًا: الذكاء الاصطناعي في المجال العسكري. ما الذي قد يحدث إذا تم برمجة أنظمة قتالية لتحديد "العدو" بناءً على لون بشرة أو جنسية؟ من يتحمل المسؤولية حين ترتكب هذه الأنظمة مجازر على أساس تحيز مبرمج مسبقًا؟ تصبح هذه الأنظمة أداة للقتل بعنصرية عقل إلكتروني، ومن هنا ستتفاقم العنصرية، وستصبح هذه الأنظمة بلا شك أداة لقتل كل ما تراه عدوًا لها ليأتي اليوم الذي تجدنا فيه نحن البشر ألذ أعدائها.
في قطاع الرعاية الصحية أيضًا يمكن للذكاء الاصطناعي أن يكون عنصريًا خصوصًا لو تم برمجتها لتتحكم بمستحقي الدعم الصحي أو حتى استخدامها في أنظمة حجز مواعيد العمليات، فلو وجد أي عنصرية بهذه الأنظمة؛ فبالطبع ستعطي الأولوية لأصحاب بشرة معينة أو جنسية معينة مما سيحرم الكثيرين من الوصول للعلاج في الوقت المناسب.
حتى نكون منصفين هنا نحتاج إلى تمييز دقيق بين نوعين من عنصرية الذكاء الاصطناعي: العنصرية المقصودة: الناتجة عن برمجة متعمدة تخدم مصالح أو توجهات محددة، والعنصرية غير المقصودة: الناتجة عن تغذية الأنظمة ببيانات غير عادلة أو تمثل واقعًا عنصريًا، فتُصبح الخوارزميات انعكاسًا له.
وأيضًا هناك مشكلة مهمة يجب معالجتها فلو عدنا لموضوع الرعاية الصحية؛ فلو قمنا بإدخال بيانات المرضى على هذه الأنظمة وكان حجم البيانات لفئة معينة أكثر من فئة أخرى فربما يعالج الذكاء الاصطناعي هذا الأمر على أن فئة معينة لا تحتاج للعلاج أو تحتاج لرعاية صحية أقل من غيرها وبالتالي يستثنيها من علاجات معينة أو مطاعيم معينة مستقبلًا، ولهذا يجب أن نعمل على تنقيح بيناتنا من العنصرية قدر الإمكان لتجنب تفاقم الأزمة مستقبلا.
يجب ألا نعتقد أبدًا بأن الذكاء الاصطناعي سيكون منصفًا لمجرد أنه آلة لا تفاضل شيء على شيء، فهذا سيمكن الصورة النمطية الموجودة حاليًا في مجتمعاتنا، فالذكاء الاصطناعي تقنية مازالت عمياء وليست واعية بما يكفي لتميز أية التمييز وتحذفه من برمجياتها، إنما تأخذ الأنماط الموجودة وتبني عليها، وسنحتاج وقت أطول لمعالجة هذه الفجوة كلما مضى الوقت.
إذا سألتني عزيزي القارئ ما هي الحلول الممكنة نحو ذكاء اصطناعي عادل وشامل، فالحلول كثيرة أهمها أن نوجد أدوات ذكاء اصطناعي قادرة على إيجاد العنصرية وتبدأ بمعالجتها واستثنائها في خوارزمياتها، وهذه مسؤولية الشركات الكبرى التي تبني نماذج الذكاء الاصطناعي، وثانيًا يجب أن نطور أنظمة ذكاء اصطناعي مبنية على العنصرية فهذه الأنظمة ستطور من نفسها وستكون عدوة للبشرية في قادم الأيام، أيضًا يجب أن يكون هناك تنويع في البيانات فكلما انعكس التنوع في البيانات والتصميم، كلما انخفضت احتمالية انتشار النتائج العنصرية وحققنا الإنصاف المطلوب.
في النهاية يجب القول إن الذكاء الاصطناعي ليس عدوًا بالضرورة، لكنه قد يكون كذلك إذا تركناه يتغذّى على أسوأ ما فينا وأقصد هنا العنصرية.
رابط مختصر