"لم أعط الإذن": هل يهتم مؤيدو الذكاء الاصطناعي بانتهاكات قانون البيانات؟

[ad_1]

يمكن لأنظمة الذكاء الاصطناعي المتطورة أن تساعدك على الهروب من غرامة وقوف السيارات، أو كتابة مقال أكاديمي، أو خداعك للاعتقاد بأن البابا فرانسيس هو مصمم أزياء. لكن المكتبات الافتراضية التي تقف وراء هذه التكنولوجيا المذهلة واسعة النطاق، وهناك مخاوف من أنها تعمل بشكل ينتهك البيانات الشخصية وقوانين حقوق الطبع والنشر.

من المرجح أن تحتوي مجموعات البيانات الهائلة المستخدمة لتدريب أحدث جيل من أنظمة الذكاء الاصطناعي، مثل تلك التي تقف وراء ChatGPT وStable Diffusion، على مليارات الصور المستخرجة من الإنترنت، وملايين الكتب الإلكترونية المقرصنة، وكامل إجراءات 16 عامًا من البرلمان الأوروبي و كامل ويكيبيديا باللغة الإنجليزية.

لكن شهية الصناعة النهمة للبيانات الضخمة بدأت تسبب مشاكل، حيث يقوم المنظمون والمحاكم في جميع أنحاء العالم باتخاذ إجراءات صارمة ضد الباحثين الذين يبحثون عن المحتوى دون موافقة أو إشعار. ردًا على ذلك، تكافح مختبرات الذكاء الاصطناعي للحفاظ على سرية مجموعات البيانات الخاصة بها، أو حتى تحدي الجهات التنظيمية لطرح هذه القضية.

في إيطاليا، تم حظر ChatGPT من العمل بعد أن قالت هيئة حماية البيانات في البلاد إنه لا يوجد أساس قانوني لتبرير جمع البيانات الشخصية و”تخزينها على نطاق واسع” من أجل تدريب GPT AI. وفي يوم الثلاثاء، حذت مفوضة الخصوصية الكندية حذوها بإجراء تحقيق في الشركة ردًا على شكوى تزعم “جمع المعلومات الشخصية واستخدامها والكشف عنها دون موافقة”.

وأعربت هيئة مراقبة البيانات البريطانية عن مخاوفها الخاصة. قال ستيفن ألموند، مدير التكنولوجيا والابتكار في مكتب مفوض المعلومات: “لا يزال قانون حماية البيانات ساريًا عندما تأتي المعلومات الشخصية التي تقوم بمعالجتها من مصادر يمكن الوصول إليها بشكل عام”.

يقول مايكل وولدريدج، أستاذ علوم الكمبيوتر في جامعة أكسفورد، إن “نماذج اللغة الكبيرة” (LLMs)، مثل تلك التي تدعم ChatGPT من OpenAI، وBard من Google، تجمع كميات هائلة من البيانات.

“وهذا يشمل شبكة الإنترنت العالمية بأكملها – كل شيء. يقول: “يتم اتباع كل رابط في كل صفحة، ويتم اتباع كل رابط في تلك الصفحات… في هذه الكمية التي لا يمكن تصورها من البيانات، من المحتمل أن يكون هناك الكثير من البيانات عنك وعني”، مضيفًا أن التعليقات حول شخص ما وعمله يمكن أيضًا أن تكون يتم جمعها من قبل LLM. “ولا يتم تخزينها في قاعدة بيانات كبيرة في مكان ما – ولا يمكننا أن ننظر لنرى بالضبط ما هي المعلومات الموجودة عني. وكل ذلك مدفون في شبكات عصبية هائلة ومبهمة».

يقول وولدريدج إن حقوق الطبع والنشر هي “عاصفة قادمة” لشركات الذكاء الاصطناعي. من المحتمل أن يكون حاملو شهادات LLM قد تمكنوا من الوصول إلى المواد المحمية بحقوق الطبع والنشر، مثل المقالات الإخبارية. في الواقع، يستشهد برنامج الدردشة الآلي المدعوم من GPT-4 والمرتبط بمحرك بحث Microsoft Bing بالمواقع الإخبارية في إجاباته. يقول: “لم أعط إذنًا صريحًا لاستخدام أعمالي كبيانات تدريب، لكن من المؤكد تقريبًا أنه تم ذلك، وهي تساهم الآن في ما تعرفه هذه النماذج”.

“يشعر العديد من الفنانين بقلق بالغ من أن سبل عيشهم معرضة للخطر بسبب الذكاء الاصطناعي التوليدي. ويضيف: نتوقع رؤية معارك قانونية.

وقد ظهرت الدعاوى القضائية بالفعل، حيث رفعت شركة الصور الفوتوغرافية Getty Images دعوى قضائية ضد الشركة البريطانية الناشئة Stability AI – الشركة التي تقف وراء مولد الصور AI Stable Diffusion – بعد أن زعمت أن شركة توليد الصور انتهكت حقوق الطبع والنشر باستخدام ملايين صور Getty غير المرخصة لتدريب نظامها. . في الولايات المتحدة، رفعت مجموعة من الفنانين دعوى قضائية ضد شركة Midjourney and Stability AI في دعوى قضائية تزعم أن الشركتين “انتهكتا حقوق ملايين الفنانين” في تطوير منتجاتهما من خلال استخدام أعمال الفنانين دون إذنهم.

رسم تخطيطي لكريس كاشتانوفا قام الفنان بإدخاله في برنامج الذكاء الاصطناعي Stable Diffusion وتحويله إلى الصورة الناتجة باستخدام المطالبات النصية. تصوير: كريس كاشتانوفا – رويترز

من أجل تحقيق الاستقرار، ستقوم شركة Stable Diffusion أحيانًا بإصدار صور بها علامة مائية لـ Getty Images سليمة، والتي أدرجت وكالة التصوير الفوتوغرافي أمثلة عليها في الدعوى القضائية التي رفعتها. وفي يناير/كانون الثاني، تمكن الباحثون في جوجل من حث نظام Stable Diffusion على إعادة إنشاء واحدة من الصور غير المرخصة التي تم تدريبه عليها بشكل شبه مثالي، وهي صورة للمبشر الأمريكي آن جراهام لوتز.

تتعرقل الدعاوى القضائية المتعلقة بحقوق الطبع والنشر والإجراءات التنظيمية ضد OpenAI بسبب السرية المطلقة للشركة فيما يتعلق ببيانات التدريب الخاصة بها. وردًا على الحظر الإيطالي، قال سام ألتمان، الرئيس التنفيذي لشركة OpenAI، التي طورت ChatGPT: “نعتقد أننا نتبع جميع قوانين الخصوصية”. لكن الشركة رفضت مشاركة أي معلومات حول البيانات المستخدمة لتدريب GPT-4، وهو أحدث إصدار من التكنولوجيا الأساسية التي تعمل على تشغيل ChatGPT.

حتى في “تقريرها الفني” الذي يصف الذكاء الاصطناعي، تقول الشركة باقتضاب إنها تم تدريبها “باستخدام كل من البيانات المتاحة للجمهور (مثل بيانات الإنترنت) والبيانات المرخصة من مقدمي خدمات الطرف الثالث”. وتقول إن المزيد من المعلومات مخفية بسبب “المشهد التنافسي والتداعيات المتعلقة بالسلامة للنماذج واسعة النطاق مثل GPT-4”.

ويأخذ آخرون وجهة نظر معاكسة. يصف EleutherAI نفسه بأنه “مختبر أبحاث غير ربحي للذكاء الاصطناعي”، وتم تأسيسه في عام 2020 بهدف إعادة إنشاء GPT-3 وإطلاقه للجمهور. ولتحقيق هذه الغاية، قامت المجموعة بتجميع مجموعة Pile، وهي عبارة عن مجموعة من مجموعات البيانات يبلغ حجمها 825 جيجابايت تم جمعها من كل ركن من أركان الإنترنت. وهي تتضمن 100 غيغابايت من الكتب الإلكترونية المأخوذة من موقع القراصنة bibliotik، و100 غيغابايت أخرى من أكواد الكمبيوتر المأخوذة من جيثب، ومجموعة من 228 غيغابايت من المواقع التي تم جمعها عبر الإنترنت منذ عام 2008 ــ وكل ذلك، كما تعترف المجموعة، دون موافقة المؤلفين المعنيين.

تخطي ترويج النشرة الإخبارية السابقة

يغوص Alex Hern الأسبوعي في كيفية تشكيل التكنولوجيا لحياتنا

“”، “newsletterId”: “tech-scape”، “successDescription”: “الغوص الأسبوعي الذي يقدمه Alex Hern حول كيفية تشكيل التكنولوجيا لحياتنا”}” config=”{“renderingTarget”: “Web”، “darkModeAvailable”:false} “>إشعار الخصوصية: قد تحتوي النشرات الإخبارية على معلومات حول المؤسسات الخيرية والإعلانات عبر الإنترنت والمحتوى الممول من أطراف خارجية. لمزيد من المعلومات، انظر سياسة الخصوصية الخاصة بنا. نحن نستخدم Google reCaptcha لحماية موقعنا الإلكتروني وتنطبق سياسة خصوصية Google وشروط الخدمة.

يقول إليوثر إن مجموعات البيانات الموجودة في موقع “ذا بايل” تمت مشاركتها على نطاق واسع بالفعل، لدرجة أن تجميعها “لا يشكل ضررًا متزايدًا بشكل كبير”. لكن المجموعة لا تتحمل المخاطرة القانونية باستضافة البيانات مباشرة، وبدلاً من ذلك تلجأ إلى مجموعة من “عشاق البيانات” المجهولين تسمى “العين”، والتي تتمثل سياسة إزالة حقوق الطبع والنشر الخاصة بها في مقطع فيديو لجوقة من النساء الملبسات يتظاهرن باستمناء أعضائهن الوهمية بينما الغناء.

بعض المعلومات التي تنتجها برامج الدردشة الآلية كانت أيضًا خاطئة. اتهم موقع ChatGPT زورًا أستاذ القانون الأمريكي، جوناثان تورلي، من جامعة جورج واشنطن، بالتحرش الجنسي بأحد طلابه – نقلاً عن مقال إخباري غير موجود. أشارت الهيئة التنظيمية الإيطالية أيضًا إلى حقيقة أن ردود ChatGPT “لا تتطابق دائمًا مع الظروف الواقعية” و”تتم معالجة البيانات الشخصية غير الدقيقة”.

أظهر تقرير سنوي عن التقدم في مجال الذكاء الاصطناعي أن اللاعبين التجاريين كانوا يهيمنون على الصناعة، على المؤسسات الأكاديمية والحكومات.

وفقا لتقرير مؤشر الذكاء الاصطناعي لعام 2023، الذي جمعته جامعة ستانفورد في كاليفورنيا، كان هناك في العام الماضي 32 نموذجا مهما للتعلم الآلي أنتجتها الصناعة، مقارنة بثلاثة نماذج أنتجتها الأوساط الأكاديمية. حتى عام 2014، كانت معظم النماذج المهمة تأتي من المجال الأكاديمي، ولكن منذ ذلك الحين ارتفعت تكلفة تطوير نماذج الذكاء الاصطناعي، بما في ذلك الموظفين والقدرة الحاسوبية.

وقال التقرير: “في جميع المجالات، أصبحت نماذج اللغات الكبيرة ومتعددة الوسائط أكبر وأكثر تكلفة”. كان التكرار المبكر لـ LLM وراء ChatGPT، والمعروف باسم GPT-2، يحتوي على 1.5 مليار معلمة، مماثلة للخلايا العصبية في الدماغ البشري، وتقدر تكلفة تدريبها بنحو 50 ألف دولار. وبالمقارنة، كان لدى Google PaLM 540 مليار معلمة وتكلف ما يقدر بنحو 8 ملايين دولار.

وقد أثار هذا مخاوف من أن الكيانات التجارية سوف تتخذ نهجا أقل قياسا للمخاطر من المشاريع الأكاديمية أو المدعومة من الحكومة. في الأسبوع الماضي، دعت رسالة كان من بين الموقعين عليها إيلون ماسك والمؤسس المشارك لشركة أبل ستيف وزنياك، إلى وقف فوري لإنشاء “تجارب الذكاء الاصطناعي العملاقة” لمدة ستة أشهر على الأقل. وجاء في الرسالة أن هناك مخاوف من أن شركات التكنولوجيا تعمل على إنشاء “عقول رقمية أكثر قوة” لا يمكن لأحد “فهمها أو التنبؤ بها أو التحكم فيها بشكل موثوق”.

وقال الدكتور أندرو روجويسكي، من معهد الذكاء الاصطناعي المرتكز على الناس في جامعة سري في إنجلترا: “الذكاء الاصطناعي الكبير يعني أن شركات الذكاء الاصطناعي الكبيرة هذه يتم إنشاؤها فقط من قبل شركات كبيرة مدفوعة بالربح، وهو ما يعني للأسف أن مصالحنا كبشر ليست بالضرورة ممثلة بشكل جيد.

وأضاف: “علينا أن نركز جهودنا على جعل الذكاء الاصطناعي أصغر حجما، وأكثر كفاءة، ويتطلب بيانات أقل، وكهرباء أقل، حتى نتمكن من إضفاء الطابع الديمقراطي على الوصول إلى الذكاء الاصطناعي”.

[ad_2]

المصدر

“لم أعط الإذن”: هل يهتم مؤيدو الذكاء الاصطناعي بانتهاكات قانون البيانات؟