ماذا يعني نهج أوروبا تجاه خصوصية البيانات بالنسبة إلى GPT و DALL-E؟
ماذا يعني نهج أوروبا تجاه خصوصية البيانات بالنسبة إلى GPT و DALL-E؟
أدى الانفجار العالمي للذكاء الاصطناعي إلى زيادة الحاجة إلى الفطرة السليمة ، ومنهجية محورها الإنسان للتعامل مع خصوصية البيانات وملكيتها. يقود الطريق اللائحة العامة لحماية البيانات في أوروبا (GDPR) ، ولكن هناك أكثر من مجرد معلومات التعريف الشخصية (PII) على المحك في السوق الحديثة.
ماذا عن البيانات التي ننتجها كمحتوى وفن؟ من المؤكد أنه ليس من القانوني نسخ عمل شخص آخر ثم تقديمه على أنه عملك. لكن هناك أنظمة ذكاء اصطناعي تحاول ذلك كشط أكبر قدر ممكن من المحتوى الذي ينشئه الإنسان من الويب من أجل إنشاء محتوى مشابه.
هل يمكن أن تحمي اللائحة العامة لحماية البيانات أو أي سياسات أخرى تركز على الاتحاد الأوروبي هذا النوع من المحتوى؟ كما اتضح ، مثل معظم الأشياء في عالم التعلم الآلي ، فإنه يعتمد على البيانات.
الخصوصية مقابل الملكية
الغرض الأساسي من اللائحة العامة لحماية البيانات هو حماية المواطنين الأوروبيين من الإجراءات والعواقب الضارة المتعلقة بإساءة استخدام معلوماتهم الخاصة أو إساءة استخدامها أو استغلالها. لا يفيد المواطنين (أو المنظمات) كثيرًا عندما يتعلق الأمر بحماية الملكية الفكرية (IP).
لسوء الحظ ، فإن السياسات واللوائح الموضوعة لحماية الملكية الفكرية ، على حد علمنا ، ليست مجهزة لتغطية تجريف البيانات وإخفاء الهوية. هذا يجعل من الصعب فهم المكان الذي تنطبق عليه اللوائح بالضبط عندما يتعلق الأمر بكشط الويب بحثًا عن محتوى.
تُستخدم هذه التقنيات والبيانات التي تحصل عليها لإنشاء قواعد بيانات ضخمة لاستخدامها في تدريب نماذج الذكاء الاصطناعي الكبيرة مثل أنظمة OpenAI’s GPT-3 و DALL-E 2.
الطريقة الوحيدة لتعليم الذكاء الاصطناعي لتقليد البشر هي تعريضه لبيانات من صنع الإنسان. وكلما زاد عدد البيانات التي تدفعها في نظام الذكاء الاصطناعي ، زادت قوة مخرجاته.
إنه يعمل على النحو التالي: تخيل أنك ترسم صورة لزهرة وتنشرها على منتدى على الإنترنت للفنانين. باستخدام تقنيات الكشط ، يمتص الزي التقني صورتك مع مليارات الآخرين حتى يتمكن من إنشاء مجموعة بيانات ضخمة من الأعمال الفنية. في المرة القادمة التي يطلب فيها شخص ما من الذكاء الاصطناعي إنشاء صورة “زهرة” ، هناك احتمال أكبر من الصفر أن يظهر عملك في تفسير الذكاء الاصطناعي للموجه.
حول ما إذا كان هذا الاستخدام سيبقى سؤالا مفتوحا.
البيانات العامة مقابل معلومات تحديد الهوية الشخصية
في حين يمكن وصف الإشراف التنظيمي للائحة العامة لحماية البيانات (GDPR) بأنه بعيد المدى عندما يتعلق الأمر بحماية المعلومات الخاصة ومنح الأوروبيين الحق في المحو، يبدو أنه لا يفعل الكثير لحماية المحتوى من الكشط. ومع ذلك ، هذا لا يعني أن اللوائح العامة لحماية البيانات (GDPR) وغيرها من لوائح الاتحاد الأوروبي غير فاعلة تمامًا في هذا الصدد.
يتعين على الأفراد والمؤسسات اتباع قواعد محددة للغاية لإلغاء معلومات التعريف الشخصية ، ولا يتعارضوا مع القانون – وهو أمر يمكن أن يصبح مكلفًا للغاية.
على سبيل المثال ، أصبح الأمر شبه مستحيل بالنسبة لشركة Clearview AI ، وهي شركة تبني قواعد بيانات للتعرف على الوجه لتستخدمها الحكومة تجريف بيانات وسائل التواصل الاجتماعي ، لممارسة الأعمال التجارية في أوروبا. أصدرت هيئات رقابة في الاتحاد الأوروبي من سبع دول على الأقل غرامات ضخمة بالفعل أو أوصت بغرامات بسبب رفض الشركة الامتثال للقانون العام لحماية البيانات (GDPR) واللوائح المماثلة.
على الجانب الآخر الكامل من الطيف ، تستخدم شركات مثل Google و OpenAI و Meta ما شابه ذلك كشط البيانات إما بشكل مباشر أو عن طريق الشراء أو استخدام مجموعات البيانات المكسورة للعديد من ممارسات الذكاء الاصطناعي الخاصة بهم دون أي تداعيات. وعلى الرغم من أن شركات التكنولوجيا الكبيرة واجهت نصيبها العادل من الغرامات في أوروبا ، فإن عددًا قليلاً جدًا من المخالفات تضمنت تجريف البيانات.
لماذا لا تحظر القشط؟
قد يبدو القشط ، ظاهريًا ، كممارسة ذات احتمالية كبيرة لإساءة الاستخدام حتى لا تحظرها تمامًا. ومع ذلك ، بالنسبة للعديد من المؤسسات التي تعتمد على الكشط ، فإن البيانات التي يتم الحصول عليها ليست بالضرورة “محتوى” أو “معلومات تحديد الهوية الشخصية” ، ولكنها معلومات يمكن أن تخدم الجمهور.
لقد تواصلنا مع وكالة المملكة المتحدة للتعامل مع خصوصية البيانات ، و مكتب مفوض المعلومات (ICO) ، لمعرفة كيفية تنظيم تقنيات التجريف ومجموعات البيانات على نطاق الإنترنت وفهم سبب أهمية عدم المبالغة في التنظيم.
قال متحدث باسم ICO لـ TNW:
يمكن أن يجلب استخدام المعلومات المتاحة للجمهور العديد من الفوائد ، من البحث إلى تطوير منتجات وخدمات وابتكارات جديدة – بما في ذلك في مجال الذكاء الاصطناعي. ومع ذلك ، عندما تكون هذه المعلومات بيانات شخصية ، فمن المهم أن نفهم أن قانون حماية البيانات ينطبق. هذا هو الحال سواء كانت التقنيات المستخدمة لجمع البيانات تتضمن كشط أو أي شيء آخر.
بمعنى آخر ، يتعلق الأمر بنوع البيانات المستخدمة أكثر من كيفية جمعها.
سواء كنت تنسخ الصور من ملفات تعريف Facebook أو تستخدم التعلم الآلي لكشط الويب بحثًا عن صور مصنفة ، فمن المحتمل أن تتعارض مع القانون العام لحماية البيانات (GDPR) ولوائح الخصوصية الأوروبية الأخرى إذا قمت بإنشاء محرك للتعرف على الوجه دون موافقة الأشخاص الذين توجد وجوههم. قاعدة البيانات الخاصة به.
لكن من المقبول عمومًا التخلص من الإنترنت للحصول على كميات هائلة من البيانات طالما أنك أيضًا إخفاء هويته أو تأكد من عدم وجود معلومات تحديد الهوية الشخصية في مجموعة البيانات.
مزيد من المناطق الرمادية
ومع ذلك ، حتى ضمن حالات الاستخدام المسموح بها ، لا تزال هناك بعض المناطق الرمادية التي تتعلق بالمعلومات الخاصة.
GPT-2 و GPT-3 ، على سبيل المثال معروف بإخراج معلومات تحديد الهوية الشخصية في بعض الأحيان في شكل عناوين وأرقام هواتف وغيرها من المعلومات التي يبدو أنها مخبأة في مجموعاتها عبر مجموعات بيانات تدريبية واسعة النطاق.
هنا ، حيث من الواضح أن الشركة التي تقف وراء GPT-2 و GPT-3 تتخذ خطوات للتخفيف من ذلك ، فإن اللوائح العامة لحماية البيانات (GDPR) واللوائح المماثلة تقوم بعملها.
ببساطة ، يمكننا إما اختيار عدم تدريب نماذج كبيرة للذكاء الاصطناعي أو السماح لشركات التدريب بفرصة استكشاف الحالات المتطورة ومحاولة التخفيف من المخاوف.
ما قد يكون مطلوبًا هو GDUR ، وهو تنظيم عام لاستخدام البيانات ، وهو أمر يمكن أن يقدم إرشادات واضحة حول كيفية استخدام المحتوى الذي ينشئه الإنسان بشكل قانوني في مجموعات البيانات الكبيرة.
على الأقل ، يبدو أن الأمر يستحق إجراء محادثة حول ما إذا كان يجب أن يتمتع المواطنون الأوروبيون بنفس القدر من الحق في إزالة المحتوى الذي ينشئونه من مجموعات البيانات مثل صورهم الشخصية وصور ملفاتهم الشخصية.
في الوقت الحالي ، في المملكة المتحدة وفي جميع أنحاء أوروبا ، يبدو أن الحق في المسح لا يمتد إلا إلى معلومات تحديد الهوية الشخصية الخاصة بنا. أي شيء نضعه على الإنترنت من المحتمل أن ينتهي به الأمر في بعض مجموعات بيانات التدريب الخاصة بالذكاء الاصطناعي.