بيانات التدريب هي البيانات التي يستخدمها مطورو الذكاء الصنعي لتدريب خوارزمية أو نموذج تعلم الآلة للتنبؤ بالنتيجة التي تصميم النموذج للتنبؤ بها أو لتوليد المحتوى المطلوب. تم تصميم أنظمة الذكاء الاصطناعي مثل Google Bard و ChatGPT من OpenAI لإنشاء محتوى من خلال تحليل كمية هائلة من البيانات. يتضمن ذلك الاستفسارات والردود البشرية. ومع ذلك ، فقد أثارت هذه الأنظمة مخاوف مشروعة بشأن الخصوصية. أكدت Google أنها ستستخدم بيانات العملاء فقط بإذن مناسب. ومع ذلك ، فإن مسألة الثقة معقدة عندما يتعلق الأمر بموضوع تدريب الذكاء الاصطناعي.
مقاربة فلسفية في غير مكانها!
هل يمكننا تشبيه الذكاء الصنعي بحيوان مفترس يتم ترويضه و من ثم في لحظة غفلة يفتك بمدربه. حسناً، أعترف أن الفروق كبيرة بين الطرفين. بينما يبدو الذكاء الصنعي كتقنية تستخدم لمحاكاة الذكاء البشري وتنفيذ المهام المعقدة وتحليل البيانات فإن الحيوانات المفترسة لها طرق فريدة للنجاح في الصيد والبقاء على قيد الحياة في البرية. لكن عندما ندخل إلى السيرك إن كان السيرك التقليدي أو سيرك الانترنت الذي تعيش فيه بياناتنا فالمقاربة تصبح أوضح. الذكاء الصناعي يحتاج إلى برمجة وتعلم مستمر للوصول إلى مستوى معين من الأداء. بينما الحيوانات المفترسة فإن من يروضها سيعمل على أن تنسىى غرائزها الطبيعية وصفاتها البيولوجية التي ولدت ميلها الفطري للافتراس. و بدلاً من ذلك سيزرع في سلوكها أن تحيي الجمهور بدل أن تهاجمه. هل شاهدنا الذكاء الصنعي يفترس الإنسان؟ ليس بالمعنى الحرفي للافتراس و لكن بالمعنى الفلسفي كأن يحل مكانه و يلغي ضرورة وجوده.
تدريب الذكاء الصنعي
يتطلب تدريب أنظمة الذكاء الاصطناعي باستخدام البيانات العامة اتباع نهج دقيق ومنظم لضمان أفضل النتائج. حيث يحتاج الباحثون إلى تحديد مجموعات البيانات ذات الصلة التي تتوافق مع الموضوع المقصود في تدريب النظام. لذلك تسمح الاستفادة من مصادر البيانات العامة مثل قواعد البيانات الحكومية المفتوحة أو الأكاديمية أو واجهات برمجة التطبيقات المتاحة للجمهور بدمج نطاق واسع من المعلومات.
بعد ذلك ، يأتي دور معالجة البيانات من خلال إزالة السمات غير ذات الصلة ، حيث يمكن تحسين جودة مجموعة البيانات وفعاليتها. بمجرد اكتمال هذه الخطوة ، تبدأ عملية التدريب من خلال تقنيات. من هذه التقنيات نماذج التعلم تحت الإشراف أو غير الخاضعة للإشراف ، اعتماداً على الهدف. تبدو البنية التحتية الحاسوبية ضرورية في هذه المرحلة بسبب ضخامة مجموعات البيانات العامة المخزنة فيها. كما يجب إجراء تقييم مستمر لنظام الذكاء الاصطناعي لقياس دقته ومعالجة أي تحيزات أو ثغرات قد تنشأ أثناء التدريب. من خلال اعتماد نهج منظم وصارم ، يمكن لأنظمة الذكاء الاصطناعي الاستفادة بشكل فعال من البيانات العامة للتعلم واتخاذ قرارات مستنيرة في السياقات المهنية
غوغل و اخواتها، هل نثق بهم؟
يبدو أن سياسة Google تسمح للشركة باستخدام البيانات المتاحة للجمهور لتدريب نماذج الذكاء الاصطناعي الخاصة بها. ومع ذلك فإن Google أعلنت صراحةً على أنها لا تستخدم أياً من المحتوى الشخصي الخاص بنا.
علاوة على ذلك ، هناك رابط موجود في وثائق Google يؤدي إلى جزء من التزام الخصوصية. في هذا المستند ، تلفت فقرة معينة الانتباه: “فيما يتعلق باستخدام المعلومات المتاحة للجمهور ، تقر Google بإمكانية تحسين نماذج الذكاء الاصطناعي. ومع ذلك ، فإنها تؤكد للمستخدمين أن محتواهم الشخصي غير مدرج في هذه النماذج. وتظل Google ملتزمة بـ التمسك بمعايير الخصوصية وحماية بيانات المستخدم في جميع عملياتها “.
للوهلة الأولى ، قد يميل المرء إلى القول ، نعم ، يمكننا الوثوق بهم لأنهم يذكرون صراحة “أنهم لن يستخدموا بيانات العملاء دون إذن.” ومع ذلك ، من الممكن أن نكون قد منحناهم الإذن عن غير قصد من خلال الموافقة على -تغيير اتفاقية ترخيص المستخدم النهائي (EULA) لمحرّر مستندات Google / Drive.
بالإضافة إلى ذلك ، على الرغم من أن الخصوصية تمثل مصدر قلق كبير للمستخدمين ، فلا يوجد ضمان بأن شركات مثل Google أو iCloud أو OneDrive أو Dropbox ستغير سياساتها لضمان أن يظل أي محتوى مخزّن على أنظمتها الأساسية خاصًا ولا يمكن الوصول إليه.
بمعنى آخر ، قد لا توفر السياسات الحالية ضماناً لخصوصية بيانات المستخدم ، وهناك عدم يقين بشأن ما إذا كانت هذه الشركات ستجري تغييرات لمعالجة هذا القلق في المستقبل. يتضمن تدريب الذكاء الاصطناعي تعليم نظام الذكاء الاصطناعي لفهم البيانات وتفسيرها واكتساب المعرفة منها.
يتيح ذلك للذكاء الاصطناعي اتخاذ قرارات بناءً على المعلومات التي يتلقاها ، وهي عملية تُعرف بالاستدلال Inferencing. لتحقيق تدريب ناجح للذكاء الاصطناعي ، هناك حاجة لثلاثة عناصر حاسمة. أولاً ، يجب أن يكون هناك نموذج ذكاء اصطناعي جيد الإعداد ، والذي يعمل كأساس للنظام. ثانياً، من الضروري وجود قدر كبير من البيانات المتميزة ، مع تعليقات توضيحية دقيقة للمساعدة في التعلم. أخيراً، تعد منصة الحوسبة القوية ضرورية للتعامل مع المتطلبات الحسابية كالمعادلات الرياضية وخوارزميات الكمبيوتر اللازمة لعملية التدريب.
تدريب الذكاء الاصطناعي – واجه مخاوفك
إذا كانت لديك مخاوف بشأن سياسة الخصوصية المحدثة من Google ، فهناك إجراءات يمكنك اتخاذها لحماية بياناتك وخصوصيتك:
- كن حذراً بشأن ما تشاركه: لا تشارك علناً إلا المعلومات التي ليس لديك مشكلة بدخول Google أو أي شركة أخرى إليها واستخدامها.
- استخدم عناصر التحكم في خصوصية Google: ألق نظرة على إعدادات الخصوصية داخل حساب Google الخاص بك. يمكنك اختيار إلغاء الاشتراك في ميزات مثل “نشاط الويب والتطبيقات” و “سجل المواقع” و “الصوت والنشاط الصوتي” لمزيد من التحكم في بياناتك. إذا تم تفعيل نشاط الويب والتطبيق ، فسيتم حفظ عمليات البحث والنشاط من خدمات Google الأخرى في حسابك على Google ، لذلك قد تحصل على تجارب أكثر تخصيصاً مثل عمليات البحث الأسرع والتطبيقات الأكثر فائدة لك وتوصيات المحتوى التي تتوافق مع رغباتك و لكن ذلك قد يكون على حساب الخصوصية بطريقة ما.
- استكشف الخدمات الأخرى: ابحث عن موفري خدمات بديلة لديهم سياسات خصوصية أكثر صرامة. على سبيل المثال ، يمكنك تجربة DuckDuckGo للبحث ، و ProtonMail للبريد الإلكتروني ، و Vimeo لمشاركة الفيديو ، و Brave لتصفح الويب.
- استخدام التصفح الخاص: عند استخدام خدمات Google ، قم بتنشيط وضع التصفح المتخفي incognito أو التصفح الخاص. يساعد هذا في الحد من جمع محفوظات الاستعراض الخاصة بك.
- ابق على اطلاع: قبل استخدام أي موقع ويب أو تطبيق جوال أو خدمة ، تأكد من قراءة سياسات الخصوصية الخاصة بهم وفهمها. كن حذراً مع المنصات التي تشارك بياناتك صراحةً مع Google.
وفي الختام، ما ينطبق على جوجل ينطبق على مايكروسوفت وأي شركة تطلق أو تدير الذكاء الصنعي. لذلك فالوعي بحماية بياناتنا هو الأهم في كل وقت وحين.