بداية، نعتذرمن الشاعر بشار بن برد وهو القائل في مطلع إحدى قصائده: “يا قوم أذني لبعض الحي عاشقة والأذن تعشق قبل العين أحيانا”. شاعرنا كان كفيفاً ولكن بصيرته الشعرية لم تعرف حدوداً أو قيود. ومع استمرار تطور تقنيات الذكاء الاصطناعي، تتطور معها أيضًا أساليب المحتالين الإلكترونيين في خداع كل الحواس ومنها “السمع” التي أشاد الشاعر بقوتها و حساسيتها في تمييز الناس من خلال صوتهم. ولذلك، فمن أخطر الهجمات في السنوات أخيرة هي استخدام ما يُعرف بـ”التزييف الصوتي العميق” (audio-deepfakes) – وهي تقنية تولد مقاطع صوتية صناعية واقعية للغاية مصممة لتقليد أصوات أشخاص حقيقيين. وبينما كانت هذه التقنية تُستخدم في الأصل لأغراض ترفيهية أو إبداعية، أصبحت اليوم أداة خطيرة يستخدمها المجرمون للاحتيال وخداع الأفراد والمؤسسات على حد سواء.
ما هو التزييف الصوتي العميق؟
يُستخدم الذكاء الاصطناعي لتحليل تسجيلات صوتية لشخص معين ومن ثم توليد صوت صناعي يحاكي نبرة ذلك الشخص وطريقة كلامه. ومع تطور النماذج اللغوية العميقة، أصبح بالإمكان إنشاء نسخة صوتية طبق الأصل من شخص ما باستخدام بضع ثوانٍ فقط من صوته المسجَّل. بعد ذلك، يمكن للمحتالين استخدام هذا الصوت المزيف لجعل “الضحية” تقول ما يريد المهاجمون، بأسلوب يبدو واقعياً ومقنعاً.
تؤكد تقارير من شركات أمن سيبراني أن عمليات الاحتيال الصوتي في تزايد مستمر. في إحدى الحوادث الشهيرة، استخدم المحتالون صوتاً مزيّفاً لفتاة في مكالمة مع أمها تزعم فيها أنها قد اختُطفت. وطالب الخاطفون بفدية، في جريمة تُعرف باسم “الاختطاف الافتراضي”. وتُستخدم تقنية التزييف الصوتي العميق في هجمات التصيد الاحتيالي، حيث يتلقى الموظفون مكالمات من “مدير” يطلب بيانات حساسة أو إجراء تحويل مالي فوري.
وتكمن الخطورة في هذا النوع من الاحتيال في الثقة التي يمنحها الناس للأصوات. فالصوت وسيلة تواصل تحمل طابعاً شخصياً وآنياً، وعندما يسمع الإنسان صوت شخص يعرفه — سواء كان أحد أفراد العائلة أو مديراً أو شخصية موثوقة — فإنه غالباً ما يتفاعل و يستجيب دون تردد أو تحقق. ومع تقنيات إخفاء هوية المتصل (Caller ID Spoofing)، تزيد فرص خداع الضحية.
مكالمة من مسؤول أميركي
حذّر مكتب التحقيقات الفدرالي من أن المحتالين ينتحلون شخصية “مسؤولين أمريكيين كبار” باستخدام التزييف العميق كجزء من حملة احتيال كبيرة. ووفقاً لتقرير نشره موقع Theregister ، فإن الحملة مستمرة منذ شهر نيسان، وتستهدف معظم الرسائل مسؤولين حكوميين أمريكيين سابقين وحاليين. يسعى المهاجمون إلى الحصول على تفاصيل تسجيل الدخول للحسابات الرسمية، والتي يستخدمونها بعد ذلك لاختراق أنظمة حكومية أخرى ومحاولة الحصول على معلومات الحسابات المالية.
إذا تلقيت رسالة تدّعي أنها من مسؤول أمريكي رفيع، فلا تفترض أنها حقيقية. أرسلت الجهات الخبيثة رسائل نصية ورسائل صوتية مولدة بالذكاء الاصطناعي -audio deepfakes – وهي تقنيات تُعرف باسم التصيد الاحتيالي. كجزء من خطة الهجوم، يدفع التزييف الصوتي العميق والرسائل النصية القصيرة الضحايا إلى الانتقال إلى منصة رسائل لم يحددها التحذير، وكذلك لم يذكر أي من المسؤولين الحكوميين تم تزييف صوتهم بهذه الطريقة.
تنصح الوكالة متلقي هذه الرسائل أن يعاودوا الاتصال باستخدام الرقم الرسمي للإدارة المعنية، بدلاً من الرقم المقدم. وفي ظل في تقدم المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي إلى درجة أنه يصعب تحديده في كثير من الأحيان، يجب على الضحايا الانتباه إلى أي تلميحات لفظية أو كلمات من غير المحتمل استخدامها عادة في محادثة مع مسؤول، لأن ذلك قد يشير إلى وجود تزييف عميق. وعند الشك في صحة شخص ما يرغب في التواصل معك، من المهم الاتصال بالجهات القانونية للإبلاغ. “
التزييف الصوتي العميق
ازداد استخدام التزييف العميق مع تحسن التكنولوجيا اللازمة لإنشائها وانخفاض التكاليف. في حالتنا، يبدو أن المهاجمين استخدموا الذكاء الاصطناعي في هذه الحالة لمجرد إنشاء رسالة باستخدام عينات صوتية متاحة، بدلاً من استخدام الذكاء الاصطناعي التوليدي لتزييف التفاعلات في الوقت الحقيقي.
وقد استخدم المهاجمون هذا النهج لأكثر من خمس سنوات. إن التكنولوجيا اللازمة لتشغيل مثل هذه الهجمات شائعة جداً ورخيصة لدرجة أنها ناقل سهل للهجوم. كانت مقاطع الفيديو المزيفة العميقة موجودة منذ فترة مماثلة، على الرغم من أنها كانت في البداية أصعب بكثير وأكثر تكلفة للقيام بها بشكل مقنع.
أما التزييف العميق النصي -في الوقت الحقيقي- والذي أصبح شائعاً، فقد أحدث ثورة في عمليات الاحتيال إلى درجة أن المحادثات التي تحتوي على رسائل عشوائية تعرض عليك فرصة للحب أو استثمار في العملات الرقمية بينما الضحايا -في الواقع- يتحدثون إلى جهاز كمبيوتر -مجازاً-.
تظل عمليات التزييف العميق التفاعلية التي يمكنها انتحال شخصية البشر بأصواتهم أصعب وأكثر تكلفة في الإنشاء. زعمت شركة OpenAI العام الماضي أن محركها الصوتي يمكنه إنشاء روبوت دردشة عميقة مزيفة في الوقت الحقيقي، لكن الشركة قيدت الوصول إليه – على الأرجح إما لأنه ليس جيداً جداً أو بسبب المخاطر التي تنتج عنه.
قد يكون التزييف العميق التفاعلي للفيديو التفاعلي ممكناً من الناحية التقنية، فقد ادعى موظف من هونغ كونغ أنه حول 25 مليون دولار إلى الخارج بعد أن خدعه برنامج التزييف العميق و دفعه لإجراء هذا التحويل. ومع ذلك، فإنه -وفق للخبراء- من المستحيل استخدام هذه التكنولوجيا المستخدمة في حادثة هونغ كونغ – المفترضة- دون ميزانية لا تمتلكها سوى حكومة أو شركة متعددة الجنسيات. حالياً، ، من المحتمل أن يتطلب الأمر 30 مليون دولار للقيام بذلك، لذا ربما إذا كنت من وكالة الأمن القومي فإن ذلك ممكن. وفيما عدا ذلك فسيحتاج الأمر وقتاً أطول قبل أن يستخدم صديقك مثل هذه الخدعة معك سبيل المزاح.
الحماية من التزييف الصوتي العميق
يدعوك الخبراء لاتخاذ مجموعة من الإجراءات لتعزيز أمانك بمواجهة التزييف الصوتي العميق. ومنها، لا تستجب مباشرة لأي طلبات مشبوهة، حتى وإن بدا صوت المتصل مألوفاً لديك. أعد الاتصال مع -المتصل المفترض- من خلال رقم موثوق. واتفق مع عائلتك أو فريق عملك على كلمة سر تُستخدم للتحقق في الحالات الطارئة.
وإضافة لما سبق، تجنب نشر تسجيلات طويلة أو شخصية لصوتك في الأماكن العامة قدر الإمكان. كما يجب على الشركات تدريب الموظفين على تقنيات التزييف العميق وأساليب التصيد الجديدة. ومن حسن الحظ أنه يتم استخدام الذكاء الاصطناعي نفسه لاكتشاف الفروق الدقيقة في الصوت وتحديد ما إذا كان مزيفاً. وبالتوازي مع ما سبق، وضعت بعض الدول قوانين لمحاربة استخدام تقنيات تقليد الصوت دون إذن، لكن فرض مثل هذه القوانين لا يزال غير مكتمل، وخصوصاً إذا نفذت هذه الجرائم من خارج الدولة.
كلمة أخيرة
يمثل التزييف العميق الصوتي أحد سمات الجيل الجديد من الجرائم السيبرانية التي تستغل مشاعر الثقة والعاطفة، وتسخّر قوة الذكاء الاصطناعي لخداع الناس بطرق غير مسبوقة. ومع تزايد دقة هذه التقنية وسهولة الوصول إليها، تصبح التوعية واتخاذ الإجراءات الوقائية ضرورة ملحّة. فرغم فوائد الذكاء الاصطناعي، لا بد من تنظيمه وتحديد ضوابط واضحة لاستخدامه.