تهديد يقوّض الثقة.. الذكاء الاصطناعي يمكن “تسميمه”

  • 2025/11/02
  • 11:24 م
من السهل التلاعب بأدوات الذكاء الاصطناعي ما يؤدي إلى ارتكاب أخطاء وتنفيذ أوامر ضارة (كانفا)

من السهل التلاعب بأدوات الذكاء الاصطناعي ما يؤدي إلى ارتكاب أخطاء وتنفيذ أوامر ضارة (كانفا)

enab_get_authors_shortcode

عادة ما ترتبط كلمة “تسمم” بصحة الإنسان أو بالبيئة، غير أن هذا المصطلح بدأ في الآونة الأخيرة يتردد بشكل متزايد في سياق التكنولوجيا الرقمية، من خلال “تسمم الذكاء الاصطناعي” بوصفه تهديدًا يقوّض الثقة في الخوارزميات الذكية.

وحذر باحثون من أن بعض أدوات الذكاء الاصطناعي مثل “تشات جي بي تي” و”جيميناي” يمكن تسميمها، والتلاعب بها لإنتاج محتوى مضلل.

وأوضحت دراسة مشتركة لمعهد أمن الذكاء الاصطناعي البريطاني ومعهد “آلان تورينغ” وشركة “Anthropic” للذكاء الاصطناعي، أن من السهل التلاعب بأدوات الذكاء الاصطناعي واستغلال بعض الثغرات، لتدريبها بشكل متعمد على بيانات كاذبة، والنتيجة أن النموذج يبدأ بارتكاب أخطاء، أو ينفذ أوامر ضارة بطريقة ظاهرة أو سرية.

وتوصل الباحثون إلى هذه النتائج بعد تدريب الأدوات على 250 وثيقة ملوثة ببيانات مغلوطة، تم إدخالها عبر ثغرة خلفية. وبعد التجربة، أنتجت الأدوات نصوصًا مبهمة وغير مفهومة.

وأقلقت هذه النتائج الباحثين، خاصة أن معظم النماذج تدرب على نصوص منشورة على الإنترنت مسبقًا، بما في ذلك المواقع الشخصية والمدونات، ما يجعل أي محتوى يُنشئه أي شخص يدخل ضمن البيانات التي تتدرب عليها.

ولفت باحثون في أمن الذكاء الاصطناعي إلى إن هذه الثغرات تحد من إمكانية استخدام الذكاء الاصطناعي في الأمور الحساسة.

ما تسميم الذكاء الاصطناعي؟

تسميم الذكاء الاصطناعي يُشير إلى عملية تلقين النموذج معلومات خاطئة عمدًا، بهدف إفساد معرفته أو سلوكه، وجعله يقدم إجابات خاطئة أو يرتكب أخطاء معينة، أو يظهر وظائف خبيثة مخفية.

تقنيًا، يسمى هذا النوع من التلاعب “تسميم البيانات” إذا حدث في أثناء التدريب، و”تسميم النموذج” عندما يجري التغيير على النموذج بعد اكتمال التدريب، وغالبًا ما تتداخل الطريقتان لأن البيانات المسمَمة تؤدي في النهاية إلى تغيير سلوك النموذج بطريقة مشابهة.

يميّز الخبراء نوعين رئيسين من الهجمات:

• هجمات مُستهدفة (باب خلفي): تهدف إلى إجبار النموذج على الاستجابة بطريقة محددة عند وجود محفز سري، مثلًا “حقن” أمر خفي يجعل النموذج يرد بإهانة عند ظهور كلمة نادرة في الاستعلام.
• هجمات غير مباشرة (تسميم المحتوى): لا تعتمد على محفزات خفية بقدر اعتمادها على ملء بيانات التدريب بمعلومات زائفة، نظرًا إلى اعتماد النماذج على كميات هائلة من المحتوى المتاح على الإنترنت.

يستطيع المهاجم إنشاء مواقع ومصادر متعددة تروّج معلومة خاطئة، مثل “سلطة الخس تعالج مرض السرطان”، وإذا استُخدمت هذه المصادر في التدريب، فسيبدأ النموذج بتكرار تلك الأكاذيب بصفتها حقائق.

المخاطر العملية

أثبتت الدراسات الأخيرة، أن “تسميم البيانات” يمثل خطرًا واقعيًا وقابلًا للتنفيذ على نطاق واسع، وله عواقب خطرة تتعدّى نشر المعلومات المضللة لتشمل المخاطر السيبرانية.

الأدلة التجريبية تؤكد أن تسميم البيانات ليس مجرد سيناريو افتراضي. في تجربة أْجريت في كانون الثاني الماضي، أدى استبدال 0.001% فقط من بيانات التدريب بمعلومات طبية مضللة إلى أن النموذج صار يقدم نصائح خاطئة في سياق اختبارات طبية نموذجية.

وهذا يبيّن قدرة الهجمات الصغيرة والمُحكمة على إحداث أضرار كبيرة تُؤثر على سلامة المخرجات وثقة المستخدمين.

مقالات متعلقة

  1.  الذكاء الاصطناعي.. تكتيكات الحرب والتضليل بين إسرائيل و"حماس"
  2. أول قرار أممي لضبط تطوير الذكاء الاصطناعي
  3. الصحافة السورية والذكاء الاصطناعي.. قيود تكبح المواكبة
  4. تحذير أكاديمي من "خباثة" الذكاء الاصطناعي

تكنولوجيا

المزيد من تكنولوجيا