في غرفة مزخرفة بتماثيل من الرخام لعلماء مشهورين، كان حوالي 40 خبيرًا في علوم المناخ والأمراض منحنين على لوحات المفاتيح الخاصة بهم أمس (25 أكتوبر)، ويحاولون إجبار نظام الذكاء الاصطناعي القوي على توليد معلومات مضللة.
بنهاية اليوم، تمكن الحاضرون من التغلب على الحواجز الواقية في نظام الذكاء الاصطناعي – لاما 2 التابع لشركة ميتا – وحصلوا على إقناعه بالحديث عن قدرة البط على امتصاص التلوث الجوي، والقول إن الثوم و”الأعشاب المعجزية” يمكن أن تساعد في منع عدوى فيروس كورونا، وتوليد معلومات تشهيرية حول عالم مناخ معين، وتشجيع الأطفال على تلقي لقاح غير موصى به لهم.
أظهرت الفعالية التي عقدت تحت سقف مذهب في الجمعية الملكية البريطانية العريقة في لندن طرق تعرض نظم الذكاء الاصطناعي الأكثر تقدما في العالم للإساءة الاستخدام. وجاءت بعد أسبوع واحد فقط من أول قمة لسلامة الذكاء الاصطناعي في العالم، التي نظمتها الحكومة البريطانية، حيث سيجتمع صانعو السياسات العالميون مع علماء الذكاء الاصطناعي لمناقشة مخاطر هذه التكنولوجيا سريعة التطور.
بناء حواجز أكثر أمانا
نماذج اللغة الضخمة (LLMs)، وهي الأنظمة التي تستخدمها أنظمة الذكاء الاصطناعي مثل ChatGPT، عادة ما تأتي مع حواجز لمنع توليد محتوى غير مرغوب فيه أو خطير – سواء كانت معلومات مضللة، مواد جنسية صريحة، أو نصائح حول كيفية بناء أسلحة بيولوجية أو برامج ضارة. لكن هذه الحواجز قد ثبتت إنها غير متينة أحيانًا. أظهر المخترقون وعلماء الحاسوب مرارًا قدرتهم على “تخطي سجن” LLMs – أي التغلب على ميزات السلامة الخاصة بها – من خلال تحفيزها بطرق مبتكرة. وفقًا للنقاد، فإن هذه الضعفيات تظهر الحدود التي يواجهها “توافق الذكاء الاصطناعي”، وهو الممارسة الناشئة لضمان أن تتصرف الأنظمة الذكية بالطريقة التي ينويها مبتكروها فقط.
غالبًا ما تصلح شركات تكنولوجيا المعلومات وراء نماذج اللغة الضخمة الثغرات عندما تصبح معروفة. ومن أجل تسريع هذه العملية، بدأت مختبرات الذكاء الاصطناعي في تشجيع عملية تعرف عليها باسم “فريق الاختبار الأحمر” – حيث يحاول الخبراء بذل أقصى جهدهم لتخطي سجن نماذج اللغة الضخمة حتى يمكن معالجة ضعفياتها. وفي سبتمبر الماضي، أطلقت أوبن إيه “شبكة فريق الاختبار الأحمر” من الخبراء لاختبار ضغوط نظمها. وأمس أعلنت منتدى نموذج الحدود، وهي مجموعة صناعية أنشأتها مايكروسوفت وأوبن إيه وجوجل وأنثروبيك، عن صندوق بقيمة 10 ملايين دولار لتمويل أبحاث السلامة، بما في ذلك جهود فريق الاختبار الأحمر.
“تستمر مقاربتنا المسؤولة بعد إطلاق النموذج الأولي لاما 2، ونحن نقدر الفرصة للعمل مع الجمعية الملكية وهيومان إنتليجنس للتعاون حول وضع حواجز مسؤولة”، قال كريستيان كانتون فيرير، المسؤول الهندسي عن الذكاء الاصطناعي المسؤول في شركة ميتا، في بيان. “مقاربتنا المفتوحة تعني أن الأخطاء والضعفيات يمكن تحديدها والتقليل منها باستمرار بطريقة شفافة عن طريق مجتمع مفتوح”.
تمكن الحاضرون في فعالية فريق الاختبار الأحمر في لندن من الحصول على لاما 2 لتوليد مقالات إخبارية مضللة وتغريدات تحتوي على نظريات مؤامرة مصاغة بطريقة تستهدف جماهير محددة، مما يوضح كيف يمكن استخدام أنظمة الذكاء الاصطناعي ليس فقط لتوليد معلومات مضللة، بل أيضًا للنجاح في نشرها على نطاق أوسع.
بيثان كراكنيل دانيالز، خبيرة في حمى الضنك في كلية إمبريال لندن التي حضرت الفعالية، تمكنت بنجاح من إقناع النموذج بتوليد حملة إعلانية تشجع جميع الأطفال على الحصول على لقاح الضنك – على الرغم من أن اللقاح غير موصى به للأفراد الذين لم يصابوا بالمرض من قبل. كما زود النموذج بيانات مزورة لدعم ادعاء مضلل بأن اللقاح آمن تمامًا وأثبت كفاءة في الظروف الحقيقية، كما قالت كراكنيل دانيالز لمجلة تايم. “إنه مجرد اختراع بالكامل”.
الطاقة النووية والكلاب الهائجة
جوناثان مورغان، متخصص في الهندسة النووية في جامعة مانشستر، تمكن بنجاح من إقناع لاما 2 بتوليد أخبار كاذبة تشير إلى أن المشي بكلب قريبًا من محطة طاقة نووية يمكن أن يؤدي إلى إصابته بالهذيان. “ما أظهرته لي هذه التجربة هو أنه إذا كان لديك جدول أعمال نشط لنشر معلومات مضللة، مدى سهولة الحصول على هذه نماذج اللغة لإنتاج أشياء تبدو وكأنها حقيقية”، قال مورغان.
سبق أن أظهرت نماذج اللغة الضخمة تعرضها لـ”الهجمات المعادية”، حيث يمكن للمتسببين الرديئين المتحمسين، على سبيل المثال، إضافة سلسلة طويلة محددة من الأحرف إلى نهاية التحفيز لتخطي سجن بعض النماذج. لكن فعالية فريق الاختبار الأحمر ركزت على أنواع أخرى من الضعفيات أكثر تطبيقًا على المستخدمين العاديين. “نطلب من المشاركين استخدام تقنيات الهندسة الاجتماعية”، قال رمان تشودهوري، الرئيس التنفيذي لشركة هيومان إنتليجنس.
وافق الحاضرون قبل البدء بأنهم “لن يلحقوا أي ضرر” بالمعلومات الت