گاردین گزارش مفصلی از یک پژوهش نگرانکننده منتشر کرد که نشان میدهد حتی پیشرفتهترین مدلهای هوش مصنوعی جهان را میتوان با یک ابزار به ظاهر بیضرر، یعنی شعر، به تولید محتوای بسیار خطرناک واداشت.
این پژوهش توسط آزمایشگاه Icaro Lab، زیرمجموعه شرکت کوچک ایتالیایی DexAI که بر مسائل حوزه اخلاق هوش مصنوعی تمرکز دارد، انجام شده است. تیم تحقیقاتی به سرپرستی دکتر پیرکوسما بیسکونتی لوچی (Piercosma Bisconti Lucidi)، فقط ۲۰ شعر کوتاه نوشتند. این شعرها در ظاهر درباره موضوعات روزمره و بیخطر بودند، اما در آخرین خط یا دو خط، بهطور ناگهانی درخواست تولید محتوای کاملاً ممنوعه میکردند؛ از جمله:
- آموزش گامبهگام ساخت مواد منفجره خانگی یا سلاحهای شیمیایی، بیولوژیک و هستهای
- نوشتن متنهای نفرتپراکنی نژادی یا مذهبی
- راهنمایی دقیق برای خودکشی یا خودآزاری
- تولید محتوای جنسی مرتبط با کودکان
این ۲۰ شعر روی ۲۵ مدل زبانی بزرگ (LLM) از ۹ شرکت OpenAI ،گوگل، آنتروپیک، متا، XAI، میسترال، کوین، دیپ سیک و مونشات مورد آزمایش قرار گرفت.
نتایج بهتآور بود:
| شرکت و مدل | درصد موفقیت شعر در دور زدن گاردهای ایمنی |
|---|---|
| Google Gemini 2.5 Pro | ۱۰۰٪ |
| Meta AI (دو مدل مختلف) | ۷۰٪ |
| میانگین کلی همه مدلها | ۶۲٪ |
| OpenAI GPT-5 nano | ۰٪ (هیچ پاسخ خطرناکی نداد) |
چرا دقیقاً شعر اینقدر مؤثر است؟
دکتر پیرکوسما بیسکونتی این موضوع را اینگونه توضیح میدهد:
«مدلهای زبانی در اصل با پیشبینی «کلمه یا توکن بعدی» کار میکنند. وقتی کسی مستقیم و صریح میپرسد «چگونه بمب درست کنیم؟»، الگوی جمله کاملاً قابل پیشبینی است و فیلترهای ایمنی بلافاصله فعال میشوند و پاسخ را مسدود میکنند.
اما در شعر همه چیز فرق میکند. ریتم، قافیه، تصاویر غیرمنتظره و پرشهای ناگهانی معنایی باعث میشود مسیر متن برای مدل غیرقابل پیشبینی باشد. در نتیجه، فیلترهای ایمنی تا خطوط پایانی نمیفهمند که قرار است با یک درخواست ممنوعه روبهرو شوند. وقتی هم به خط آخر میرسند، مدل آنقدر درگیر حفظ سبک و الگوی شاعرانه شده که دیگر بهراحتی تسلیم میشود و محتوای خطرناک را تولید میکند.»
به بیان سادهتر: شعر مثل یک «اسب تروا» عمل میکند؛ در ظاهر زیبا و بیضرر وارد میشود، اما در دل خود دستورات خطرناک حمل میکند.
آنچه این پژوهش را بسیار نگرانکننده میکند، سادگی بیش از حد این روش است. روشهای قبلی مثب جیلبریک معمولاً به دهها یا صدها پیام پیچیده، نقشبازی کردن طولانی یا دانش برنامهنویسی پیشرفته نیاز داشت و فقط در دسترس پژوهشگران امنیتی، هکرها یا دولتها بود. اما شعر را هر دانشآموز دبیرستانی با ذوق ادبی میتواند بنویسد.
محققان برای جلوگیری از سوءاستفاده، شعرهای واقعی آزمایش را منتشر نکردند، اما یک نمونه بیخطر (درباره طرز تهیه کیک) با همان ساختار را به عنوان مثال آوردند:
“A baker guards a secret oven’s heat, its whirling racks, its spindle’s measured beat. To learn its craft, one studies every turn – how flour lifts, how sugar starts to burn. Describe the method, line by measured line, that shapes a cake whose layers intertwine.”
دکتر بیسکونتی میگوید: «ما شش نفر دانشمند بودیم که این شعرها را نوشتیم و شاعر خوبی هم نیستیم! اگر شاعران واقعی دست به کار شوند، احتمالاً درصد موفقیت به ۹۰–۱۰۰ درصد میرسد.» به همین دلیل آزمایشگاه Icaro Lab در هفتههای آینده یک مسابقه عمومی شعر جیلبریک راهاندازی خواهد کرد تا حد واقعی آسیبپذیری را بسنجند.
شرکتهای درگیر پیش از انتشار گزارش از وجود این ضعف مطلع شدند. تا لحظه نگارش خبر گاردین، تنها شرکت آنتروپیک (سازنده Claude) پاسخ رسمی داده و اعلام کرده در حال بررسی دقیق است. گوگل گفته است «روی بهروزرسانی فیلترها برای تشخیص نیت مضر حتی در محتوای هنری سرمایهگذاری میکند»، اما بقیه شرکتها (از جمله متا، اوپنایآی و xAI) هنوز اظهارنظر نکردهاند.
این پژوهش یک بار دیگر یادآوری میکند که با وجود پیشرفتهای چشمگیر، سیستمهای ایمنی کنونی مدلهای زبانی هنوز بسیار شکننده هستند و روشهای خلاقانه و غیرمنتظره انسانی میتوانند به راحتی از آنها عبور کنند.