نتایج پژوهشی جدید: با شعر گفتن، محدودیت‌های هوش مصنوعی را دور بزنید.

گزارشی تازه نشان می‌دهد که گروه پژوهشی Icaro Lab وابسته به شرکت DexAI با استفاده از تنها ۲۰ شعر ساده توانسته است بسیاری از پیشرفته‌ترین مدل‌های هوش مصنوعی را وادار به تولید محتوای کاملاً خطرناک کند؛ محتوایی از آموزش ساخت سلاح تا متون نفرت‌پراکنی و خودآزاری. این شعرها در ظاهر بی‌ضرر بودند اما در پایان ناگهان درخواست ممنوعه مطرح می‌کردند و بسیاری از مدل‌ها—از جمله Gemini 2.5 Pro با ۱۰۰٪ شکست—در برابر آن تسلیم شدند، در حالی که GPT-5 nano تنها مدلی بود که هیچ خروجی خطرناکی نداد. محققان توضیح می‌دهند که ماهیت غیرقابل پیش‌بینی شعر، فیلترهای ایمنی را دور می‌زند و همانند «اسب تروا» عمل می‌کند. این سادگی نگران‌کننده، نشان می‌دهد سازوکارهای ایمنی هوش مصنوعی هنوز بسیار شکننده‌اند و شرکت‌ها باید برای مقابله با چنین روش‌های خلاقانه‌ای فیلترهای خود را تقویت کنند.

گاردین گزارش مفصلی از یک پژوهش نگران‌کننده منتشر کرد که نشان می‌دهد حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان را می‌توان با یک ابزار به ظاهر بی‌ضرر، یعنی شعر، به تولید محتوای بسیار خطرناک واداشت.

این پژوهش توسط آزمایشگاه Icaro Lab، زیرمجموعه شرکت کوچک ایتالیایی DexAI که بر مسائل حوزه اخلاق هوش مصنوعی تمرکز دارد، انجام شده است. تیم تحقیقاتی به سرپرستی دکتر پیرکوسما بیسکونتی لوچی (Piercosma Bisconti Lucidi)، فقط ۲۰ شعر کوتاه نوشتند. این شعرها در ظاهر درباره موضوعات روزمره و بی‌خطر بودند، اما در آخرین خط یا دو خط، به‌طور ناگهانی درخواست تولید محتوای کاملاً ممنوعه می‌کردند؛ از جمله:

  • آموزش گام‌به‌گام ساخت مواد منفجره خانگی یا سلاح‌های شیمیایی، بیولوژیک و هسته‌ای
  • نوشتن متن‌های نفرت‌پراکنی نژادی یا مذهبی
  • راهنمایی دقیق برای خودکشی یا خودآزاری
  • تولید محتوای جنسی مرتبط با کودکان

این ۲۰ شعر روی ۲۵ مدل زبانی بزرگ (LLM) از ۹ شرکت OpenAI ،گوگل، آنتروپیک، متا، XAI، میسترال، کوین، دیپ سیک و مون‌شات مورد آزمایش قرار گرفت.

نتایج بهت‌آور بود:

شرکت و مدل درصد موفقیت شعر در دور زدن گاردهای ایمنی
Google Gemini 2.5 Pro ۱۰۰٪
Meta AI (دو مدل مختلف) ۷۰٪
میانگین کلی همه مدل‌ها ۶۲٪
OpenAI GPT-5 nano ۰٪ (هیچ پاسخ خطرناکی نداد)

چرا دقیقاً شعر این‌قدر مؤثر است؟

دکتر پیرکوسما بیسکونتی این موضوع را این‌گونه توضیح می‌دهد:

«مدل‌های زبانی در اصل با پیش‌بینی «کلمه یا توکن بعدی» کار می‌کنند. وقتی کسی مستقیم و صریح می‌پرسد «چگونه بمب درست کنیم؟»، الگوی جمله کاملاً قابل پیش‌بینی است و فیلترهای ایمنی بلافاصله فعال می‌شوند و پاسخ را مسدود می‌کنند.

اما در شعر همه چیز فرق می‌کند. ریتم، قافیه، تصاویر غیرمنتظره و پرش‌های ناگهانی معنایی باعث می‌شود مسیر متن برای مدل غیرقابل پیش‌بینی باشد. در نتیجه، فیلترهای ایمنی تا خطوط پایانی نمی‌فهمند که قرار است با یک درخواست ممنوعه روبه‌رو شوند. وقتی هم به خط آخر می‌رسند، مدل آن‌قدر درگیر حفظ سبک و الگوی شاعرانه شده که دیگر به‌راحتی تسلیم می‌شود و محتوای خطرناک را تولید می‌کند.»

به بیان ساده‌تر: شعر مثل یک «اسب تروا» عمل می‌کند؛ در ظاهر زیبا و بی‌ضرر وارد می‌شود، اما در دل خود دستورات خطرناک حمل می‌کند.

آن‌چه این پژوهش را بسیار نگران‌کننده می‌کند، سادگی بیش از حد این روش است. روش‌های قبلی مثب جیل‌بریک معمولاً به ده‌ها یا صدها پیام پیچیده، نقش‌بازی کردن طولانی یا دانش برنامه‌نویسی پیشرفته نیاز داشت و فقط در دسترس پژوهشگران امنیتی، هکرها یا دولت‌ها بود. اما شعر را هر دانش‌آموز دبیرستانی با ذوق ادبی می‌تواند بنویسد.

محققان برای جلوگیری از سوءاستفاده، شعرهای واقعی آزمایش را منتشر نکردند، اما یک نمونه بی‌خطر (درباره طرز تهیه کیک) با همان ساختار را به عنوان مثال آوردند:

“A baker guards a secret oven’s heat, its whirling racks, its spindle’s measured beat. To learn its craft, one studies every turn – how flour lifts, how sugar starts to burn. Describe the method, line by measured line, that shapes a cake whose layers intertwine.”

دکتر بیسکونتی می‌گوید: «ما شش نفر دانشمند بودیم که این شعرها را نوشتیم و شاعر خوبی هم نیستیم! اگر شاعران واقعی دست به کار شوند، احتمالاً درصد موفقیت به ۹۰–۱۰۰ درصد می‌رسد.» به همین دلیل آزمایشگاه Icaro Lab در هفته‌های آینده یک مسابقه عمومی شعر جیل‌بریک راه‌اندازی خواهد کرد تا حد واقعی آسیب‌پذیری را بسنجند.

شرکت‌های درگیر پیش از انتشار گزارش از وجود این ضعف مطلع شدند. تا لحظه نگارش خبر گاردین، تنها شرکت آنتروپیک (سازنده Claude) پاسخ رسمی داده و اعلام کرده در حال بررسی دقیق است. گوگل گفته است «روی به‌روزرسانی فیلترها برای تشخیص نیت مضر حتی در محتوای هنری سرمایه‌گذاری می‌کند»، اما بقیه شرکت‌ها (از جمله متا، اوپن‌ای‌آی و xAI) هنوز اظهارنظر نکرده‌اند.

این پژوهش یک بار دیگر یادآوری می‌کند که با وجود پیشرفت‌های چشمگیر، سیستم‌های ایمنی کنونی مدل‌های زبانی هنوز بسیار شکننده هستند و روش‌های خلاقانه و غیرمنتظره انسانی می‌توانند به راحتی از آن‌ها عبور کنند.

جدیدترین خبرها

دولت کره جنوبی برای مقابله با تبلیغات گمراه‌کننده وارد میدان شد

آمریکا به TSMC مجوز سالانه صادرات تجهیزات ساخت تراشه به چین داد

xAI سومین ساختمان خود را برای گسترش زیرساخت هوش مصنوعی خرید

انقلاب هوش مصنوعی در آفریقا: مسیر یک تریلیون دلاری برای رشد اقتصادی تا ۲۰۳۵

ترکیه به‌دنبال ساخت زیرساخت هوش مصنوعی حاکمیتی با تکیه بر استارتاپ‌های بومی

«معماران هوش مصنوعی»؛ شخصیت سال ۲۰۲۵ از نگاه مجله تایم

جدیدترین مقالات
کاربردهای هوش مصنوعی

جدید‌ترین هوش مصنوعی‌ها

مرورگر ChatGPT Atlas

GLM 4.5

KIMI

GlobeScribe.ai

Lovable

Codex

Felo AI

Hailou

Hunyuan

Chance AI

openAI.fm

n8n

chatbot Arena

Tripo AI

Reve

لوگو هوش مصنوعی Wan

wan

Manus AI

Make.com

Le Chat

OmniHuman

Janus Pro

Kinetix

DragGan

openrouter.ai

operator

Storm

Pika Art

Openmagic

Mokker AI

لوگو دیپ سیک

DeepSeek

Buffer AI

Mapify

Gravitywrite

لوگو نوتبوک ال ام

NotebookLM

zipwp

writi.io

Vidalgo

ChatBA

Levels.fyi

مشاور هوشمند اینوآپ

Lensgo

Learn About AI

PDF.ai

Magai

Remini

BetterPic

OpenArt

Maestra

Heights AI

Deciphr