یادگیری ماشین خصمانه چیست؟

یادگیری ماشین متخاصم یا خصمانه

یادگیری ماشین خصمانه یا متخاصم (adversarial machine learning) تکنیکی است که برای فریب دادن یا گمراه کردن مدل‌های یادگیری ماشین با استفاده از ورودی‌های مخرب به کار می‌رود. این تکنیک، که عمدتاً برای اجرای حملات یا ایجاد نقص در سیستم‌های یادگیری ماشین استفاده می‌شود، می‌تواند ورودی‌ها را به گونه‌ای تغییر دهد که چندین مدل با مجموعه داده‌ها یا معماری‌های مختلف را تحت تأثیر قرار دهد.

مدل‌های یادگیری ماشینی با استفاده از مجموعه داده‌های بزرگ که مرتبط با موضوع مورد بررسی هستند، آموزش می‌بینند. به عنوان مثال، اگر یک شرکت خودروسازی بخواهد به خودروی خودران خود یاد دهد که چگونه یک علامت توقف را تشخیص دهد، هزاران تصویر از علائم توقف را از طریق الگوریتم یادگیری ماشینی به آن ارائه می‌دهد.

در یک حمله خصمانه، ممکن است داده‌های ورودی دستکاری شوند؛ برای مثال، تصاویری که در واقع علامت توقف نیستند، به‌طور اشتباه به‌عنوان علائم توقف برچسب‌گذاری شوند. این امر موجب می‌شود که الگوریتم ورودی‌ها را نادرست تفسیر کند و در نتیجه، سیستم یادگیری ماشینی در هنگام استفاده عملی یا تولید، علائم توقف را به‌اشتباه شناسایی کند.

نحوه عملکرد حملات یادگیری ماشین خصمانه

عوامل مخرب با استفاده از حملات یادگیری ماشینی متخاصم، مدل‌های یادگیری ماشین را هدف قرار می‌دهند تا عملکرد آن‌ها را تضعیف کرده و به نتایج نادرست منجر شوند. این مهاجمان با انگیزه‌های مختلف و استفاده از تاکتیک‌های متنوع، تلاش می‌کنند تا داده‌ها به اشتباه طبقه‌بندی شوند یا پیش‌بینی‌های نادرست ارائه دهند. برای دستیابی به این هدف، مهاجمان یا داده‌های ورودی سیستم را دستکاری می‌کنند یا مستقیماً در عملکرد داخلی مدل دخالت می‌کنند.

در مورد دستکاری داده‌های ورودی، مهاجم می‌تواند یک ورودی مانند تصویر یا ایمیل را با اضافه کردن نویز یا تغییرات جزئی به آن تغییر دهد. این تغییرات ظریف می‌توانند مدل را فریب دهند و باعث شوند که داده‌ها به اشتباه طبقه‌بندی شوند یا تهدیدها نادیده گرفته شوند. مهاجمان همچنین می‌توانند در طول فرایند آموزش، مدل را خراب کنند یا یک مدل از پیش آموزش‌دیده و مستقر شده را هدف قرار دهند.

در مواردی که مهاجمان به یک مدل ناامن دسترسی پیدا می‌کنند، می‌توانند به معماری و پارامترهای مدل نفوذ کرده و آن‌ها را تغییر دهند تا عملکرد مدل مختل شود. این نوع حملات با گذشت زمان پیچیده‌تر شده‌اند، به همین دلیل کارشناسان هوش مصنوعی به‌طور فزاینده‌ای محتاط بوده و اقدامات متقابل احتمالی را توصیه می‌کنند تا از چنین تهدیداتی جلوگیری شود.

انواع حملات یادگیری ماشین خصمانه

حملات یادگیری ماشینی متخاصم را می‌توان به سه دسته اصلی تقسیم کرد که هر یک به روش‌های متفاوتی انجام می‌شوند، اما هدف مشترکی دارند: خراب کردن مدل‌های یادگیری ماشین برای اهداف مخرب. این دسته‌ها عبارتند از:

حمله فرار یا Evasion attack

این رایج‌ترین نوع حمله است که در آن داده‌های ورودی، مانند تصاویر، به‌گونه‌ای دستکاری می‌شوند که الگوریتم‌های یادگیری ماشین را فریب داده و باعث طبقه‌بندی نادرست آنها می‌شود. مهاجمان با افزودن نویز یا تغییرات جزئی اما عمدی در داده‌های ورودی، این خطاهای طبقه‌بندی را ایجاد می‌کنند.

مسمومیت داده‌ها یا Data poisoning

این حملات زمانی رخ می‌دهند که مهاجم با وارد کردن داده‌های مخرب یا مسموم به یک مجموعه داده، فرآیند یادگیری ماشین را مختل می‌کند و دقت خروجی‌ها را کاهش می‌دهد. هدف این حملات، به خطر انداختن فرآیند یادگیری و کاهش کارآیی الگوریتم است.

استخراج یا سرقت مدل یا Model extraction

در این نوع حمله، مهاجم اطلاعات یا داده‌های کافی از یک مدل هدف را استخراج می‌کند تا بتواند به‌طور مؤثر آن مدل را بازسازی کند یا داده‌های استفاده‌شده برای آموزش مدل را سرقت کند. برای مقابله با این حملات، کسب‌وکارها باید سیستم‌های یادگیری ماشین خود را مقاوم‌تر کنند.

روش‌هایی برای هدف قراردادن مدل‌ها

مهاجمان از چندین روش برای هدف قرار دادن مدل‌ها استفاده می‌کنند، از جمله:

به حداقل رساندن اغتشاشات: مهاجمان هنگام دستکاری داده‌های ورودی، از کمترین اختلالات ممکن استفاده می‌کنند تا حملاتشان برای پرسنل امنیتی و مدل‌های یادگیری ماشین تقریباً غیرقابل تشخیص باشد. روش‌های حمله مانند limited-memory Broyden-Fletcher-Goldfarb-Shanno، DeepFool، Fast Gradient Sign Method و Carlini-Wagner از این رویکرد بهره می‌برند.
شبکه‌های متخاصم مولد (GAN): در این روش، نمونه‌های متضادی ایجاد می‌شوند که قصد دارند مدل‌ها را فریب دهند. یک شبکه عصبی به نام مولد، داده‌های جعلی تولید می‌کند و شبکه عصبی دیگری به نام discriminator سعی می‌کند این داده‌ها را به‌درستی طبقه‌بندی کند. با گذشت زمان، هر دو شبکه بهبود می‌یابند؛ مولد در تولید داده‌های جعلی و متمایزکننده در شناسایی آنها.
استعلام مدل: در این روش، مهاجم مدل را جستجو یا بررسی می‌کند تا آسیب‌پذیری‌ها و ضعف‌های آن را کشف کند و سپس حمله‌ای را طراحی می‌کند که از این نقاط ضعف سوءاستفاده کند. نمونه‌ای از این رویکرد، روش بهینه‌سازی مرتبه صفر است که بدون داشتن اطلاعات قبلی از مدل، به استعلام‌ها تکیه می‌کند.

روش‌های دفاع در برابر حملات تخاصمی

کارشناسان هوش مصنوعی و امنیت سایبری یادگیری ماشینی متخاصم را به‌عنوان یک تهدید رو به رشد می‌شناسند که می‌تواند از آسیب‌پذیری‌های رایج در سیستم‌های یادگیری ماشینی سوءاستفاده کند. حتی سیستم‌های پیشرفته هوش مصنوعی نیز در برابر این حملات آسیب‌پذیر بوده‌اند. در حال حاضر، هیچ راه‌حل قطعی برای دفاع در برابر حملات یادگیری ماشینی متخاصم وجود ندارد، اما چندین تکنیک می‌تواند به تیم‌های عملیاتی در کاهش این تهدیدات کمک کند. دو تکنیک اصلی در این زمینه، آموزش خصمانه و تقطیر دفاعی هستند.

آموزش خصمانه شامل معرفی نمونه‌های متخاصم به مدل و برچسب‌گذاری آن‌ها به‌عنوان تهدید است. این فرآیند به مدل کمک می‌کند تا در برابر حملات مشابه مقاومت کند، اما نیازمند نگهداری و نظارت مداوم توسط کارشناسان علم داده و توسعه‌دهندگان است.

تقطیر دفاعی با استفاده از پیش‌بینی‌های یک مدل قبلاً آموزش‌دیده، الگوریتم یادگیری ماشینی را انعطاف‌پذیرتر می‌کند. این رویکرد به مدل کمک می‌کند تا تهدیدات ناشناخته را شناسایی کند. تقطیر دفاعی مشابه روش شبکه‌های مولد تخاصمی (GAN) است که از دو شبکه عصبی برای تسریع فرایندهای یادگیری ماشینی استفاده می‌کند: یکی به نام ژنراتور که محتوای جعلی شبیه به محتوای واقعی ایجاد می‌کند و دیگری به نام ممیز یا discriminator که با افزایش دقت، محتوای جعلی را شناسایی و علامت‌گذاری می‌کند.

حملات جعبه سفید در مقابل حملات جعبه سیاه

حملات خصمانه در یادگیری ماشین را می‌توان به دو نوع حمله جعبه سفید و جعبه سیاه تقسیم کرد.

در حمله جعبه سفید، مهاجم به پارامترها و معماری مدل دسترسی دارد و می‌تواند این عملکردهای داخلی را که بخشی از مدل هستند، به طور مخرب تغییر دهد تا خروجی‌های نادرست تولید کند. این دسترسی به مهاجم اجازه می‌دهد تا با دقت بیشتری مدل را دستکاری کند.

در مقابل، در حمله جعبه سیاه، مهاجم به عملکردهای داخلی مدل دسترسی ندارد و تنها می‌تواند خروجی‌های مدل را مشاهده کند. اگرچه حفاظت از عملکردهای داخلی مدل می‌تواند دسترسی مهاجمان به این اطلاعات را محدود کند و حملات آن‌ها را دشوارتر سازد، اما این اقدامات مانع از نفوذ کامل به مدل‌های آموزش‌دیده نمی‌شود. حتی زمانی که تنها خروجی‌ها در دسترس باشند، مهاجمان می‌توانند از طریق تحلیل دقیق این خروجی‌ها، مدل جعبه سیاه را بررسی کرده و داده‌های حساس و اطلاعات مورد نیاز خود را از آن استخراج کنند.

مثال‌ها و نمونه‌هایی از یادگیری ماشین خصمانه

نمونه‌های حملات خصمانه در یادگیری ماشین غالباً انسان‌ها را سردرگم نمی‌کنند، اما می‌توانند مدل‌های یادگیری ماشین را به اشتباه بیندازند. در حالی که یک فرد می‌تواند متن یک علامت را بخواند یا بفهمد که یک تصویر چه چیزی را نشان می‌دهد، رایانه‌ها ممکن است فریب بخورند. برخی از نمونه‌های فرضی این حملات عبارتند از:

تصاویر: مدل یک تصویر را دریافت می‌کند، اما مهاجمان داده‌های ورودی مرتبط با تصویر را دستکاری کرده و نویز ایجاد می‌کنند. به این ترتیب، مدلی که قرار بود تصویر یک شیر را تشخیص دهد، ممکن است به اشتباه آن را به عنوان یک فیل طبقه‌بندی کند. این نوع حمله به طبقه‌بندی تصویر به عنوان حمله فرار شناخته می‌شود، زیرا به جای دستکاری مستقیم داده‌های آموزشی یا استفاده از روش‌های آشکار دیگر، بر تغییرات جزئی در ورودی‌ها متکی است که برای فرار از تشخیص طراحی شده‌اند.

ایمیل‌ها: ایمیل‌های هرزنامه و بدافزار می‌توانند به‌گونه‌ای طراحی شوند که به عنوان ایمیل‌های خوش‌خیم و بدون خطر ظاهر شوند. این نوع حمله الگوریتم یادگیری ماشین را فریب می‌دهد تا ایمیل‌های دریافتی را به‌طور نادرست به عنوان امن یا غیر هرزنامه طبقه‌بندی کند.

نشانه‌ها: یک خودروی خودران از حسگرها و الگوریتم‌های یادگیری ماشین برای شناسایی و طبقه‌بندی اشیاء استفاده می‌کند. اما حتی یک تغییر کوچک در علامت توقف، مانند افزودن یک برچسب کوچک، می‌تواند طبقه‌بندی‌کننده‌ی خودرو را به اشتباه بیندازد و علامت را نادرست تفسیر کند. این امر می‌تواند به‌طور بالقوه منجر به تصادف شود.

تاریخچه یادگیری ماشین خصمانه

محققان علوم کامپیوتر در طول قرن بیستم به توسعه مفهوم یادگیری ماشین و پیاده‌سازی‌هایی مانند شبکه‌های عصبی پرداختند. (برای مطالعه تاریخچه هوش مصنوعی اینجا کلیک کنید.) به عنوان نمونه، جفری هینتون، روانشناس شناختی و دانشمند کامپیوتر بریتانیایی-کانادایی، در دهه ۱۹۸۰ کمک‌های چشمگیری به آموزش شبکه‌های عصبی عمیق کرد. در آن زمان، حملات خصمانه تنها جنبه تئوری داشتند و نگرانی جدی ایجاد نمی‌کردند.

در سال ۲۰۰۴، محققانی مانند نیلش دالوی، که اکنون مدیر ارشد فناوری در Fiddler AI است، به آسیب‌پذیری‌های بسیاری در طبقه‌بندی‌کننده‌های فیلتر هرزنامه پی‌بردند. این آسیب‌پذیری‌ها در مقابل حملات پیچیده یک نقطه ضعف اساسی بودند.

ده سال بعد، کارشناسان فهمیدند که حتی کلاسیفایرهای پیشرفته، مانند شبکه‌های عصبی عمیق و ماشین‌های بردار پشتیبان، نیز در برابر حملات خصمانه آسیب‌پذیر هستند. امروزه شرکت‌های بزرگ فناوری مانند مایکروسافت و گوگل اقدامات پیشگیرانه‌ای انجام می‌دهند. به عنوان مثال، این شرکت‌ها کدهای خود را منبع باز می‌کنند تا دیگر کارشناسان بتوانند به شناسایی آسیب‌پذیری‌ها کمک کنند. این تلاش‌ها به یافتن راه‌هایی برای اطمینان از مقاوم بودن مدل‌های یادگیری ماشین در برابر حملات خصمانه کمک می‌کند.

هوش مصنوعی و یادگیری ماشین نقش مهمی در استراتژی‌های امنیت سایبری شرکت‌ها دارند. با این حال، شرکت‌ها باید خطرات و مزایای استفاده از هوش مصنوعی را در امنیت سایبری به دقت ارزیابی کنند.