یادگیری ماشین متخاصم یا خصمانه
یادگیری ماشین خصمانه یا متخاصم (adversarial machine learning) تکنیکی است که برای فریب دادن یا گمراه کردن مدلهای یادگیری ماشین با استفاده از ورودیهای مخرب به کار میرود. این تکنیک، که عمدتاً برای اجرای حملات یا ایجاد نقص در سیستمهای یادگیری ماشین استفاده میشود، میتواند ورودیها را به گونهای تغییر دهد که چندین مدل با مجموعه دادهها یا معماریهای مختلف را تحت تأثیر قرار دهد.
مدلهای یادگیری ماشینی با استفاده از مجموعه دادههای بزرگ که مرتبط با موضوع مورد بررسی هستند، آموزش میبینند. به عنوان مثال، اگر یک شرکت خودروسازی بخواهد به خودروی خودران خود یاد دهد که چگونه یک علامت توقف را تشخیص دهد، هزاران تصویر از علائم توقف را از طریق الگوریتم یادگیری ماشینی به آن ارائه میدهد.
در یک حمله خصمانه، ممکن است دادههای ورودی دستکاری شوند؛ برای مثال، تصاویری که در واقع علامت توقف نیستند، بهطور اشتباه بهعنوان علائم توقف برچسبگذاری شوند. این امر موجب میشود که الگوریتم ورودیها را نادرست تفسیر کند و در نتیجه، سیستم یادگیری ماشینی در هنگام استفاده عملی یا تولید، علائم توقف را بهاشتباه شناسایی کند.
نحوه عملکرد حملات یادگیری ماشین خصمانه
عوامل مخرب با استفاده از حملات یادگیری ماشینی متخاصم، مدلهای یادگیری ماشین را هدف قرار میدهند تا عملکرد آنها را تضعیف کرده و به نتایج نادرست منجر شوند. این مهاجمان با انگیزههای مختلف و استفاده از تاکتیکهای متنوع، تلاش میکنند تا دادهها به اشتباه طبقهبندی شوند یا پیشبینیهای نادرست ارائه دهند. برای دستیابی به این هدف، مهاجمان یا دادههای ورودی سیستم را دستکاری میکنند یا مستقیماً در عملکرد داخلی مدل دخالت میکنند.
در مورد دستکاری دادههای ورودی، مهاجم میتواند یک ورودی مانند تصویر یا ایمیل را با اضافه کردن نویز یا تغییرات جزئی به آن تغییر دهد. این تغییرات ظریف میتوانند مدل را فریب دهند و باعث شوند که دادهها به اشتباه طبقهبندی شوند یا تهدیدها نادیده گرفته شوند. مهاجمان همچنین میتوانند در طول فرایند آموزش، مدل را خراب کنند یا یک مدل از پیش آموزشدیده و مستقر شده را هدف قرار دهند.
در مواردی که مهاجمان به یک مدل ناامن دسترسی پیدا میکنند، میتوانند به معماری و پارامترهای مدل نفوذ کرده و آنها را تغییر دهند تا عملکرد مدل مختل شود. این نوع حملات با گذشت زمان پیچیدهتر شدهاند، به همین دلیل کارشناسان هوش مصنوعی بهطور فزایندهای محتاط بوده و اقدامات متقابل احتمالی را توصیه میکنند تا از چنین تهدیداتی جلوگیری شود.
انواع حملات یادگیری ماشین خصمانه
حملات یادگیری ماشینی متخاصم را میتوان به سه دسته اصلی تقسیم کرد که هر یک به روشهای متفاوتی انجام میشوند، اما هدف مشترکی دارند: خراب کردن مدلهای یادگیری ماشین برای اهداف مخرب. این دستهها عبارتند از:
حمله فرار یا Evasion attack
این رایجترین نوع حمله است که در آن دادههای ورودی، مانند تصاویر، بهگونهای دستکاری میشوند که الگوریتمهای یادگیری ماشین را فریب داده و باعث طبقهبندی نادرست آنها میشود. مهاجمان با افزودن نویز یا تغییرات جزئی اما عمدی در دادههای ورودی، این خطاهای طبقهبندی را ایجاد میکنند.
مسمومیت دادهها یا Data poisoning
این حملات زمانی رخ میدهند که مهاجم با وارد کردن دادههای مخرب یا مسموم به یک مجموعه داده، فرآیند یادگیری ماشین را مختل میکند و دقت خروجیها را کاهش میدهد. هدف این حملات، به خطر انداختن فرآیند یادگیری و کاهش کارآیی الگوریتم است.
استخراج یا سرقت مدل یا Model extraction
در این نوع حمله، مهاجم اطلاعات یا دادههای کافی از یک مدل هدف را استخراج میکند تا بتواند بهطور مؤثر آن مدل را بازسازی کند یا دادههای استفادهشده برای آموزش مدل را سرقت کند. برای مقابله با این حملات، کسبوکارها باید سیستمهای یادگیری ماشین خود را مقاومتر کنند.
روشهایی برای هدف قراردادن مدلها
مهاجمان از چندین روش برای هدف قرار دادن مدلها استفاده میکنند، از جمله:
- به حداقل رساندن اغتشاشات: مهاجمان هنگام دستکاری دادههای ورودی، از کمترین اختلالات ممکن استفاده میکنند تا حملاتشان برای پرسنل امنیتی و مدلهای یادگیری ماشین تقریباً غیرقابل تشخیص باشد. روشهای حمله مانند limited-memory Broyden-Fletcher-Goldfarb-Shanno، DeepFool، Fast Gradient Sign Method و Carlini-Wagner از این رویکرد بهره میبرند.
- شبکههای متخاصم مولد (GAN): در این روش، نمونههای متضادی ایجاد میشوند که قصد دارند مدلها را فریب دهند. یک شبکه عصبی به نام مولد، دادههای جعلی تولید میکند و شبکه عصبی دیگری به نام discriminator سعی میکند این دادهها را بهدرستی طبقهبندی کند. با گذشت زمان، هر دو شبکه بهبود مییابند؛ مولد در تولید دادههای جعلی و متمایزکننده در شناسایی آنها.
- استعلام مدل: در این روش، مهاجم مدل را جستجو یا بررسی میکند تا آسیبپذیریها و ضعفهای آن را کشف کند و سپس حملهای را طراحی میکند که از این نقاط ضعف سوءاستفاده کند. نمونهای از این رویکرد، روش بهینهسازی مرتبه صفر است که بدون داشتن اطلاعات قبلی از مدل، به استعلامها تکیه میکند.
روشهای دفاع در برابر حملات تخاصمی
کارشناسان هوش مصنوعی و امنیت سایبری یادگیری ماشینی متخاصم را بهعنوان یک تهدید رو به رشد میشناسند که میتواند از آسیبپذیریهای رایج در سیستمهای یادگیری ماشینی سوءاستفاده کند. حتی سیستمهای پیشرفته هوش مصنوعی نیز در برابر این حملات آسیبپذیر بودهاند. در حال حاضر، هیچ راهحل قطعی برای دفاع در برابر حملات یادگیری ماشینی متخاصم وجود ندارد، اما چندین تکنیک میتواند به تیمهای عملیاتی در کاهش این تهدیدات کمک کند. دو تکنیک اصلی در این زمینه، آموزش خصمانه و تقطیر دفاعی هستند.
آموزش خصمانه شامل معرفی نمونههای متخاصم به مدل و برچسبگذاری آنها بهعنوان تهدید است. این فرآیند به مدل کمک میکند تا در برابر حملات مشابه مقاومت کند، اما نیازمند نگهداری و نظارت مداوم توسط کارشناسان علم داده و توسعهدهندگان است.
تقطیر دفاعی با استفاده از پیشبینیهای یک مدل قبلاً آموزشدیده، الگوریتم یادگیری ماشینی را انعطافپذیرتر میکند. این رویکرد به مدل کمک میکند تا تهدیدات ناشناخته را شناسایی کند. تقطیر دفاعی مشابه روش شبکههای مولد تخاصمی (GAN) است که از دو شبکه عصبی برای تسریع فرایندهای یادگیری ماشینی استفاده میکند: یکی به نام ژنراتور که محتوای جعلی شبیه به محتوای واقعی ایجاد میکند و دیگری به نام ممیز یا discriminator که با افزایش دقت، محتوای جعلی را شناسایی و علامتگذاری میکند.
حملات جعبه سفید در مقابل حملات جعبه سیاه
حملات خصمانه در یادگیری ماشین را میتوان به دو نوع حمله جعبه سفید و جعبه سیاه تقسیم کرد.
در حمله جعبه سفید، مهاجم به پارامترها و معماری مدل دسترسی دارد و میتواند این عملکردهای داخلی را که بخشی از مدل هستند، به طور مخرب تغییر دهد تا خروجیهای نادرست تولید کند. این دسترسی به مهاجم اجازه میدهد تا با دقت بیشتری مدل را دستکاری کند.
در مقابل، در حمله جعبه سیاه، مهاجم به عملکردهای داخلی مدل دسترسی ندارد و تنها میتواند خروجیهای مدل را مشاهده کند. اگرچه حفاظت از عملکردهای داخلی مدل میتواند دسترسی مهاجمان به این اطلاعات را محدود کند و حملات آنها را دشوارتر سازد، اما این اقدامات مانع از نفوذ کامل به مدلهای آموزشدیده نمیشود. حتی زمانی که تنها خروجیها در دسترس باشند، مهاجمان میتوانند از طریق تحلیل دقیق این خروجیها، مدل جعبه سیاه را بررسی کرده و دادههای حساس و اطلاعات مورد نیاز خود را از آن استخراج کنند.
مثالها و نمونههایی از یادگیری ماشین خصمانه
نمونههای حملات خصمانه در یادگیری ماشین غالباً انسانها را سردرگم نمیکنند، اما میتوانند مدلهای یادگیری ماشین را به اشتباه بیندازند. در حالی که یک فرد میتواند متن یک علامت را بخواند یا بفهمد که یک تصویر چه چیزی را نشان میدهد، رایانهها ممکن است فریب بخورند. برخی از نمونههای فرضی این حملات عبارتند از:
تصاویر: مدل یک تصویر را دریافت میکند، اما مهاجمان دادههای ورودی مرتبط با تصویر را دستکاری کرده و نویز ایجاد میکنند. به این ترتیب، مدلی که قرار بود تصویر یک شیر را تشخیص دهد، ممکن است به اشتباه آن را به عنوان یک فیل طبقهبندی کند. این نوع حمله به طبقهبندی تصویر به عنوان حمله فرار شناخته میشود، زیرا به جای دستکاری مستقیم دادههای آموزشی یا استفاده از روشهای آشکار دیگر، بر تغییرات جزئی در ورودیها متکی است که برای فرار از تشخیص طراحی شدهاند.
ایمیلها: ایمیلهای هرزنامه و بدافزار میتوانند بهگونهای طراحی شوند که به عنوان ایمیلهای خوشخیم و بدون خطر ظاهر شوند. این نوع حمله الگوریتم یادگیری ماشین را فریب میدهد تا ایمیلهای دریافتی را بهطور نادرست به عنوان امن یا غیر هرزنامه طبقهبندی کند.
نشانهها: یک خودروی خودران از حسگرها و الگوریتمهای یادگیری ماشین برای شناسایی و طبقهبندی اشیاء استفاده میکند. اما حتی یک تغییر کوچک در علامت توقف، مانند افزودن یک برچسب کوچک، میتواند طبقهبندیکنندهی خودرو را به اشتباه بیندازد و علامت را نادرست تفسیر کند. این امر میتواند بهطور بالقوه منجر به تصادف شود.
تاریخچه یادگیری ماشین خصمانه
محققان علوم کامپیوتر در طول قرن بیستم به توسعه مفهوم یادگیری ماشین و پیادهسازیهایی مانند شبکههای عصبی پرداختند. (برای مطالعه تاریخچه هوش مصنوعی اینجا کلیک کنید.) به عنوان نمونه، جفری هینتون، روانشناس شناختی و دانشمند کامپیوتر بریتانیایی-کانادایی، در دهه ۱۹۸۰ کمکهای چشمگیری به آموزش شبکههای عصبی عمیق کرد. در آن زمان، حملات خصمانه تنها جنبه تئوری داشتند و نگرانی جدی ایجاد نمیکردند.
در سال ۲۰۰۴، محققانی مانند نیلش دالوی، که اکنون مدیر ارشد فناوری در Fiddler AI است، به آسیبپذیریهای بسیاری در طبقهبندیکنندههای فیلتر هرزنامه پیبردند. این آسیبپذیریها در مقابل حملات پیچیده یک نقطه ضعف اساسی بودند.
ده سال بعد، کارشناسان فهمیدند که حتی کلاسیفایرهای پیشرفته، مانند شبکههای عصبی عمیق و ماشینهای بردار پشتیبان، نیز در برابر حملات خصمانه آسیبپذیر هستند. امروزه شرکتهای بزرگ فناوری مانند مایکروسافت و گوگل اقدامات پیشگیرانهای انجام میدهند. به عنوان مثال، این شرکتها کدهای خود را منبع باز میکنند تا دیگر کارشناسان بتوانند به شناسایی آسیبپذیریها کمک کنند. این تلاشها به یافتن راههایی برای اطمینان از مقاوم بودن مدلهای یادگیری ماشین در برابر حملات خصمانه کمک میکند.
هوش مصنوعی و یادگیری ماشین نقش مهمی در استراتژیهای امنیت سایبری شرکتها دارند. با این حال، شرکتها باید خطرات و مزایای استفاده از هوش مصنوعی را در امنیت سایبری به دقت ارزیابی کنند.