درک تقارن، قدمی بلند برای هوش مصنوعی: MIT چگونه یادگیری ماشین را کارآمدتر کرد؟

در دنیای یادگیری ماشین، یکی از چالش‌های مهم که کمتر به آن توجه شده است، مسئله‌ی «تقارن» در داده‌هاست؛ پدیده‌ای که بسیاری از ساختارهای طبیعی، علمی و حتی فنی بر اساس آن شکل گرفته‌اند. تیمی از پژوهشگران MIT اخیراً راه‌حلی خلاقانه و علمی برای این چالش ارائه داده‌اند: الگوریتمی جدید که داده‌های متقارن را به‌شکلی مؤثر و دقیق یاد می‌گیرد. این دستاورد نه‌تنها کارایی مدل‌های یادگیری ماشین را افزایش می‌دهد، بلکه زمینه‌ساز پیشرفت‌هایی در حوزه‌هایی مانند طراحی دارو، نجوم و فیزیک نظری است.

اما مسئله از کجا آغاز شد؟ چه چیزی درک تقارن را برای مدل‌های هوشمند دشوار می‌کرد؟ و این الگوریتم تازه، دقیقاً چه چیزی را تغییر داده است؟ بیایید قدم‌به‌قدم به این پرسش‌ها پاسخ دهیم.

چرا تقارن برای یادگیری ماشین یک مسئله است؟

فرض کنید تصویری از یک مولکول در اختیار دارید. حالا همان تصویر را اندکی بچرخانید یا از زاویه‌ای دیگر به آن نگاه کنید. شما به‌عنوان یک انسان فوراً تشخیص می‌دهید که همچنان با همان ساختار سروکار دارید. اما بسیاری از مدل‌های یادگیری ماشین، به‌ویژه مدل‌های تصویری یا گرافی، در مواجهه با این تغییرات ظاهری گیج می‌شوند. برای آن‌ها تصویر چرخیده‌شده مثل یک نمونه‌ی جدید و ناآشناست.

این مشکل فقط در تصاویر ساده یا داده‌های بصری رخ نمی‌دهد. در حوزه‌هایی مانند شیمی محاسباتی، فیزیک ماده چگال یا حتی تحلیل شبکه‌های اجتماعی، ساختارهای متقارن فراوان‌اند. مثلاً مولکول‌هایی که با چرخش یا تقارن بازتابی، ماهیت‌شان تغییر نمی‌کند، یا شبکه‌هایی که گره‌های هم‌ارز دارند.

عدم درک مسئله تقارن، از طرفی نشان می‌دهد که مدل همچنان به خوبی کار نمی‌کند، یعنی تضمین یادگیری آن کمتر است. و از سوی دیگر باعث می‌شود به حجم زیادی داده آموزشی نیاز باشد.

روش‌های کلاسیک؛ چرا دیگر کافی نیستند؟

پیش از این، محققان دو رویکرد اصلی برای حل این مسئله داشتند: یکی افزایش مصنوعی داده‌ها (Data Augmentation) و دیگری طراحی معماری‌های خاص مثل شبکه‌های گرافی (همان GNNها).

در روش اول، به‌جای آموزش مدل روی یک تصویر، همان تصویر را در جهت‌ها و حالات مختلف تولید می‌کردند تا مدل از طریق تکرار، به درک تقارن برسد. اما این روش از طرفی هم محاسبات سنگینی نیاز دارد و هم کنترل دقیقی بر یادگیری مدل ندارد. در واقع، شما امیدوارید مدل خودش تقارن را کشف کند.

در روش دوم، معمار‌ی‌های خاصی طراحی شدند تا به‌طور ذاتی نسبت به تقارن حساس باشند. شبکه‌های گرافی، به‌خاطر ماهیت گراف‌محورشان، می‌توانند اطلاعاتی را مستقل از ترتیب گره‌ها پردازش کنند. اما همچنان، درک دقیق این موضوع که چرا و چگونه این معماری‌ها تقارن را یاد می‌گیرند، شفاف نیست. بیشتر اوقات، این مدل‌ها مانند جعبه سیاه عمل می‌کنند.

الگوریتم MIT: وقتی جبر و هندسه با یادگیری ماشین دست می‌دهند

پژوهشگران دانشگاه MIT، از جمله، دو متخصص ایرانی،بهروز طهماسبی، اشکان سلیمانی، استفانی یگلکا و پاتریک ژایه، با یک رویکرد تلفیقی، موفق شدند الگوریتمی طراحی کنند که هم از نظر آماری کارآمد باشد و هم از نظر محاسباتی. آن‌ها در ابتیدا یک سوال از خود پرسیدند؛ پرسشی که در نگاه اول ساده به‌نظر می‌رسد، اما در دل خود یکی از چالش‌های بنیادین یادگیری ماشین را هدف می‌گیرد:

«اگر بدانیم که داده‌ها ساختاری متقارن دارند، چطور می‌توانیم مدلی طراحی کنیم که این تقارن را به‌صورت مستقیم در فرایند یادگیری وارد کند؟»

تقارن، به زبان ساده، یعنی تغییری در ورودی که خروجی مدل را تغییر نمی‌دهد. فرض کنید قرار است مدلی طراحی کنید که به یک تصویر نگاه کند و بگوید آیا این تصویر مربوط به یک صحنه‌ی طبیعی است یا خیر. حال اگر همین تصویر را ۱۸۰ درجه بچرخانید، پاسخ مدل نباید تغییر کند. این یعنی خروجی باید نسبت به چرخش، «تقارن» داشته باشد.

یا در یک مثال ملموس‌تر: اگر مدل قرار است از روابط بین افراد در یک شبکه اجتماعی الگو بگیرد، نباید مهم باشد که نفر اول را در ورودی، اول وارد کرده‌اید یا دوم. در هر دو حالت، مدل باید همان رابطه را تشخیص دهد.

پژوهشگران به این فکر افتادند که آیا می‌توان سازوکار یادگیری را طوری بازطراحی کرد که این تقارن‌ها نه به‌عنوان اختلال، بلکه به‌عنوان بخشی از ساختار مسئله در نظر گرفته شوند؟ برای این منظور، آن‌ها مسیر تحلیلی چهارمرحله‌ای را پیشنهاد دادند؛ مسیری که از ریاضیات محض آغاز می‌شود و به الگوریتمی کاربردی ختم می‌گردد. نتایج کامل کار این پژوهشگران را می‌توانید در این مقاله مطالعه کنید.

۱. تحلیل نظری: تقارن، به‌مثابه کاهنده‌ی نیاز به داده

در نخستین گام، آن‌ها مسئله را از منظر نظری بررسی کردند. با استفاده از ابزارهای ریاضی نشان دادند که اگر یک مدل از پیش بداند که داده‌ها نسبت به برخی تغییرات (مثلاً جابجایی، چرخش، یا بازتاب) تقارن دارند، دیگر نیازی نیست برای آموزش آن، از هزاران نمونه‌ی تغییرشکل‌یافته استفاده کنیم.
به‌عبارت دیگر، تقارن می‌تواند مانند یک «ضریب صرفه‌جویی» در داده عمل کند.
در حالت عادی، برای اینکه مدلی بفهمد یک تصویر در حالت چرخیده‌شده نیز همان معنا را دارد، باید صدها تصویر چرخانده‌شده به آن نشان دهیم. اما اگر مدل از ابتدا بداند که نسبت به چرخش باید بی‌تفاوت باشد، دیگر نیازی به چنین تکرارهایی نیست. این موضوع اهمیت فراوانی دارد، به‌ویژه در کاربردهایی که داده‌ها کمیاب، پرهزینه یا خصوصی هستند.

۲. بازنویسی جبری: ساده‌سازی مسئله از طریق زبان جبر

در گام دوم، پژوهشگران سراغ زبان جبر رفتند. آن‌ها تلاش کردند ساختارهای متقارن را به‌صورت روابط جبری بازنویسی کنند. این کار باعث شد بتوانند مدل را طوری فرموله کنند که تقارن‌ها به‌صورت درونی در ساختار آن لحاظ شوند.

در این مرحله، الگوریتم دیگر صرفاً یک تابع یادگیرنده نبود که بخواهد از صفر شروع کند، بلکه به کمک فرمول‌های جبری، از همان ابتدا بخشی از ساختار مسئله را درک می‌کرد. این بازنویسی ریاضی، پایه‌گذار مرحله‌ی بعد شد: یافتن بازنمایی هندسی مناسب برای داده‌ها.

۳. بازتعریف هندسی: نگاشت داده به فضایی با تقارن درونی

مرحله‌ی سوم، بازتعریف هندسی داده‌ها بود. محققان داده‌ها را به فضای جدیدی نگاشتند که در آن، ویژگی‌های تقارنی حفظ می‌شد. این فضا به‌گونه‌ای طراحی شد که جابجایی یا چرخش در داده‌ها باعث تغییر در موقعیت نسبی آن‌ها نشود.

برای درک بهتر این ایده، تصور کنید که می‌خواهید موقعیت یک جسم را روی یک سطح دایره‌ای مدل کنید. اگر از مختصات دکارتی استفاده کنید، چرخش جسم موقعیت آن را تغییر می‌دهد. اما اگر از مختصات قطبی استفاده کنید، تنها زاویه تغییر می‌کند، و می‌توانید این تغییر را به‌عنوان تقارن در مدل لحاظ کنید. پژوهشگران نیز با ترفندهایی مشابه، داده‌ها را به فضایی منتقل کردند که نسبت به تقارن‌ها پایدار باقی می‌ماند.

نتیجه‌ی این مرحله، تبدیل داده‌های خام به بازنمایی‌های هندسی‌ای بود که ساختار درونی آن‌ها، فارغ از تغییرات سطحی، حفظ می‌شد. این بازتعریف هندسی، راه را برای مدل‌سازی دقیق‌تر و بهینه‌سازی ساده‌تر هموار کرد.

۴. فرموله‌سازی بهینه‌سازی: یادگیری با محدودیت‌های تقارنی

در گام نهایی، تیم پژوهشی مسئله‌ی یادگیری را به‌صورت یک مسئله‌ی بهینه‌سازی تعریف کرد. اما با یک تفاوت مهم: در کنار هدف یادگیری، مجموعه‌ای از محدودیت‌ها نیز به مدل اعمال شد؛ محدودیت‌هایی که همان تقارن‌ها را تضمین می‌کردند.

این یعنی مدل نه‌تنها باید عملکرد خوبی در پیش‌بینی یا دسته‌بندی داشته باشد، بلکه باید اطمینان حاصل کند که خروجی‌اش نسبت به تغییرات تقارنی پایدار باقی بماند. در واقع، مدل یاد می‌گیرد، اما فقط در محدوده‌ای که تقارن‌ها اجازه می‌دهند. پیاده‌سازی این چارچوب ریاضی، منجر به طراحی الگوریتمی شد که به‌صورت ذاتی از ساختار متقارن داده‌ها بهره‌مند می‌شود، بدون اینکه نیاز باشد طراح مدل صراحتاً این تقارن‌ها را در معماری شبکه لحاظ کند یا هزاران داده‌ی افزوده تولید کند.

الگوریتمی سریع‌تر، دقیق‌تر و هوشمندانه‌تر

در انتهای مسیر، نتیجه بسیار قابل‌توجه بود. الگوریتم پیشنهادی توانست داده‌های متقارن را هم با دقت بالاتر یاد بگیرد، هم با سرعت بیشتر پردازش کند.
برای مثال، در برخی سناریوها، این مدل به اندازه‌ی نیمی از داده‌های معمول نیاز داشت تا به همان سطح از دقت برسد. علاوه بر آن، در آزمایش‌هایی که شامل تصاویر، گراف‌ها یا داده‌های مکانی بودند، مدل عملکردی باثبات‌تر و قابل‌اتکاتر از روش‌های رایج نشان داد.

اما شاید مهم‌ترین مزیت این روش آن باشد که مستقل از نوع تقارن عمل می‌کند. برخلاف برخی روش‌ها که فقط برای چرخش یا تقارن آینه‌ای طراحی شده‌اند، این الگوریتم می‌تواند با هر نوع تقارنی که به‌صورت ریاضی تعریف‌پذیر باشد، کار کند.

به بیان دیگر، پژوهشگران دانشگاه MIT موفق شدند الگوریتمی طراحی کنند که به‌جای «نادیده‌گرفتن» تقارن، آن را در بطن فرایند یادگیری قرار دهد؛ نه با آزمون‌وخطا، بلکه با طراحی دقیق ریاضی.

این فقط یک الگوریتم نیست، یک الگوی جدید است

این الگوریتم تنها یک ابزار نیست؛ بلکه راهی برای بازتعریف رابطه‌ی بین ساختارهای ریاضی و یادگیری ماشین است. تا پیش از این، الگوریتم‌ها عمدتاً تلاش می‌کردند تقارن را «تحمل» کنند. اما اکنون، این الگوریتم از تقارن به‌عنوان منبعی برای کاهش پیچیدگی یادگیری استفاده می‌کند.

این نگاه می‌تواند الهام‌بخش طراحی شبکه‌های عصبی جدیدی باشد که در آن‌ها، درک ساختارهای ذاتی داده، مثل تقارن یا تکرار یا تناسب و …، بخشی از معماری مدل باشد، نه صرفاً یک ویژگی جانبی.

کاربردهای این الگوریتم: از کشف دارو تا تحلیل داده‌های نجومی

شاید در نگاه اول چندان مهم به نظر نرسد اما این الگوریتم کاربردهای واقعا مهم و گسترده‌ای دارد و می‌تواند بکارگیری هوش مصنوعی در حوزه‌های تخصصی را به شدت تسهیل کند. برخی از این کاربردها عبارتند از:

کشف دارو: بسیاری از داروها ساختارهای مولکولی متقارنی دارند. الگوریتم جدید می‌تواند مدل‌هایی بسازد که با داده‌های کمتر، پیش‌بینی دقیق‌تری از خواص شیمیایی ارائه دهند.
نجوم و فیزیک: داده‌های نجومی معمولاً متقارن‌اند؛ از ساختار کهکشان‌ها گرفته تا رفتار امواج کیهانی. بهره‌گیری از تقارن می‌تواند تحلیل این داده‌ها را دقیق‌تر کند.
مهندسی مواد: در طراحی مواد جدید، مدل‌سازی ساختارهای بلوری نیازمند فهم تقارن است؛ الگوریتم MIT می‌تواند این کار را ساده‌تر کند.
پردازش گراف و شبکه: در شبکه‌های پیچیده (مثلاً شبکه‌های اجتماعی)، ساختار گرافی بسیاری از روابط متقارن است. درک این تقارن‌ها می‌تواند در تحلیل رفتار کاربران یا انتشار اطلاعات مؤثر باشد.

آینده‌ای که از هندسه و جبر الهام می‌گیرد

یکی از دستاوردهای مهم این پروژه، بازگشت به یک اصل قدیمی اما عمیق در علم داده است: ساختار، مهم است.
در جهانی که مدل‌های هوش مصنوعی اغلب با داده‌های عظیم و منابع پردازشی فراوان کار می‌کنند، این الگوریتم نشان می‌دهد که فهم ساختار داده‌ها می‌تواند بسیار مهم‌تر از حجم آن‌ها باشد.

اگر بتوانیم به مدل‌ها یاد بدهیم که به جای صرفاً «دیدن»، «درک» کنند – آن هم بر پایه‌ی مفاهیم ریاضی مانند تقارن – شاید بتوانیم هوش مصنوعی را به مرحله‌ای نزدیک‌تر کنیم که بیشتر شبیه به هوش انسانی باشد.