تقطیر دانش در هوش مصنوعی؛ انتقال خرد از مدل‌های بزرگ به مدل‌های کوچک

اگر روند توسعه مدل‌های هوش مصنوعی را نگاه کنید،‌متوجه بزرگ شدن و پیچیده شدن نجومی آن‌ها می‌شوید. در حالی که مدل‌ها تا چند سال پیش تعداد پارامترهایشان در حدود میلیون بود، حالا به قدری بزرگ و سنگین شده‌اند، که توسعه دهندگان آن‌ها حتی ابعاد آن‌ها را رسانه‌ای نمی‌کنند. مدل‌های بزرگ، قدرت و دقت بیشتری دارند، اما به منابع پردازشی قدرتمندی هم نیاز دارند. از سویی مدل‌های کوچک، دقت و قدرت کمی دارند، اما سریع هستند و راحت‌تر کار می‌کنند و البته ارزان‌تر هستند. در این میان، تقطیر دانش یا Knowledge Distillation پدیده‌ای است که این امکان را می‌دهد که مدل‌های کوچک‌تری ساخت که قدرت و کارایی مدل‌های بزرگ را داشته باشند.

تقطیر دانش چیست؟

تقطیر دانش یک تکنیک یادگیری ماشین است که در آن یک مدل بزرگ و دقیق به نام مدل معلم یا Teacher Model، به یک مدل کوچک‌تر و سبک‌تر که مدل دانش آموز یا Student Model نام دارد آموزش می‌دهد. هدف این کار آن است که مدل کوچک ما، عملکرد مدل بزرگ را تا حد ممکن تقلید کند، اما با هزینه محاسباتی کمتر.

همانطور که از اسمش هم می‌توان فهمید، این مدل در دنیای واقعی ما هم دیده می‌شود. همانطوری که یک استاد یا معلم، حاصل سال‌ها تجربه و دانشش را می‌تواند به صورت خلاصه، به یک دانش آموز بگوید. در واقع چیزی که استاد برای درک کردنش مجبور بوده است سال‌ها در آزمایشگاه تلاش کند، حالا نتیجه نهایی اش را به راحتی بیان می‌کند تا بقیه هم یاد بگیرند.

تاریخچه‌ای کوتاه از ایده تقطیر دانش

تقطیر دانش برای اولین بار در سال ۲۰۱۵ در مقاله جفری هینتون و همکارانش مطرح شد. در آن زمان، مدل‌های هوش مصنوعی اغلب به صورت گروهی از مدل‌ها یا «مجموعه‌ای از مدل‌ها» (Ensemble Models) اجرا می‌شدند که هر کدام خروجی خاص خود را داشتند. این روش گرچه دقت را افزایش می‌داد، اما اجرای آن بسیار گران و البته و پیچیده بود.

هینتون و همکارانش تصمیم گرفتند به جای اجرای چند مدل، آن دانش را به یک مدل منفرد و فشرده منتقل کنند. آن‌ها مشاهده کردند که مدل‌های بزرگ، حتی وقتی پاسخ نهایی‌شان اشتباه است، باز هم اطلاعات باارزشی درباره شباهت‌ها و تفاوت‌ها میان برچسب‌های خروجی دارند. مثلاً اشتباه گرفتن یک سگ با یک روباه، منطقی‌تر از اشتباه گرفتن آن با یک پیتزا است، پس همین دانش ارزشمند است. این تفاوت‌ها که در خروجی احتمالات مدل دیده می‌شود، نوعی «دانش پنهان» یا Dark Knowledge محسوب می‌شود. اتفاقی که حالا به ما کمک می‌کند بتوانیم مدل‌هایی داشته باشیم که سبکتر هستند، اما قدرت خوبی دارند.

چگونه تقطیر دانش کار می‌کند؟

در حالت معمول، مدل‌های یادگیری ماشین با استفاده از برچسب‌های صحیح (Label) آموزش داده می‌شوند. اما در تقطیر دانش، مدل دانش‌آموز نه‌فقط از برچسب‌های صحیح، بلکه از «خروجی‌های نرم» (Soft Targets) مدل معلم نیز یاد می‌گیرد.

خروجی‌های نرم، در واقع توزیع احتمالاتی هستند که مدل معلم برای هر کلاس خروجی ارائه می‌دهد. مثلاً مدل معلم می‌گوید که تصویر، ۷۰٪ احتمال دارد سگ باشد، ۲۰٪ روباه و ۱۰٪ گربه. این توزیع اطلاعات دقیق‌تری از سطح اطمینان مدل به هر پیش‌بینی در اختیار می‌گذارد و به مدل دانش‌آموز کمک می‌کند تا مرزهای تصمیم‌گیری را بهتر یاد بگیرد. به صورت کلی، فرایند تقطیر دانش را می‌توان در سه مرحله دید:

آموزش مدل معلم: ابتدا یک مدل بزرگ با دقت بالا آموزش داده می‌شود.
تولید خروجی‌های نرم: مدل معلم داده‌های آموزشی را پردازش کرده و توزیع احتمال پیش‌بینی‌ها را تولید می‌کند.
آموزش مدل دانش‌آموز: مدل کوچک‌تر با استفاده از ترکیبی از خروجی‌های نرم و برچسب‌های واقعی آموزش می‌بیند.

چرا تقطیر دانش در دنیای هوش مصنوعی مهم است؟

با رشد مدل‌های زبانی بزرگ، استفاده از آن‌ها در دستگاه‌های کوچک مانند تلفن همراه، سیستم‌های شخصی و … دشوارتر شده است. این مدل‌ها به توان پردازشی بالا، حافظه زیاد و زمان پاسخ طولانی نیاز دارند. تقطیر دانش راهکاری برای فشرده‌سازی این مدل‌هاست بدون اینکه دقت و کیفیت عملکرد به‌شدت آسیب ببیند. در این شرایط، تقطیر دانش می‌تواند کاربردهای مهمی داشته باشد. برخی از این کاربردها عبارتند از:

اجرای مدل‌های هوش مصنوعی روی دستگاه‌های لبه‌ای (Edge Devices)
بهینه‌سازی عملکرد اپلیکیشن‌های موبایل
کاهش هزینه‌های پردازش در سرورهای ابری
افزایش سرعت پاسخ‌دهی سیستم‌های هوشمند

در واقع می‌توان گفت که تقطیر دانش به ما اجازه می‌دهد که هوش مصنوعی را در جاهای بیشتری استفاده کنیم. بدون آنکه به قدرت پردازشی زیادی نیاز داشته باشیم.

نمونه‌های معروف از مدل‌های تقطیرشده

یکی از معروف‌ترین نمونه‌ها، DistilBERT است. این مدل نسخه‌ای فشرده‌شده از مدل BERT گوگل است که در سال ۲۰۱۸ معرفی شد. DistilBERT با وجود اندازه کوچکتر، عملکرد قابل قبولی داشت و در بسیاری از سیستم‌های پردازش زبان طبیعی هم مورد استفاده قرار گرفت. از دیگر نمونه‌ها می‌توان به TinyBERT و MobileBERT اشاره کرد که برای اجرا روی موبایل و دستگاه‌های کم‌مصرف بهینه‌سازی شده‌اند.

تقطیر دانش و احتمال سو استفاده‌ها

یکی از بحث‌برانگیزترین موضوعات در سال‌های اخیر، ماجرای شرکت چینی DeepSeek و ادعای آن در استفاده از تقطیر دانش برای شبیه‌سازی عملکرد مدل‌های محرمانه مانند مدل o1 شرکت OpenAI بود. گرچه تقطیر دانش به صورت عمومی در دسترس است، اما برای اجرای دقیق آن نیاز به دسترسی داخلی به مدل معلم وجود دارد.

با این حال، برخی معتقدند که می‌توان با ارسال پرسش‌های هوشمندانه به مدل معلم و استفاده از پاسخ‌های آن، مدل دانش‌آموزی ساخت که کارایی مشابهی داشته باشد. این روش، بیشتر شبیه گفت‌وگوی سقراطی است تا مهندسی معکوس مستقیم.

تقطیر در مدل‌های زنجیره تفکر

اخیراً پژوهشگران دانشگاه برکلی نشان دادند که تقطیر دانش حتی در مدل‌های مبتنی بر «زنجیره تفکر» (Chain-of-Thought) نیز مؤثر است. این مدل‌ها برای حل مسائل پیچیده، استدلال چندمرحله‌ای انجام می‌دهند. آزمایش‌ها نشان دادند که مدل Sky-T1، با هزینه‌ای کمتر از ۴۵۰ دلار آموزش داده شد و عملکردی مشابه مدل‌های بسیار بزرگ‌تر داشت.

در نهایت

تقطیر دانش یکی از مهم‌ترین و پرکاربردترین تکنیک‌ها در دنیای امروز هوش مصنوعی است. این روش به ما اجازه می‌دهد تا مدل‌هایی سبک، سریع و کم‌هزینه بسازیم که همچنان از دقت بالایی برخوردار باشند. در جهانی که منابع سخت‌افزاری محدودند و نیاز به اجرای مدل‌های هوشمند در دستگاه‌های کوچک و کم‌مصرف روزبه‌روز بیشتر می‌شود، تقطیر دانش راهی نوین و کارآمد برای پیشبرد هوش مصنوعی در سطحی وسیع و فراگیر به شمار می‌رود.

پژوهشگران همچنان در حال توسعه روش‌های جدید تقطیر، کشف کاربردهای نوین و بهینه‌سازی این فرآیند هستند. بدون شک، در آینده‌ای نه‌چندان دور، بخش بزرگی از هوش مصنوعی اطراف ما به لطف تقطیر، کوچک‌تر ولی باهوش‌تر خواهد بود.