اگر روند توسعه مدلهای هوش مصنوعی را نگاه کنید،متوجه بزرگ شدن و پیچیده شدن نجومی آنها میشوید. در حالی که مدلها تا چند سال پیش تعداد پارامترهایشان در حدود میلیون بود، حالا به قدری بزرگ و سنگین شدهاند، که توسعه دهندگان آنها حتی ابعاد آنها را رسانهای نمیکنند. مدلهای بزرگ، قدرت و دقت بیشتری دارند، اما به منابع پردازشی قدرتمندی هم نیاز دارند. از سویی مدلهای کوچک، دقت و قدرت کمی دارند، اما سریع هستند و راحتتر کار میکنند و البته ارزانتر هستند. در این میان، تقطیر دانش یا Knowledge Distillation پدیدهای است که این امکان را میدهد که مدلهای کوچکتری ساخت که قدرت و کارایی مدلهای بزرگ را داشته باشند.
تقطیر دانش چیست؟
تقطیر دانش یک تکنیک یادگیری ماشین است که در آن یک مدل بزرگ و دقیق به نام مدل معلم یا Teacher Model، به یک مدل کوچکتر و سبکتر که مدل دانش آموز یا Student Model نام دارد آموزش میدهد. هدف این کار آن است که مدل کوچک ما، عملکرد مدل بزرگ را تا حد ممکن تقلید کند، اما با هزینه محاسباتی کمتر.
همانطور که از اسمش هم میتوان فهمید، این مدل در دنیای واقعی ما هم دیده میشود. همانطوری که یک استاد یا معلم، حاصل سالها تجربه و دانشش را میتواند به صورت خلاصه، به یک دانش آموز بگوید. در واقع چیزی که استاد برای درک کردنش مجبور بوده است سالها در آزمایشگاه تلاش کند، حالا نتیجه نهایی اش را به راحتی بیان میکند تا بقیه هم یاد بگیرند.
تاریخچهای کوتاه از ایده تقطیر دانش
تقطیر دانش برای اولین بار در سال ۲۰۱۵ در مقاله جفری هینتون و همکارانش مطرح شد. در آن زمان، مدلهای هوش مصنوعی اغلب به صورت گروهی از مدلها یا «مجموعهای از مدلها» (Ensemble Models) اجرا میشدند که هر کدام خروجی خاص خود را داشتند. این روش گرچه دقت را افزایش میداد، اما اجرای آن بسیار گران و البته و پیچیده بود.
هینتون و همکارانش تصمیم گرفتند به جای اجرای چند مدل، آن دانش را به یک مدل منفرد و فشرده منتقل کنند. آنها مشاهده کردند که مدلهای بزرگ، حتی وقتی پاسخ نهاییشان اشتباه است، باز هم اطلاعات باارزشی درباره شباهتها و تفاوتها میان برچسبهای خروجی دارند. مثلاً اشتباه گرفتن یک سگ با یک روباه، منطقیتر از اشتباه گرفتن آن با یک پیتزا است، پس همین دانش ارزشمند است. این تفاوتها که در خروجی احتمالات مدل دیده میشود، نوعی «دانش پنهان» یا Dark Knowledge محسوب میشود. اتفاقی که حالا به ما کمک میکند بتوانیم مدلهایی داشته باشیم که سبکتر هستند، اما قدرت خوبی دارند.
چگونه تقطیر دانش کار میکند؟
در حالت معمول، مدلهای یادگیری ماشین با استفاده از برچسبهای صحیح (Label) آموزش داده میشوند. اما در تقطیر دانش، مدل دانشآموز نهفقط از برچسبهای صحیح، بلکه از «خروجیهای نرم» (Soft Targets) مدل معلم نیز یاد میگیرد.
خروجیهای نرم، در واقع توزیع احتمالاتی هستند که مدل معلم برای هر کلاس خروجی ارائه میدهد. مثلاً مدل معلم میگوید که تصویر، ۷۰٪ احتمال دارد سگ باشد، ۲۰٪ روباه و ۱۰٪ گربه. این توزیع اطلاعات دقیقتری از سطح اطمینان مدل به هر پیشبینی در اختیار میگذارد و به مدل دانشآموز کمک میکند تا مرزهای تصمیمگیری را بهتر یاد بگیرد. به صورت کلی، فرایند تقطیر دانش را میتوان در سه مرحله دید:
-
آموزش مدل معلم: ابتدا یک مدل بزرگ با دقت بالا آموزش داده میشود.
-
تولید خروجیهای نرم: مدل معلم دادههای آموزشی را پردازش کرده و توزیع احتمال پیشبینیها را تولید میکند.
-
آموزش مدل دانشآموز: مدل کوچکتر با استفاده از ترکیبی از خروجیهای نرم و برچسبهای واقعی آموزش میبیند.
چرا تقطیر دانش در دنیای هوش مصنوعی مهم است؟
با رشد مدلهای زبانی بزرگ، استفاده از آنها در دستگاههای کوچک مانند تلفن همراه، سیستمهای شخصی و … دشوارتر شده است. این مدلها به توان پردازشی بالا، حافظه زیاد و زمان پاسخ طولانی نیاز دارند. تقطیر دانش راهکاری برای فشردهسازی این مدلهاست بدون اینکه دقت و کیفیت عملکرد بهشدت آسیب ببیند. در این شرایط، تقطیر دانش میتواند کاربردهای مهمی داشته باشد. برخی از این کاربردها عبارتند از:
-
اجرای مدلهای هوش مصنوعی روی دستگاههای لبهای (Edge Devices)
-
بهینهسازی عملکرد اپلیکیشنهای موبایل
-
کاهش هزینههای پردازش در سرورهای ابری
-
افزایش سرعت پاسخدهی سیستمهای هوشمند
در واقع میتوان گفت که تقطیر دانش به ما اجازه میدهد که هوش مصنوعی را در جاهای بیشتری استفاده کنیم. بدون آنکه به قدرت پردازشی زیادی نیاز داشته باشیم.
نمونههای معروف از مدلهای تقطیرشده
یکی از معروفترین نمونهها، DistilBERT است. این مدل نسخهای فشردهشده از مدل BERT گوگل است که در سال ۲۰۱۸ معرفی شد. DistilBERT با وجود اندازه کوچکتر، عملکرد قابل قبولی داشت و در بسیاری از سیستمهای پردازش زبان طبیعی هم مورد استفاده قرار گرفت. از دیگر نمونهها میتوان به TinyBERT و MobileBERT اشاره کرد که برای اجرا روی موبایل و دستگاههای کممصرف بهینهسازی شدهاند.
تقطیر دانش و احتمال سو استفادهها
یکی از بحثبرانگیزترین موضوعات در سالهای اخیر، ماجرای شرکت چینی DeepSeek و ادعای آن در استفاده از تقطیر دانش برای شبیهسازی عملکرد مدلهای محرمانه مانند مدل o1 شرکت OpenAI بود. گرچه تقطیر دانش به صورت عمومی در دسترس است، اما برای اجرای دقیق آن نیاز به دسترسی داخلی به مدل معلم وجود دارد.
با این حال، برخی معتقدند که میتوان با ارسال پرسشهای هوشمندانه به مدل معلم و استفاده از پاسخهای آن، مدل دانشآموزی ساخت که کارایی مشابهی داشته باشد. این روش، بیشتر شبیه گفتوگوی سقراطی است تا مهندسی معکوس مستقیم.
تقطیر در مدلهای زنجیره تفکر
اخیراً پژوهشگران دانشگاه برکلی نشان دادند که تقطیر دانش حتی در مدلهای مبتنی بر «زنجیره تفکر» (Chain-of-Thought) نیز مؤثر است. این مدلها برای حل مسائل پیچیده، استدلال چندمرحلهای انجام میدهند. آزمایشها نشان دادند که مدل Sky-T1، با هزینهای کمتر از ۴۵۰ دلار آموزش داده شد و عملکردی مشابه مدلهای بسیار بزرگتر داشت.
در نهایت
تقطیر دانش یکی از مهمترین و پرکاربردترین تکنیکها در دنیای امروز هوش مصنوعی است. این روش به ما اجازه میدهد تا مدلهایی سبک، سریع و کمهزینه بسازیم که همچنان از دقت بالایی برخوردار باشند. در جهانی که منابع سختافزاری محدودند و نیاز به اجرای مدلهای هوشمند در دستگاههای کوچک و کممصرف روزبهروز بیشتر میشود، تقطیر دانش راهی نوین و کارآمد برای پیشبرد هوش مصنوعی در سطحی وسیع و فراگیر به شمار میرود.
پژوهشگران همچنان در حال توسعه روشهای جدید تقطیر، کشف کاربردهای نوین و بهینهسازی این فرآیند هستند. بدون شک، در آیندهای نهچندان دور، بخش بزرگی از هوش مصنوعی اطراف ما به لطف تقطیر، کوچکتر ولی باهوشتر خواهد بود.