چالش‌های مدل‌های زبان بزرگ: آیا پیشرفت‌های جدید منجر به دقت بیشتر می‌شود؟

شرکت OpenAI به تازگی با دریافت سرمایه‌گذاری ۶.۶ میلیارد دلاری، گامی بزرگ در تاریخ هوش مصنوعی برداشت. هدف این سرمایه‌گذاری، افزایش ابعاد مدل‌های زبانی بزرگ، حجم داده‌ها و منابع محاسباتی است. در سوی دیگر، مدیر عامل Anthropic اعلام کرد که این شرکت در حال توسعه مدل‌هایی به ارزش یک میلیارد دلار است و مدل‌هایی به ارزش ۱۰۰ میلیارد دلار به زودی عرضه خواهند شد.

اما در حالی که هزینه‌ها به سرعت افزایش می‌یابد، تحقیق جدیدی که در نشریه Nature منتشر شده، نشان می‌دهد که با رشد مدل‌های زبان بزرگ، دقت و اعتمادپذیری آنها ممکن است کاهش یابد.

مشکلی که باید جدی گرفت

محققان دانشگاه پلی‌تکنیک والنسیا بر این باورند که بسیاری از افراد تصور می‌کنند که با افزایش قدرت مدل‌ها و بهینه‌سازی‌های آن‌ها از جمله تنظیم دقیق و فیلتر کردن، این مدل‌ها از نظر دقت نیز بهتر می‌شوند. به عبارت دیگر، مردم این اشتباه را می‌کنند که هرچه مدل‌ها بزرگ‌تر شوند، خطاهای آن‌ها قابل پیش‌بینی‌تر خواهند بود.

اما آنچه که انسان‌ها سخت می‌بینند، لزوماً همان چیزی نیست که مدل‌های زبان بزرگ به آن دچار می‌شوند. محققان با استفاده از مدل‌های قدیمی و جدید OpenAI (ChatGPT)، Meta (Llama) و BigScience (BLOOM) آزمایش‌هایی انجام دادند. این آزمایش‌ها شامل سوالات در زمینه‌های جمع و تفریق، واژگان، جغرافیا و علوم پایه و پیشرفته بود.

نتایج این تحقیق نشان داد که مدل‌های جدیدتر و بزرگ‌تر عملکرد بهتری در وظایفی دارند که انسان‌ها آن‌ها را دشوارتر می‌بینند. اما همچنان این مدل‌ها در انجام وظایفی که انسان‌ها آن‌ها را ساده ارزیابی می‌کنند، مشکل دارند. به عبارت دیگر، هیچ شرایطی وجود ندارد که این مدل‌ها بتوانند بدون خطا عمل کنند.

از آنجا که مدل‌های جدید بیشتر بر موارد دشوار تمرکز دارند، شکاف میان آنچه انسان‌ها دشوار می‌بینند و موفقیت مدل‌ها عمیق‌تر می‌شود.

آیا مدل‌های بزرگ‌تر بهترند؟

به جای پرسیدن این که آیا مدل‌های زبان بزرگ‌تر بهترند، باید این پرسش را مطرح کرد: «آیا می‌توان صحت مدل را به سرعت بررسی کرد؟» این سوال را Bishwaranjan Bhattacharjee، مخترع ارشد IBM مطرح کرده است. مشکل اینجاست که انسان‌ها اغلب نمی‌توانند خطاهای مدل‌ها را شناسایی کنند و حتی زمانی که گزینه «مطمئن نیستم» در اختیارشان قرار می‌گیرد، ممکن است پاسخ‌های نادرست مدل‌ها را صحیح تلقی کنند.

Lexin Zhou، یکی از نویسندگان تحقیق، می‌گوید: «خطاها در مدل‌های جدید به طور چشمگیری افزایش یافته‌اند. این مدل‌ها به ندرت از پاسخ دادن به سوالات خارج از توان خود خودداری می‌کنند. مشکل بزرگ‌تر این است که این مدل‌ها با اعتماد به نفس، پاسخ‌های نادرست ارائه می‌دهند.» این یافته‌ها نشان می‌دهند که انسان‌ها برای نظارت صحیح بر این مدل‌ها به اندازه کافی آموزش‌دیده نیستند.

چرخه عمر مدل‌های زبان بزرگ

با توجه به محدودیت‌ها و هزینه‌های بالای مدل‌های زبان بزرگ، برخی از کارشناسان بر این باورند که شرکت‌ها ابتدا از مدل‌های بزرگ استفاده خواهند کرد و سپس به مدل‌های سفارشی و متناسب با نیازهای خاص خود خواهند رسید. مدل‌های زبان بزرگ انعطاف‌پذیری زیادی دارند و می‌توانند برای اثبات قابلیت‌های هوش مصنوعی در کسب‌وکارهای نوپا مفید باشند. اما هنگامی که کسب‌وکارها به کاربردهای خاص خود پی‌بردند، می‌توانند مدل‌ها را بهینه‌سازی کنند تا نسخه‌های کوچکتر و کارآمدتر با هزینه کمتر ایجاد شود.

Edward Calvesbert، معاون مدیریت محصولات در IBM’s watsonx در این زمینه می‌گوید: «مدل‌های زبانی بزرگ مانند چاقوی سوئیسی هستند. آنها به شما انعطاف‌پذیری زیادی می‌دهند، اما در نهایت، شما برای انجام کار خاص به ابزار دقیق‌تری نیاز خواهید داشت.»

در نهایت

اگرچه مدل‌های زبان بزرگ پیشرفت‌های قابل توجهی داشته‌اند، همچنان در برخی زمینه‌ها دچار خطا هستند. این خطاها به خصوص در مسائلی که انسان‌ها آن‌ها را ساده می‌بینند، قابل توجه هستند. با وجود این پیشرفت‌ها، نیاز به روش‌هایی برای ارزیابی سریع خطاها و اصلاح آن‌ها احساس می‌شود. بنابراین، حتی با سرمایه‌گذاری‌های زیاد و افزایش ابعاد مدل‌ها، هنوز مسائل زیادی باقی مانده است که باید حل شوند.