شرکت OpenAI به تازگی با دریافت سرمایهگذاری ۶.۶ میلیارد دلاری، گامی بزرگ در تاریخ هوش مصنوعی برداشت. هدف این سرمایهگذاری، افزایش ابعاد مدلهای زبانی بزرگ، حجم دادهها و منابع محاسباتی است. در سوی دیگر، مدیر عامل Anthropic اعلام کرد که این شرکت در حال توسعه مدلهایی به ارزش یک میلیارد دلار است و مدلهایی به ارزش ۱۰۰ میلیارد دلار به زودی عرضه خواهند شد.
اما در حالی که هزینهها به سرعت افزایش مییابد، تحقیق جدیدی که در نشریه Nature منتشر شده، نشان میدهد که با رشد مدلهای زبان بزرگ، دقت و اعتمادپذیری آنها ممکن است کاهش یابد.
مشکلی که باید جدی گرفت
محققان دانشگاه پلیتکنیک والنسیا بر این باورند که بسیاری از افراد تصور میکنند که با افزایش قدرت مدلها و بهینهسازیهای آنها از جمله تنظیم دقیق و فیلتر کردن، این مدلها از نظر دقت نیز بهتر میشوند. به عبارت دیگر، مردم این اشتباه را میکنند که هرچه مدلها بزرگتر شوند، خطاهای آنها قابل پیشبینیتر خواهند بود.
اما آنچه که انسانها سخت میبینند، لزوماً همان چیزی نیست که مدلهای زبان بزرگ به آن دچار میشوند. محققان با استفاده از مدلهای قدیمی و جدید OpenAI (ChatGPT)، Meta (Llama) و BigScience (BLOOM) آزمایشهایی انجام دادند. این آزمایشها شامل سوالات در زمینههای جمع و تفریق، واژگان، جغرافیا و علوم پایه و پیشرفته بود.
نتایج این تحقیق نشان داد که مدلهای جدیدتر و بزرگتر عملکرد بهتری در وظایفی دارند که انسانها آنها را دشوارتر میبینند. اما همچنان این مدلها در انجام وظایفی که انسانها آنها را ساده ارزیابی میکنند، مشکل دارند. به عبارت دیگر، هیچ شرایطی وجود ندارد که این مدلها بتوانند بدون خطا عمل کنند.
از آنجا که مدلهای جدید بیشتر بر موارد دشوار تمرکز دارند، شکاف میان آنچه انسانها دشوار میبینند و موفقیت مدلها عمیقتر میشود.
آیا مدلهای بزرگتر بهترند؟
به جای پرسیدن این که آیا مدلهای زبان بزرگتر بهترند، باید این پرسش را مطرح کرد: «آیا میتوان صحت مدل را به سرعت بررسی کرد؟» این سوال را Bishwaranjan Bhattacharjee، مخترع ارشد IBM مطرح کرده است. مشکل اینجاست که انسانها اغلب نمیتوانند خطاهای مدلها را شناسایی کنند و حتی زمانی که گزینه «مطمئن نیستم» در اختیارشان قرار میگیرد، ممکن است پاسخهای نادرست مدلها را صحیح تلقی کنند.
Lexin Zhou، یکی از نویسندگان تحقیق، میگوید: «خطاها در مدلهای جدید به طور چشمگیری افزایش یافتهاند. این مدلها به ندرت از پاسخ دادن به سوالات خارج از توان خود خودداری میکنند. مشکل بزرگتر این است که این مدلها با اعتماد به نفس، پاسخهای نادرست ارائه میدهند.» این یافتهها نشان میدهند که انسانها برای نظارت صحیح بر این مدلها به اندازه کافی آموزشدیده نیستند.
چرخه عمر مدلهای زبان بزرگ
با توجه به محدودیتها و هزینههای بالای مدلهای زبان بزرگ، برخی از کارشناسان بر این باورند که شرکتها ابتدا از مدلهای بزرگ استفاده خواهند کرد و سپس به مدلهای سفارشی و متناسب با نیازهای خاص خود خواهند رسید. مدلهای زبان بزرگ انعطافپذیری زیادی دارند و میتوانند برای اثبات قابلیتهای هوش مصنوعی در کسبوکارهای نوپا مفید باشند. اما هنگامی که کسبوکارها به کاربردهای خاص خود پیبردند، میتوانند مدلها را بهینهسازی کنند تا نسخههای کوچکتر و کارآمدتر با هزینه کمتر ایجاد شود.
Edward Calvesbert، معاون مدیریت محصولات در IBM’s watsonx در این زمینه میگوید: «مدلهای زبانی بزرگ مانند چاقوی سوئیسی هستند. آنها به شما انعطافپذیری زیادی میدهند، اما در نهایت، شما برای انجام کار خاص به ابزار دقیقتری نیاز خواهید داشت.»
در نهایت
اگرچه مدلهای زبان بزرگ پیشرفتهای قابل توجهی داشتهاند، همچنان در برخی زمینهها دچار خطا هستند. این خطاها به خصوص در مسائلی که انسانها آنها را ساده میبینند، قابل توجه هستند. با وجود این پیشرفتها، نیاز به روشهایی برای ارزیابی سریع خطاها و اصلاح آنها احساس میشود. بنابراین، حتی با سرمایهگذاریهای زیاد و افزایش ابعاد مدلها، هنوز مسائل زیادی باقی مانده است که باید حل شوند.