در سالهای گذشته بسیاری از کشورها اهداف بزرگی در زمینه هوش مصنوعی در سر پروراندهاند. ایالات متحده و چین با اختلافی چشمگیر بازی را هدایت میکند و پس از آنها کشورهای بسیاری در تلاش هستند تا بتوانند در سطح جهانی نقش آفرینی کنند. فرانسه، هند، امارات از جمله این کشورها هستند. قزاقستان نیز از جمله کشورهایی است که رویای بزرگی در سر دارد. شاید چشم انداز قزاقستان رقابت با بزرگان نباشد، اما میتواند این کشور را نسبت به همسایگان کمی جلوتر بیاندازد.
مدلهای زبانی بزرگ و زبانهای کوچک
آنچه که در مورد مدلهای زبانی بزرگ اهمیت دارد، داده است. به همین خاطر است که بسیاری از این مدلها، بهترین عملکرد را بر روی زبان انگلیسی و پس از آن ماندرین یا اسپانیایی دارند. زیرا دادهها در آن زبانها بیشتر وجود دارد.
Common Crawl یکی از بزرگترین منابع برای آموزش مدلهای زبانی بزرگ به حساب میآید. Common Crawl یک سازمان غیرانتفاعی است که اطلاعات آنلاین را بایگانی میکند و به صورت رایگان در دسترس عموم قرار می دهد. آمارها نشان میدهد که بیش از 70 درصد از کل داده های مبتنی بر وب از هفت زبان اصلی می آیند: انگلیسی، روسی، آلمانی، ژاپنی، چینی، اسپانیایی و فرانسوی. در این میان زبان انگلیسی ۴۳ درصد کل دادههای وب را تشکیل میدهد. قزاقستان 0.0298 درصد را به خود اختصاص داده است. به عبارت دیگر، اگر به طور تصادفی در 10000 صفحه وب پیمایش کنید، سه صفحه به زبان قزاقستانی خواهند بود. 605 به زبان روسی و 4337 به زبان انگلیسی. همین موضوع سبب شده است که مدلهای زبانی بزرگ، در زبانهای کمتر مطرح نظیر زبان فزاقی، عملکرد چندان مناسبی نداشته باشند.
دیون ویگینز، مدیر ارشد فناوری Omniscience، یک شرکت متخصص در راه حلهای پردازش زبان مبتنی بر هوش مصنوعی، میگوید اهمیت ثانویهای که به زبانهای کوچکتر داده میشود، منجر به مدلهای هوش مصنوعی میشود که دیدگاه جهان غربی را ترویج میکنند. او گفت: “اگر به Grok یا Llama یا ChatGPT بروید، همه آنها کم و بیش یکسان هستند زیرا همه آنها از یک داده یاد می گیرند.
حالا حرکت قزاقستان به سمت توسعه مدلهای زبانی قزاقی، تلاشی برای توسعه روایت قزاقی در دنیای هوش مصنوعی است. روایتی که از اخلاق قزاقستان، تاریخ قزاقستان، لنزهای قزاقستانی، و دیدگاهی از این بخش از جهان پشتیبانی میشود. نمونه خوب در این حوزه، دیپ سیک است. مدلی که روایتی مطابق با خواسته چین به کاربران ارائه میکند و سانسور بخشی از آن است.
مدلهای هوش مصنوعی قزاقستانی
در نهایت در دسامبر ۲۰۲۴، مدل زبانی KazLLM به عنوان اولین مدل زبانی مبتنی بر زبان قزاقی توسط موسسه سیستمهای هوشمند و هوش مصنوعی دانشگاه نظربایف رونمایی شد. این رونمایی همانند کشف طلا برای کشور قزاقستان است.
KazLLM که برای پردازش و تولید متن به زبانهای قزاقستانی، روسی، انگلیسی و ترکی طراحی شده است، با استفاده از مجموعه دادههای گستردهای که از منابعی مانند رسانههای خبری، وبسایتهای دولتی و مواد دسترسی آزاد جمعآوری شده است، توسعه داده شد. عملکرد این مدل حتی یان لکون، رئیس هوش مصنوعی و تحقیقات غول فناوری ایالات متحده متا را نیز مورد تحسین قرار داد.
چندی بعد شرکت Inception و دانشگاه هوش مصنوعی محمد بن زاید (MBZUAI) با همکاری شرکت Cerebras، مدل زبانی بزرگ قزاقی به نام SHERKALA را راهاندازی کردند. این مدل طراحی شده تا بیش از 13 میلیون قزاقیزبان را با قابلیتهای هوش مصنوعی تولیدی تقویت کند.
SHERKALA با استفاده از 8 میلیارد پارامتر و آموزش بر روی 45 میلیارد کلمه در زبانهای قزاقی، انگلیسی، روسی و ترکی، تواناییهای بالایی در درک و تولید متن قزاقی دارد و حتی از برخی مدلهای بزرگتر با 70 میلیارد پارامتر نیز پیشی گرفته است. این مدل به عنوان یک مدل منبع باز در دسترس پژوهشگران، شرکتها و توسعهدهندگان قرار گرفته است و قصد دارد دسترسی به فناوری هوش مصنوعی را در قزاقستان گسترش دهد و به حفظ میراث زبانی و فرهنگی این کشور کمک کند.
توسعه زیرساخت هوش مصنوعی در قزاقستان
اهداف قزاقستان در زمینه هوش مصنوعی بیش از توسعه مدلهای زبانی بزرگ قزاقی است. این کشور حالا به دنبال توسعه ابررایانه خود است. پروژهای که با چالشهای بسیاری مواجه است. در ۱۳ مارس ۲۰۲۵، رئیس جمهور قزاقستان، قاسم جومارت توکایف با توماس پراموتهام، مدیر عامل شرکت هوش مصنوعی Presight AI، ملاقات کرد تا در مورد طرحهایی برای ایجاد یک خوشه ابر رایانه در این کشور بحث کند. طرحی که میتواند بخشی از نیازهای پردازشی قزاقستان را پاسخ دهد و او را در سطح منطقه به یک رهبر تبدیل کند.
قزاقستان سالهاست که در زمینه پردازش به زیرساختهای روسی وابسته است و حالا همکاری این کشور با شرکت Presight.ai که یک شرکت اماراتی است، میتواند راه حل مناسبی باشد. اما محدودیتهای صادراتی ایالات متحده در زمینه پردازندهها سبب شده است که اجرای این پروژه با چالش مواجه شود. موضوعی که میتواند قزاقستان را به سمت چین سوق دهد. در همین اواخر شرکت هواوی Huawei Ascend 910 C را ارائه کرده است. هرچند که قابل مقایسه با محصولات شرکت انویدیا نیست، اما برای کشورهایی نظیر قزاقستان که راهحلهای بسیاری پیش روی آنها نیست، میتواند یک گزینه مناسب باشد.
ساخت یک اکوسیستم هوش مصنوعی به سرمایه انسانی و همچنین زیرساخت نیاز دارد. در سال 2024، قزاقستان شروع به معرفی دوره های سواد هوش مصنوعی در تمام دانشگاه های این کشور کرد. پارک فنی آستانه هاب همچنین پروژه سالانه ای را برای آموزش 700 معلم هوش مصنوعی از 47 دانشگاه ملی آغاز کرده است.
شاید کوچک، اما بزرگ
شاید قزاقستان نامی کوچک در دنیای هوش مصنوعی باشد، اما عملکرد و اهداف او نسبت به بسیاری از کشورها بهتر است. مقایسه کنید که هند، با زیرساخت به مراتب بهتر و ارتباط بسیار بهتر با جهان غرب و همچنین دارا بودن نیروی انسانی متخصص و البته دادههای زبانی بیشتر، همچنان نتوانسته است یک مدل زبانی ملی برای خود توسعه دهد.
با این حال صحبت کردن در مورد آینده قزاقستان و هوش مصنوعی زود است. به ویژه در شرایطی که ژيوپلتیک بیشترین تاثیرات را بر دنیای هوش مصنوعی میگذارد. شاید باید صبر کرد تا آینده را دید.