شرکت چینی علی بابا ساعاتی پیش از سری جدید مدل هوش مصنوعی خود با نام Qwen 3 رونمایی کرد. Qwen 3 مجموعهای از مدلها است که به ادعای شرکت علی بابا، میتواند با بهترین مدلهای ارائه شده از سوی گوگل و OpenAI رقابت کند و حتی از آنها پیشی بگیرد.
معرفی Qwen 3
تیم Qwen در تویتی رسمی از انشتار متن باز مدل Qwen3 خبر داد. به گفته آنها این مجموعه شامل دو مدل مبتنی بر معماری MoE و شش مدل متراکم است که از ۰.۶ میلیارد پارامتر تا ۲۳۵ میلیارد پارامتر دارند.
به گفته علیبابا، مدلهای Qwen3 از نوع «ترکیبی» هستند، یعنی میتوانند بسته به نوع مسئله، یا بهسرعت پاسخ بدهند یا برای حل مسائل پیچیده، زمان بیشتری برای «استدلال» صرف کنند. این توانایی استدلالی باعث میشود مدل بتواند بهنوعی خودش را ارزیابی و صحتسنجی کند.
برخی از مدلهای Qwen 3 از معماری MoE استفاده میکنند که کارآمدتر است. این معماری مسائل را به زیرمسائل تقسیم میکند و آنها را به مدلهای متخصص کوچکتر واگذار مینماید.
مدلهای Qwen3 از ۱۱۹ زبان پشتیبانی میکنند و بر روی مجموعه دادهای با حدود ۳۶ تریلیون توکن آموزش دیدهاند. ( برای درک بهتر اندازه ۳۶ تریلیون توکن، این مقدار را میتوانید معادل ۳۰۰ میلیون کتاب ۳۰۰ صفحهای بندایند) این دادهها شامل کتابهای درسی، پرسش و پاسخها، قطعه کدها، دادههای تولیدشده توسط هوش مصنوعی و منابع متنوع دیگر هستند.
انواع مدلهای Qwen 3
مجموعه مدلهای Qwen3، شامل دو نوع اصلی هستند: مدلهای متراکم (Dense) و مدلهای ترکیبی از نوع Mixture of Experts . مدلهای متراکم دارای ساختاری یکنواختاند و تمام پارامترهای آنها در طول پردازش فعال هستند. این مدلها در اندازههای متنوعی از ۶۰۰ میلیون تا ۳۲ میلیارد پارامتر ارائه شدهاند و با طول کانتکست یا پنجره زمینه قابلتوجه، توانایی پردازش متنهای بسیار طولانی را دارند. در مقابل، مدلهای MoE با فعالسازی تنها بخشی از پارامترها در هر پردازش، بهرهوری بالاتری دارند و امکان پردازشهای پیچیدهتر را با مصرف منابع کمتر فراهم میکنند.
جدول زیر تمامی این مدلها را نشان میدهد:
نام مدل | تعداد لایهها | طول کانتکست |
---|---|---|
Qwen3-0.6B | ۲۸ | ۳۲٬۰۰۰ توکن |
Qwen3-1.7B | ۲۸ | ۳۲٬۰۰۰ توکن |
Qwen3-4B | ۳۶ | ۳۲٬۰۰۰ توکن |
Qwen3-8B | ۳۶ | ۱۲۸٬۰۰۰ توکن |
Qwen3-14B | ۴۰ | ۱۲۸٬۰۰۰ توکن |
Qwen3-32B | ۶۴ | ۱۲۸٬۰۰۰ توکن |
Qwen3-30B-A3B | ۴۸ | ۱۲۸٬۰۰۰ توکن |
Qwen3-235B-A22B | ۹۴ | ۱۲۸٬۰۰۰ توکن |
مدلهای Qwen3 بهگونهای طراحی شدهاند که پاسخگویی سریع و توانایی استدلال عمیق را با یکدیگر ترکیب میکنند. این طراحی دوحالته (تفکر و غیرتفکر) به کاربران اجازه میدهد بسته به نیاز خود، بین سرعت و دقت تعادل برقرار کنند. از سوی دیگر، با انتشار آزاد این مدلها و ارائه آنها در پلتفرمهایی مانند Hugging Face و ModelScope، پژوهشگران و توسعهدهندگان در سراسر جهان میتوانند بهسادگی آنها را در پروژههای خود بهکار بگیرند و راهکارهای نوآورانهای در حوزه هوش مصنوعی بسازند.
عملکرد Qwen3 در بنچمارکها
در پلتفرم رقابتهای برنامهنویسی Codeforces، مدل بزرگ Qwen 3 یعنی Qwen-3-235B-A22B موفق شده OpenAI o3-mini و Google Gemini 2.5 Pro را شکست دهد. همینظور در آزمون ریاضی AIME و تست BFCL (ارزیابی توانایی مدل در استدلال درباره مسائل)، نیز از o3-mini بهتر عمل کرده است.
بزرگترین مدلی که فعلاً در دسترس عموم قرار دارد Qwen3-32B است. این مدل نیز رقابتپذیری بالایی دارد و در برخی بنچمارکها از مدلهای مطرح، از جمله OpenAI o1، عملکرد بهتری داشته است. مثلاً در آزمون LiveCodeBench (ارزیابی توانایی در کدنویسی) توانسته o1 را پشت سر بگذارد.
استفاده از مدل Qwen 3
اگر میخواهید مدل Qwen 3 و حتی قویترین آنها یعنی مدل ۲۳۵ میلیارد پارامتری آن را به رایگان استفاده کنید، باید به چت بات رسمی Qwen به آدرس chat.qwen.ai مراجعه کنید.
آیا میتوان آن را بهتر از رقبای آمریکایی دانست؟
در حالی که شرکت علی بابا معتقد است Qwen 3 میتواند رقیب جدیای برای مدلهای آمریکایی باشد، اما باید برای دیدن نتیجه صبر کرد. مدلهای قبلی Qwen نظیر Qwen 2.5 Max عملکرد نسبت خوبی از خود نشان داده بودند. به عنوان نمونه در ارزیابی چت بات آرنا، این مدل توانسته بود نسبت به مدل O1-preview عملکرد بهتری از خود نشان دهد. اما مدلهایی نظیر O3 و Gemini با اختلاف از آن بهتر بودند. حالا باید صبر کرد تا علاوه بر بنچمارکها، نظر کاربران را ببینیم.