امروزه صدها مدل هوش مصنوعی وجود دارد. احتمالا اگر شما یک کاربر معمولی در دنیای هوش مصنوعی باشید، تا به حال با چند ده مدل هوش مصنوعی کار کردهاید. اما کدام یک از این مدلها از بقیه بهتر هستند؟ این سوالی است که Chatbot Arena پاسخ آن را به شما میدهد.
بنچمارکهای مختلفی برای بررسی مدلهای هوش مصنوعی وجود دارد. مثلا بنچمارک Humanities Last Exam یکی از سختترین آنهاست. در این بنچمارکها، کامپیوتر است که مدلها را مورد آزمایش قرار میدهد، اما چت بات آرنا از انسان برای رتبه بندی و امتیاز دهی به مدلهای هوش مصنوعی استفاده میکند. از همین رو، نتیجهای که Chatbot Arena به ما میدهد، به سادگی قابل درک است و یک نظر جمعی انسانی است. در این مقاله به بررسی پلتفرم Chatbot Arena میپردازیم.
Chatbot Arena چیست؟
همانطور که از Chatbot Arena میتوان فهمید، این پلتفرم میدان نبرد است. میدانی که مدلهای هوش مصنوعی با هم میجنگند. چت بات آرنا یک پلتفرم آنلاین است که به شما امکان میدهد پاسخهای مدلهای زبان بزرگ را بهصورت بیطرفانه و همزمان مقایسه کنید.
تیم LMSYS دانشگاه برکلی در آوریل ۲۰۲۳ این پلتفرم را راهاندازی کرد. در چت بات آرنا شما ابتدا سؤال خود را وارد میکنید. سپس دو پاسخ ناشناس از مدلهای مختلف دریافت میکنید و پاسخ برتر را انتخاب میکنید. سیستم رتبهبندی ELO به هر رأی امتیاز میدهد. در پایان، امتیازها کیفیت واقعی مدلها را براساس اولویت کاربران نشان میدهد. این پلتفرم از زمان راهاندازی تاکنون بیش از دو میلیون رأی جمعآوری کرده و اکنون بیش از ۱۷۰ مدل را در فهرست خود جای داده است.
تفاوت چت بات آرنا با بنچمارکها چیست؟
چت بات آرنا ارزیابی را بر پایه مقایسه بلادرنگ و رأیگیری کاربران انجام میدهد، اما بنچمارکها از مجموعه دادهٔ از پیش تعریفشده و معیارهای خودکار برای سنجش عملکرد مدلها استفاده میکنند. در بنچمارکها پاسخها بهصورت انبوه و با معیارهایی مثل دقت یا F1 امتیازدهی میشوند، اما در چت بات آرنا کاربران دو پاسخ ناشناس را میبینند و بهترین را انتخاب میکنند. این روش کاربرمحور بازخوردی طبیعی و پویا ارائه میکند، در حالی که بنچمارکها به ارزیابی از نظر عددی و استاندارد تکیه دارند.
آمار و ارقامی از Chatbot Arena
تا کنون کاربران بیش از ۲٫۸ میلیون رأی در «چت بات آرنا» ثبت کردهاند و بیش از ۲۲۹ مدل در این پلتفرم ارزیابی میشوند. پرسشها در دستههای کدنویسی، ریاضیات، پرسشهای دشوار، گفتگوهای چندمرحلهای و دستورالعملمحور گسترش یافتهاند تا توانمندی مدلها در سناریوهای مختلف سنجیده شود.
آموزش مشارکت در ChatBot Arena
اگر شما هم تمایل دارید که در چت بات آرنا مشارکت کنید، میتوانید به سادگی به استفاده از مراحل زیر این کار را انجام دهید:
-
به سایت رسمی چت بات آرنا به آدرس lmarena.ai بروید.
-
در این صفحه( کمی به پایین اسکرول کنید)، سوال خود را بپرسید.
- دو پاسخ برای شما تولید میشود.
- شما میتوانید از بین این دو پاسخ انتخاب کنید که کدام بهتر است ( یا حتی مساوی)
البته خبر خوب این است که نسخه بتا چت بات آرنا منتشر شده است. در نسخه بتا رابط کاربری بسیار بهبود یافته است و به سادگی میتوانید در Chatbot Arena مشارکت کنید.
بهترین مدلها در حال حاضر بر اساس چت بات آرنا کدام اند؟
تا به امروز ( زمان نگارش این مقاله) ۲ میلیون و ۸۰۰ هزار رای در Chatbot Arena ثبت شده است و ۲۲۹ مدل هوش مصنوعی به هم مقایسه شدهاند.
مدل Gemini-2.5-pro به عنوان بهترین مدل انتخاب شده است و پس از آن مدل O3 قرار دارد. برای مشاهده تمامی مدلها و امتیازات آنها میتوانید به صفحه اختصاصی چت بات آرنا در هاگینگ فیس مراجعه کنید.
Chatbot Arena در یک نگاه
در پایان، «چت بات آرنا» با ارائه بستری بیطرفانه و مبتنی بر رأیگیری کاربران توانسته ارزیابی مدلهای زبان بزرگ را از حالت عددی و خشک به تجربهای تعاملی تبدیل کند. این پلتفرم با مقایسه بلادرنگ پاسخها و سیستم رتبهبندی ELO، تصویری واقعیتر از برتری مدلها در سناریوهای متنوع به ما میدهد. حضور بیش از ۲۲۹ مدل و ثبت میلیونها رأی نشاندهنده اعتماد و مشارکت گسترده جامعه کاربران است. با شرکت در «چت بات آرنا» میتوانید نقش فعالی در بهبود و توسعه هوش مصنوعی ایفا کنید.