بنچمارک Humanity’s Last Exam یا آخرین آزمون بشریت چیست؟

بنچمارک‌ها ابزار مهمی برای ارزیابی عملکرد مدل‌های هوش مصنوعی هستند. این آزمون‌ها نشان می‌دهند که یک مدل در چه حوزه‌هایی قوی است و در کجا ضعف دارد. محققان از بنچمارک‌ها برای مقایسه مدل‌ها و بهبود آن‌ها استفاده می‌کنند.

در سال‌های اخیر، مدل‌های زبانی بزرگ پیشرفت زیادی کرده‌اند. این مدل‌ها توانایی بالایی در پردازش زبان طبیعی دارند. اما برای سنجش دقیق‌تر آن‌ها، به آزمون‌های سخت‌تر نیاز داریم. “آزمون نهایی بشریت” (Humanity’s Last Exam) یکی از پیچیده‌ترین و سخت‌ترین بنچمارک‌های جدید است که حتی بسیاری از مدل‌ها جرئت وارد شدن به آن را ندارند. در این مقاله به معرفی و بررسی بنجمارک Humanity’s Last Exam یا آخرین آزمون بشریت می‌پردازیم.

آشنایی با بنچمارک «آخرین آزمون بشریت»

«آخرین آزمون بشریت» یک بنچمارک جدید برای سنجش توانایی مدل‌های هوش مصنوعی است. این آزمون را مرکز ایمنی هوش مصنوعی (CAIS) و شرکت Scale AI طراحی کرده‌اند. هدف از این آزمون، بررسی مهارت‌های پیشرفته هوش مصنوعی در حل مسائل پیچیده است. برخلاف بسیاری از بنچمارک‌های قبلی، این آزمون فقط بر مهارت‌های زبانی تمرکز ندارد. مدل‌های هوش مصنوعی برای موفقیت در این آزمون باید استدلال کنند، مفاهیم علمی را درک کنند و مسائل ریاضی را حل کنند.

از نظر میزان سختی، این بنچمارک به قدری دشوار است که نتایج آن را می‌توان به عنوان معیاری برای رسیدن به هوش مصنوعی جنرال یا همان AGI در نظر گرفت.

برای به چالش کشیدن مدل‌های هوش مصنوعی،۳۰۰۰ سوال فوق‌العاده سخت، توسط بیش از ۱۰۰۰ دانشمند (ریاضی دان، فیلسوف، مهندسین راکت و …) از ۵۰ کشور جهان، طراحی شده است. برخی از این سوالات، به قدری سخت طراحی شده‌اند که هر کدام جایزه ۵ هزار دلاری داشته‌اند.

ساختار و ویژگی‌های سؤالات بنچمارک «آخرین آزمون بشریت»

سؤالات این بنچمارک برای ارزیابی عمیق توانایی‌های مدل‌های هوش مصنوعی طراحی شده‌اند. برخلاف بسیاری از آزمون‌های استاندارد، این سؤالات فقط به دانش عمومی متکی نیستند. مدل‌ها باید مهارت‌های تحلیلی، استدلالی و حل مسئله داشته باشند تا بتوانند به درستی پاسخ دهند.

تنوع حوزه‌های علمی

آزمون شامل ۳۰۰۰ سؤال از بیش از ۱۰۰ حوزه مختلف است. ۴۲ درصد از سؤالات مربوط به ریاضیات است، زیرا این حوزه نیازمند استدلال منطقی و توانایی حل مسئله است. سایر سؤالات به رشته‌هایی مانند فیزیک، زیست‌شناسی، مهندسی، علوم اجتماعی و علوم انسانی اختصاص دارند.

ترکیب سؤالات چندرسانه‌ای

برخی از سؤالات فقط متنی هستند، اما بسیاری از آن‌ها شامل نمودارها، تصاویر، جداول و داده‌های عددی می‌شوند. مدل‌های هوش مصنوعی باید این اطلاعات را تفسیر کرده و به درستی تحلیل کنند. این ویژگی، آزمون را به چالشی جدی برای مدل‌های زبانی تبدیل می‌کند.

سطح دشواری بالا

طراحان آزمون، سؤالات را طوری طراحی کرده‌اند که حتی برای انسان‌ها نیز دشوار باشند. بسیاری از پرسش‌ها نیاز به درک عمیق مفاهیم و توانایی ترکیب اطلاعات از منابع مختلف دارند. این آزمون فقط بر اساس حفظ کردن اطلاعات ارزیابی نمی‌شود، بلکه بر مهارت‌های استدلالی و منطقی تأکید دارد.

عدم امکان اتکا به داده‌های از پیش دیده‌شده
در برخی بنچمارک‌های رایج، مدل‌های هوش مصنوعی می‌توانند به دلیل دیده شدن داده‌های مشابه در مرحله آموزش، عملکرد خوبی داشته باشند. اما در «آخرین آزمون بشریت»، بسیاری از سؤالات جدید و منحصربه‌فرد هستند. این ویژگی باعث می‌شود که مدل‌ها نتوانند صرفاً بر اساس الگوهای آماری به پاسخ صحیح برسند.

این ویژگی‌ها باعث شده که «آخرین آزمون بشریت» یکی از سخت‌ترین بنچمارک‌های هوش مصنوعی باشد. مدل‌های فعلی در این آزمون عملکرد ضعیفی داشته‌اند، که نشان می‌دهد هنوز راه زیادی تا دستیابی به هوش عمومی مصنوعی (AGI) باقی مانده است.

برخی از سوالات این بنچمارک به صورت عمومی منتشر شده است و اما برای این که از بیش‌برازش یا Overfitting مدل‌ها جلوگیری شود، برخی از سوالات نیز پنهان مانده اند.

مقایسه بنچمارک Humanity’s Last Exam (HLE) با سایر بنچمارک‌ها

امروزه بنچمارک‌های مختلفی برای سنجش و مقایسه عملکرد مدل‌های هوش مصنوعی وجود دارد. پنچمارک‌هایی نظیر MMLU ، MATH و GPQA از معروف‌ترین این بنچمارک‌ها هستند. هنگامی که یک مدل هوش مصنوعی جدید وارد بازار می‌شود، با این بنچمارک‌ها مورد ارزیابی قرار می‌گیرد. اما این بنچمارک‌ها در مقایسه با بنچمارک HLE یا همان آخرین آزمون بشریت، تنها یک شوخی هستند.

به عنوان نمونه، در در حالی که مدل معروف GPT-4o در بنچمارک‌هایی نظیر MMLU امتیازی بالای ۸۰ می‌گیرند، در بنچمارک HLE تنها ۳.۲ امتیاز (از ۱۰۰) بدست آورده است. هوش مصنوعی Deepseek R1 در حال حاضر بیشترین امتیاز (۹.۴) را دارد. نمودار زیر، عملکرد مدل‌ها در بنچمارک‌های مختلف را نشان می‌دهد.

برای درک بهتر، بیایید یک مثال بزنیم. تصور کنید مدل هوش مصنوعی O1 یکی از باهوش ترین مدل هاست. او در همه امتحان‌های مدرسه نمره‌ای زیر ۱۶ نداشته است، اما در درس آخرین آزمون بشریت، نمره او حتی ۲ هم نشده است. تازه این یکی از دانش‌آموزهای باهوش مدرسه است.

قوی‌ترین هوش مصنوعی در بنچمارک Humanity’s Last Exam

در حال حاضر، بهترین عملکرد در بنچمارک هیومنیتیز لست اگزم متعلق به ابزار Deep research در چت جی‌پی‌تی است. به شکلی باورنکردنی، دیپ ریسرچ توانسته است امتیاز ۲۶/۶ درصد را کسب کند که اختلاف بسیار بالایی با بقیه مدل‌ها دارد. جدول زیر، امتیازات برخی از مدل‌های هوش مصنوعی در این بنچمارک را نمایش می‌دهد.

مدل	دقت (٪)
GPT-4o	3.3
Grok-2	3.8
Claude 3.5 Sonnet	4.3
Gemini Thinking	6.2
OpenAI o1	9.1
DeepSeek-R1	9.4
OpenAI o3-mini (medium)	10.5
OpenAI o3-mini (high)	13.0
OpenAI deep research	26.6

برخی از سوالات بنچمارک HLE

اما سوالات بنچمارک HLE مگر چقدر سخت است؟ خب بیایید یکی از سوالات آن را بررسی کنیم.

نمونه سوال فیزیک در بنچمارک آخرین آزمون بشریت

یک بلوک روی یک ریل افقی قرار گرفته است که می‌تواند بدون اصطکاک روی آن حرکت کند. این بلوک به انتهای یک میله صلب و بدون جرم به طول R متصل شده است. در انتهای دیگر این میله، یک جرم متصل شده است. هر دو جسم دارای وزنی برابر با W هستند.

سیستم در ابتدا ساکن است، به‌طوری که جرم دقیقاً بالای بلوک قرار دارد. به این جرم یک ضربه بسیار کوچک در راستای موازی با ریل داده می‌شود. فرض کنید که سیستم به‌گونه‌ای طراحی شده است که میله می‌تواند بدون مانع یک چرخش کامل ۳۶۰ درجه انجام دهد.

وقتی میله در حالت افقی قرار دارد، نیروی کششی (تنش) آن T₁ است. زمانی که میله دوباره در حالت عمودی قرار گیرد، به‌طوری که جرم مستقیماً زیر بلوک قرار بگیرد، نیروی کششی آن T₂ خواهد بود. (این مقادیر می‌توانند منفی باشند، که در این صورت نشان می‌دهد میله تحت فشار است.)

مقدار (T₁ − T₂) / W چقدر است؟

نمونه سوال زبان‌شناسی در پنچمارک Humanity’s Last Exam

من متن استاندارد عبری کتاب مقدس را از Biblia Hebraica Stuttgartensia (مزمور ۱۰۴:۷) ارائه می‌کنم. وظیفه شما این است که بین هجاهای بسته و باز تمایز قائل شوید.

لطفاً تمامی هجاهای بسته (هجاهایی که به یک صامت ختم می‌شوند) را شناسایی و فهرست کنید، بر اساس جدیدترین پژوهش‌ها درباره سنت تلفظ طبری عبری کتاب مقدس، که توسط پژوهشگرانی مانند جفری خان، آرون دی. هورنکول، کیم فیلیپس، و بنجامین سوچارد انجام شده است.

منابع قرون‌وسطایی، مانند نسخه‌های دست‌نویس قرائیمی، به پژوهشگران مدرن کمک کرده‌اند تا جنبه‌های خاصی از تلفظ عبری کتاب مقدس در سنت طبری را بهتر درک کنند، از جمله ویژگی‌ها و عملکردهای شوا و اینکه کدام حروف در پایان هجاها به عنوان صامت تلفظ می‌شدند.

مִן־גַּעֲרָ֣תְךָ֣ יְנוּס֑וּן מִן־ק֥וֹל רַֽ֝עַמְךָ֗ יֵחָפֵזֽוּן (مزمور ۱۰۴:۷)

سوالی از شاخه زیست شناسی

مرغ‌های مگس‌خوار در راسته Apodiformes به‌طور منحصربه‌فردی دارای یک استخوان بیضوی دوطرفه جفت‌شده هستند، یک استخوان سزاموئید که در بخش دمی‌جانبی آپونوروز متقاطع و گسترده محل اتصال عضله m. depressor caudae قرار دارد. این استخوان سزاموئید از چند تاندون جفت‌شده پشتیبانی می‌کند؟ پاسخ را به صورت یک عدد بیان کنید.

احتمالا فهمیده‌اید که سوالات این بنچمارک تا چه اندازه تخصصی و حرفه‌ای هستند. این سوالات را متخصصین و دانشمندان بزرگ جهان طراحی کرده‌اند. حالا تصور کنید که یک هوش مصنوعی باید در این آزمون، ۳۰۰۰ تا از این سوال ها را پاسخ دهد.

شما هم می‌توانید سوالات خود را ارسال کنید

اگر احساس می‌کنید می‌توانید سوالات سخت طراحی کنید، پس بهتر است شما هم سوالاتتان را به تیم اجرایی ارسال کنید. تا چندی پیش که جایزه همچنان پا برجا بود، ممکن بود با ارسال سوال، برنده جایزه ۵۰۰۰ دلاری شوید. اما الان خبری از جایزه نیست. اما می‌توانید حسابی مدل‌های هوش مصنوعی را اذیت کنید. برای ارسال سوال کافی است به وبسایت رسمی این بنچمارک سر بزنید.

چالش‌ها و محدودیت‌های بنچمارک «آخرین آزمون بشریت»

اگرچه بنچمارک «آخرین آزمون بشریت» یک معیار پیشرفته برای ارزیابی هوش مصنوعی است، اما چالش‌ها و محدودیت‌هایی نیز دارد. یکی از بزرگ‌ترین مشکلات این آزمون، محدودیت‌های موجود در دامنه سؤالات است. برخی از سؤالات ممکن است به‌طور مستقیم بر اساس داده‌های از پیش دیده‌شده طراحی شوند، که این می‌تواند به مدل‌ها این امکان را بدهد تا با استفاده از الگوهای آماری پاسخ دهند. همچنین، بسیاری از سؤالات نیاز به درک عمیق‌تر مفاهیم انسانی دارند که مدل‌های هوش مصنوعی هنوز توانایی درک آن‌ها را ندارند.

دیگر چالش مهم، عدم تطابق کامل با دنیای واقعی است. بسیاری از سؤالات این آزمون به صورت مصنوعی و در محیط‌های کنترل‌شده طراحی شده‌اند، که ممکن است باعث شود مدل‌ها نتوانند در موقعیت‌های واقعی و پیچیده‌تر عملکرد خوبی نشان دهند. علاوه بر این، هزینه‌های بالای طراحی و اجرا برای توسعه‌دهندگان بنچمارک و مدل‌های هوش مصنوعی، یک محدودیت قابل توجه است. این آزمون‌ها ممکن است تنها در شرایط خاصی و برای مدل‌های بسیار پیشرفته انجام شوند، که باعث محدودیت در دسترس بودن آن‌ها برای ارزیابی عمومی می‌شود.

آینده بنچمارک «آخرین آزمون بشریت»

بنچمارک آخرین آزمون بشریت به عنوان یک ابزار ارزیابی پیشرفته، آینده روشنی دارد. نتایج آن به محققان کمک می‌کند تا نقاط ضعف مدل‌های هوش مصنوعی را شناسایی کرده و بهبود بخشند. در آینده، این آزمون ممکن است سؤالات پیچیده‌تر و متنوع‌تری در حوزه‌های مختلف اضافه کند تا به چالش‌های بیشتری برای مدل‌ها تبدیل شود. همچنین، مدل‌های هوش مصنوعی با گذشت زمان ممکن است توانایی‌های استدلالی و تحلیلی بهتری پیدا کنند و به سطحی نزدیک‌تر به هوش عمومی مصنوعی (AGI) برسند.

این بنچمارک می‌تواند به عنوان معیاری برای ارزیابی پیشرفت به سمت AGI استفاده شود. اگر مدلی بتواند در این آزمون موفقیت نسبی به دست آورد، احتمالاً به توانایی‌های هوش انسانی نزدیک شده است. علاوه بر این، آخرین آزمون بشریت می‌تواند در ارزیابی خطرات مرتبط با AGI و کمک به سیاست‌گذاران در تدوین مقررات هوش مصنوعی نقش مهمی ایفا کند.