امروزه هر مدل هوش مصنوعی که معرفی میشه، سریعا به دنبال عملکردش توی بنچمارکهای مختلف هستیم. اما آیا این بنچمارکها واقعا میتوانند مدلها را ارزیابی کنند؟
در این پادکست، به بررسی این موضوع پرداخته میشود. منبع این پادکست، گزارش جدید MIT technology Review است که در تاریخ ۱۸ اردیبهشت ۱۴۰۴ منتشر شده است.