آیا مدلهای زبانی بزرگ میتوانند بهتر از پژوهشگران ایدههای تحقیقاتی خلق کند؟
این سوالی است که پژوهشگران در دانشگاه استفورد به آن پرداختهاند و یک مولد هوش مصنوعی را با دانشمندان در یک آزمایش قرار دادهاند. یک مولد ایده مبتنی بر هوش مصنوعی موفق شد ایدههای پژوهشی اورجینالتری نسبت به ایدههایی که ۵۰ دانشمند بهطور مستقل ارائه کردند، تولید کند.
در این پژوهش، ایدههای تولید شده توسط انسان و هوش مصنوعی به داوران ارائه شد. داوران نمیدانستند که کدام ایده توسط هوش مصنوعی و کدام ایده توسط پژوهشگران ارائه شده است. این ارزیابی چیزی شبیه آزمون تورینگ است. داوران در ارزیابی خود، ایدههای تولید شده توسط هوش مصنوعی را جذابتر و بهتر از ایدههای انسانی ارزیابی کردند.
با این حال، دانشمندان اشاره میکنند که این مطالعه که هنوز توسط همتایان بررسی نشده، دارای محدودیتهایی است. این تحقیق بر یک حوزه خاص از پژوهش متمرکز بود و از شرکتکنندگان انسانی خواسته شد تا بهصورت آنی ایدههایی ارائه دهند که احتمالاً توانایی آنها برای تولید بهترین مفاهیم خود را محدود کرده است.
هوش مصنوعی در علم
تلاشهای زیادی برای بررسی چگونگی استفاده از مدلهای زبانی بزرگ جهت خودکارسازی وظایف پژوهشی، از جمله نوشتن مقالات، نوشتن برنامه و جستجوی ادبیات علمی در حال گسترش است. اما ارزیابی اینکه آیا این ابزارهای هوش مصنوعی میتوانند زوایای جدید پژوهشی را با سطحی مشابه با انسانها تولید کنند، دشوار بوده است.
دلیل آن این است که ارزیابی ایدهها بسیار ذهنی است و نیازمند جمعآوری پژوهشگرانی با تخصص برای ارزیابی دقیق آنهاست، به گفته یکی از نویسندگان این مقاله، Chenglei Si، دانشمند کامپیوتر در دانشگاه استنفورد، «بهترین راه برای ما جهت بسترسنجی چنین تواناییهایی، انجام مقایسه مستقیم است.»
این پروژه که یک سال به طول انجامید، یکی از بزرگترین تلاشها برای ارزیابی اینکه آیا مدلهای زبانی بزرگ، فناوری پایهای ابزارهایی مانند ChatGPT، میتوانند ایدههای پژوهشی نوآورانه تولید کنند، است. تیم تحقیقاتی بیش از ۱۰۰ پژوهشگر در پردازش زبان طبیعی را جذب کردند. چهل و نه شرکتکننده مامور شدند تا طی ده روز، ایدههایی بر اساس یکی از هفت موضوع تعیینشده بنویسند. بهعنوان انگیزه، پژوهشگران به هر ایده ۳۰۰ دلار پرداختند و برای پنج ایده با بالاترین امتیاز، ۱۰۰۰ دلار جایزه اضافه تعلق گرفت.
در همین حال، پژوهشگران یک مولد ایده با استفاده از Claude 3.5، ساختند. آنها به ابزار هوش مصنوعی خود دستور دادند تا با استفاده از Semantic Scholar، یک موتور جستجوی ادبیات علمی مبتنی بر هوش مصنوعی، مقالات مرتبط با هفت موضوع پژوهشی را بیابد. سپس بر اساس این مقالات، از نماینده هوش مصنوعی خود خواستند تا ۴۰۰۰ ایده در هر موضوع پژوهشی تولید کند و به آن دستور دادند تا ایدههای اصیلتر را رتبهبندی کند.
سپس پژوهشگران ایدههای تولیدشده توسط انسان و هوش مصنوعی را بهطور تصادفی به ۷۹ داور اختصاص دادند که هر ایده را از نظر نوآوری، جذابیت، قابلیت اجرا و اثربخشی مورد انتظار ارزیابی کردند. برای اطمینان از اینکه خالق ایدهها برای داوران ناشناخته باقی بماند، پژوهشگران از مدل زبانی دیگری استفاده کردند تا هر دو نوع متن را ویرایش کرده و سبک و لحن نوشتاری آنها را بدون تغییر ایدهها استاندارد کنند.
بهطور متوسط، داوران ایدههای تولیدشده توسط هوش مصنوعی را از نظر اصالت و جذابیت نسبت به ایدههای ارائهشده توسط شرکتکنندگان انسانی ارزیابی کردند. اما زمانی که تیم تحقیقاتی به بررسی دقیقتر ۴۰۰۰ ایده تولیدشده توسط مدلهای زبانی بزرگ پرداخت، تنها حدود ۲۰۰ ایده واقعاً منحصربهفرد یافتند، که نشان میدهد هوش مصنوعی با افزایش تولید ایدهها اصالت خود را از دست داده است.
نتایج نشان میدهد که مدلهای زبانی بزرگ ممکن است قادر باشند ایدههایی تولید کنند که کمی اصالت بیشتری نسبت به ادبیات موجود دارند، به گفته کونگ لو، محقق یادگیری ماشین در دانشگاه بریتیش کلمبیا در ونکوور، کانادا. اما اینکه آیا آنها میتوانند از نوآورترین ایدههای انسانی پیشی بگیرند، سوالی باز است.
SI و همکارانش قصد دارند ایدههای تولیدشده توسط هوش مصنوعی را با مقالات برجسته کنفرانسها مقایسه کنند تا درک بهتری از عملکرد مدلهای زبانی بزرگ در برابر خلاقیت انسانی بهدستآورند. او افزود: «ما سعی داریم جامعه را ترغیب کنیم تا بیشتر درباره اینکه آینده چگونه باید باشد فکر کنند، زمانی که هوش مصنوعی میتواند نقش فعتری در فرآیند پژوهش ایفا کند.»