استفاده از متون مقالات علمی، یکی از راههای مناسب برای آموزش مدلهای زبانی بزرگ است. ماه گذشته، مشخص شد که ناشر دانشگاهی بریتانیا، تیلور و فرانسیس، قراردادی 10 میلیون دلاری با مایکروسافت امضا کرده است که به این شرکت اجازه میدهد تا به دادههای ناشر برای بهبود سیستمهای هوش مصنوعی خود دسترسی داشته باشد.
و در ماه ژوئن، یک بهروزرسانی سرمایهگذار نشان داد که ناشر آمریکایی Wiley با اعطای دسترسی به یک شرکت فناوری ناشناس، ۲۳ میلیون دلار کسب درآمد داشته است.
لوسی لو وانگ، محقق هوش مصنوعی در دانشگاه واشنگتن در سیاتل، میگوید هر چیزی که برای خواندن آنلاین در دسترس است – چه در یک مخزن دسترسی باز یا نه – به احتمال زیاد به یک مدل زبانی بزرگ وارد شده است. او همچنین میگوید: «و اگر مقالهای قبلاً به عنوان داده آموزشی در یک مدل استفاده شده باشد، پس از آموزش مدل، راهی برای حذف آنمقاله وجود ندارد».
تقریبا میتوان گفت اگر مقالات علمی شما تا به امروز برای آموزش یک مدل زبانی بزرگ استفاده نشدهاست. به زودی استفاده خواهد شد. این موضوع واکنش پژوهشگران را در برداشته است که آیا ناشران این حق را دارند که دادههای آنها را بفروشند؟
مقالات علمی، دیتاستهای بینظیر برای آموزش مدلهای زبانی بزرگ
مدلهای زبانی بزرگ بر روی حجم عظیمی از دادهها آموزش میبینند. آنها الگوهایی را بین غالباً میلیاردها بخش زبان در دادههای آموزشی که به عنوان توکن شناخته میشوند، استخراج میکنند که به آنها اجازه بازتولید متنهای فوقالعاده روان میدهد.
استفان باک، که مجموعه دادههای آموزشی هوش مصنوعی را در بنیاد موزیلا تجزیه و تحلیل میکند، میگوید: «مقالات آکادمیک به دلیل طول و چگالی اطلاعات بالا برای سازندگان LLM ارزشمند هستند.» وانگ، که S2ORC را که مجموعه ای از داده ها بر اساس 81.1 میلیون مقاله آکادمیک را ایجاد کرده است معتقد است مدل های آموزشی بر روی حجم وسیعی از اطلاعات علمی به آنها توانایی بسیار بهتری برای استدلال در مورد موضوعات علمی می دهد.