توهم در هوش مصنوعی

Hallucination یا توهم در هوش مصنوعی + برترین مدل‌ها با کمترین نرخ توهم (۲۰۲۵)

توهم یا Hallucination در دنیای هوش مصنوعی شرایطی است که یک مدل پاسخی غیر حقیقی، ساختگی و یا نادرست ارائه می‌کند. نرخ توهم میزان این پاسخ‌ها را شناسایی می‌کند. در این مقاله به بررسی مفهوم توهم هوش مصنوعی می‌پردازیم و در ادامه مدل‌ها با کمترین نرخ توهم در سال ۲۰۲۵ را بررسی می‌کنیم.

در این مقاله می‌خوانید

به پایین چت جی‌پی‌تی اگر دقت کرده باشید، عبارت ChatGPT can make mistakes. Check important info را دیده‌اید. هشداری که به ما می‌گوید مدل‌های هوش مصنوعی ۱۰۰ درصد درست نمی‌گویند! اینجا جایی است که توهم یا Hallucination ممکن است رخ دهد. البته توهم هوش مصنوعی تنها یکی از خطاها است اما خطای پر رنگی است. در این مقاله به بررسی مفهوم Hallucination یا توهم در دنیای هوش مصنوعی می‌پردازیم و سپس برترین مدل‌ها با کمترین نرم توهم یا Hallucination Rates را بررسی می‌کنیم.

توهم یا Hallucination در هوش مصنوعی چیست؟

تا به حال شده است که چت جی‌پی‌تی پاسخ نادرستی به شما بدهد؟ یا حتی پاسخی را بدهد که اصلا معنا نداشته باشد؟ در این شرایط مدل هوش مصنوعی دچار توهم یا Hallucination شده است. Hallucination یا توهم در دنیای هوش مصنوعی به شرایطی اشاره می‌کند که مدل پاسخ‌هایی بدهد که حتی شاید در ظاهر هم درست باشند، اما در نهایت واقعیت ندارند.

با وجود همه تلاش‌ها، اما همچنان مدل‌ها دچار توهم می‌شوند و پاسخ‌های نادرست می‌دهند، پس بهتر است همچنان به ابزارهای هوش مصنوعی اعتماد کامل نداشته باشید.

انواع توهم در هوش مصنوعی

توهم‌ها یک شکل نیستند و انواع مختلفی دارند. در ادامه برخی از مهمترین انواع توهم در هوش مصنوعی را بررسی می‌کنیم.

اطلاعات نادرست: اطلاعات نادرست را تقریبا همه تجربه کرده‌ایم، مدل گاهی پاسخی به ما می‌دهد که به نظر درست می‌رسد، اما ساختگی است. مثلا در اوایل، چت جی‌پی‌تی بسیار منابع و رفرنس‌های دروغین می‌ساخت. مثلا عنوات مقاله‌ای را می‌‌داد که واقعیت نداشت.

تحریف: احتمالا اگر به دنبال کار با اعداد و ارقام باشید، با این موضوع دست و پنجه نرم کرده‌اید. برای همین است که همه می‌‌گویند اعداد و ارقام را حتما چک کنید. در این شرایط ممکن است مفهوم درست باشد، اما کمی تغییر کرده است. مثلا ممکن است هوش مصنوعی ناگهان بگوید که ۸۰ درصد از ایرانیان از هوش مصنوعی استفاده می‌کنند.

پاسخ نامربوط: در این حالت مدل پاسخی که می‌دهد غلط نیست، ساختگی نیست اما ربطی به سوال شما ندارد! مثلا می‌پرسید «قیمت شیر در کنیا» و او در مورد تجارت خرید و فروش حیوانات از جمله شیر در کنیا برای شما می‌نویسد.

 

چرا هوش مصنوعی دچار توهم می‌شود؟

دلایل مختلفی برای توهم هوش مصنوعی وجود دارد. یکی از مهمترین‌ دلایل نبود اطلاعات کافی و مناسب است. متاسفانه مدل‌های هوش مصنوعی کم پیش می‌آید بنویسند «نمی‌دونم». غرور آن‌ها سبب می‌شود در بسیاری از مواقع، حتی با وجود کمبود در داده‌ها، حدس‌هایی بزند و از خودشان چیزی بنویسند.

مسئله دیگری که باید به آن توجه کنید، این است که مدل‌های هوش مصنوعی در حال حاضر بر اساس حقیقت جهان کار نمی‌کنند. بلکه صرفا احتمال کلمه بعدی را بررسی می‌کنند. مثلا وقتی قیمت و شیر کنار هم می‌آیند، هوش مصنوعی ناخودآگاه به سراغ شیر(لبنیات) می‌رود اما وقتی شیر و کنیا پشت سر هم می‌آید، ممکن است کلمات بعدی را به فکر این که منظور از شیر، شیر جنگل است، بنویسد و در نهایت متن را ادامه دهد. و یک دلیل دیگر، داده‌های آموزشی غلط است، مدل اگر اشتباه یادگرفته باشد، اشتباه نیز پاسخ خواهد داد.

 

نرخ توهم یا Hallucination Rates چیست؟

برای سنجش فراوانی توهم در هوش مصنوعی از Hallucination Rates یا نرخ توهم استفاده می‌کنند. Hallucination Rates یک معیار مهم در ارزیابی مدل‌های هوش مصنوعی به ویژه‌ مدل‌های زبانی بزرگ است.

نرخ تورم با روش‌های مختلف اندازه‌گیری و محاسبه می‌شود. در این روش‌ها، درخواست‌هایی به هوش مصنوعی داده می‌شود و در نهایت نسبت پاسخ‌های دارای توهم به کل پاسخ‌ها محاسبه می‌شود.

مثلا در یکی از رایج‌ترین روش‌ها، ۱۰۰۰ متن یا سند به هوش مصنوعی داده می‌شود که باید آن را خلاصه کند و در نهایت درصد خلاصه‌های غیر واقعی محاسبه می‌شود. در این روش هر خلاصه نادرست به عنوان یک توهم در نظر گرفته می‌شود.

یکی دیگر از روش‌ها، نرم تورم میکرو یا MiHR است. در این روش به هر جمله از پاسخ نگاه می‌کنیم. مثلا اگر پاسخی ۲۰ جمله دارد، اگر جمله‌اش شامل توهم باشد، نرخ توهم ۴ درصد است و اگر ۲ جمله توهم داشته باشد، ۸ درصد.

اهمیت توهم در هوش مصنوعی چیست؟

توهم مهم است، چون «حقیقت مهم است». قرار است ابزارهای هوش مصنوعی به بخش مهمی از زندگی ما تبدیل شوند، نمی‌توانیم بپذیریم که به واسطه عملکرد بهتر، به ما دروغ بگویند. توهم در هوش مصنوعی تنها در میان مدل‌های زبانی بزرگ نیست. بلکه در بسیاری از مدل‌ها وجود دارد و چه بسا مهم‌تر نیز باشد.

تصور کنید یک مدل هوش مصنوعی در حوزه پزشکی که به تشخیص بیماری از روی عکس‌های سی‌تی اسکن می‌پردازد، دچار توهم شود و تومور را به اشتباه تشخیص ندهد، در این شرایط جان یک انسان است که در معرض خطر قرار می‌گیرد. از این رو نرخ توهم یکی از مهمترین موضوعات در دنیای هوش مصنوعی است و متخصصین پیوسته در تلاش هستند تا این نرخ را کاهش دهند.

کدام مدل‌ها کمترین نرخ توهم را دارند؟

بر اساس ارزیابی vectara، بیش از ۱۰۰ مدل هوش مصنوعی برتر بر اساس نرخ توهم رتبه‌بندی شده‌اند.

در این رتبه‌بندی، مدل Google Gemini-2.0-Flash-001 محصول شرکت بهترین عملکرد را از خود نشان داده است. نرخ توهم این مدل ۰.۷٪ براورد شده است. رتبه دوم نیز در اختیار Google Gemini-2.0-Pro-Exp با نرخ توهم ۰.۸٪ قرار دارد.

رتبه سوم کمترین نرخ توهم در هوش مصنوعی در اختیار مدل قدرتمند OpenAI-o3-mini-high-reasoning محصول OpenAI است. شکل زیر ۱۵ مدل با کمترین نرخ توهم را نشان می‌دهد.

نرخ توهم هوش مصنوعی در مدل‌های مختلف

 

جدول کامل نتایج این رتبه بندی (شامل ۱۰۸ مدل هوش مصنوعی) در ادامه مشاهده می‌کنید.

مدل‌ها با کمترین نرخ توهم (آپدیت فوریه ۲۰۲۵)

 

 

مدل نرخ توهم نرخ‌پاسخ‌های حقیقی نرخ پاسخگویی میانگین تعداد کلمات در متن خلاصه شده
Google Gemini-2.0-Flash-001 0.7 % 99.3 % 100.0 % 65.2
Google Gemini-2.0-Pro-Exp 0.8 % 99.2 % 99.7 % 61.5
OpenAI-o3-mini-high-reasoning 0.8 % 99.2 % 100.0 % 79.5
Google Gemini-2.0-Flash-Lite-Preview 1.2 % 98.8 % 99.5 % 60.9
OpenAI-GPT-4.5-Preview 1.2 % 98.8 % 100.0 % 77.0
Zhipu AI GLM-4-9B-Chat 1.3 % 98.7 % 100.0 % 58.1
Google Gemini-2.0-Flash-Exp 1.3 % 98.7 % 99.9 % 60.0
OpenAI-o1-mini 1.4 % 98.6 % 100.0 % 78.3
GPT-4o 1.5 % 98.5 % 100.0 % 77.8
Amazon Nova-Micro-V1 1.6 % 98.4 % 100.0 % 90.0
GPT-4o-mini 1.7 % 98.3 % 100.0 % 76.3
GPT-4-Turbo 1.7 % 98.3 % 100.0 % 86.2
Google Gemini-2.0-Flash-Thinking-Exp 1.8 % 98.2 % 99.3 % 73.2
Amazon Nova-Lite-V1 1.8 % 98.2 % 99.9 % 80.7
GPT-4 1.8 % 98.2 % 100.0 % 81.1
Amazon Nova-Pro-V1 1.8 % 98.2 % 100.0 % 85.5
GPT-3.5-Turbo 1.9 % 98.1 % 99.6 % 84.1
XAI-2 1.9 % 98.1 100.0 % 86.5
OpenAI-o1 2.4 % 97.6 % 99.9 % 73.0
DeepSeek-V2.5 2.4 % 97.6 % 100.0 % 83.2
Microsoft Orca-2-13b 2.5 % 97.5 % 100.0 % 66.2
Microsoft Phi-3.5-MoE-instruct 2.5 % 97.5 % 96.3 % 69.7
Intel Neural-Chat-7B-v3-3 2.6 % 97.4 % 100.0 % 60.7
Qwen2.5-7B-Instruct 2.8 % 97.2 % 100.0 % 71.0
AI21 Jamba-1.5-Mini 2.9 % 97.1 % 95.6 % 74.5
XAI-2-Vision 2.9 % 97.1 100.0 % 79.8
Qwen2.5-Max 2.9 % 97.1 % 88.8 % 90.4
Snowflake-Arctic-Instruct 3.0 % 97.0 % 100.0 % 68.7
Qwen2.5-32B-Instruct 3.0 % 97.0 % 100.0 % 67.9
Microsoft Phi-3-mini-128k-instruct 3.1 % 96.9 % 100.0 % 60.1
Mistral Small3 3.1 % 96.9 % 100.0 % 74.9
OpenAI-o1-preview 3.3 % 96.7 % 100.0 % 119.3
Google Gemini-1.5-Flash-002 3.4 % 96.6 % 99.9 % 59.4
01-AI Yi-1.5-34B-Chat 3.7 % 96.3 % 100.0 % 83.7
Llama-3.1-405B-Instruct 3.9 % 96.1 % 99.6 % 85.7
DeepSeek-V3 3.9 % 96.1 % 100.0 % 88.2
Microsoft Phi-3-mini-4k-instruct 4.0 % 96.0 % 100.0 % 86.8
Llama-3.3-70B-Instruct 4.0 % 96.0 % 100.0 % 85.3
InternLM3-8B-Instruct 4.0 % 96.0 % 100.0 % 97.5
Microsoft Phi-3.5-mini-instruct 4.1 % 95.9 % 100.0 % 75.0
Mistral-Large2 4.1 % 95.9 % 100.0 % 77.4
Llama-3-70B-Chat-hf 4.1 % 95.9 % 99.2 % 68.5
Qwen2-VL-7B-Instruct 4.2 % 95.8 % 100.0 % 73.9
Qwen2.5-14B-Instruct 4.2 % 95.8 % 100.0 % 74.8
Qwen2.5-72B-Instruct 4.3 % 95.7 % 100.0 % 80.0
Llama-3.2-90B-Vision-Instruct 4.3 % 95.7 % 100.0 % 79.8
Claude-3.7-Sonnet 4.4 % 95.6 % 100.0 % 97.8
Claude-3.7-Sonnet-Think 4.5 % 95.5 % 99.8 % 99.9
XAI Grok 4.6 % 95.4 % 100.0 % 91.0
Anthropic Claude-3-5-sonnet 4.6 % 95.4 % 100.0 % 95.9
Qwen2-72B-Instruct 4.7 % 95.3 % 100.0 % 100.1
Microsoft Phi-4 4.7 % 95.3 % 100.0 % 100.3
Mixtral-8x22B-Instruct-v0.1 4.7 % 95.3 % 99.9 % 92.0
Anthropic Claude-3-5-haiku 4.9 % 95.1 % 100.0 % 92.9
01-AI Yi-1.5-9B-Chat 4.9 % 95.1 % 100.0 % 85.7
Cohere Command-R 4.9 % 95.1 % 100.0 % 68.7
Llama-3.1-70B-Instruct 5.0 % 95.0 % 100.0 % 79.6
Llama-3.1-8B-Instruct 5.4 % 94.6 % 100.0 % 71.0
Cohere Command-R-Plus 5.4 % 94.6 % 100.0 % 68.4
Llama-3.2-11B-Vision-Instruct 5.5 % 94.5 % 100.0 % 67.3
Llama-2-70B-Chat-hf 5.9 % 94.1 % 99.9 % 84.9
IBM Granite-3.0-8B-Instruct 6.5 % 93.5 % 100.0 % 74.2
Google Gemini-1.5-Pro-002 6.6 % 93.7 % 99.9 % 62.0
Google Gemini-1.5-Flash 6.6 % 93.4 % 99.9 % 63.3
Mistral-Pixtral 6.6 % 93.4 % 100.0 % 76.4
Microsoft phi-2 6.7 % 93.3 % 91.5 % 80.8
Google Gemma-2-2B-it 7.0 % 93.0 % 100.0 % 62.2
Qwen2.5-3B-Instruct 7.0 % 93.0 % 100.0 % 70.4
Llama-3-8B-Chat-hf 7.4 % 92.6 % 99.8 % 79.7
Mistral-Ministral-8B 7.5 % 92.5 % 100.0 % 62.7
Google Gemini-Pro 7.7 % 92.3 % 98.4 % 89.5
01-AI Yi-1.5-6B-Chat 7.9 % 92.1 % 100.0 % 98.9
Llama-3.2-3B-Instruct 7.9 % 92.1 % 100.0 % 72.2
Mistral-Ministral-3B 8.3 % 91.7 % 100.0 % 73.2
databricks dbrx-instruct 8.3 % 91.7 % 100.0 % 85.9
Qwen2-VL-2B-Instruct 8.3 % 91.7 % 100.0 % 81.8
Cohere Aya Expanse 32B 8.5 % 91.5 % 99.9 % 81.9
IBM Granite-3.1-8B-Instruct 8.6 % 91.4 % 100.0 % 107.4
Mistral-Small2 8.6 % 91.4 % 100.0 % 74.2
IBM Granite-3.0-2B-Instruct 8.8 % 91.2 % 100.0 % 81.6
Mistral-7B-Instruct-v0.3 9.5 % 90.5 % 100.0 % 98.4
Google Gemini-1.5-Pro 9.1 % 90.9 % 99.8 % 61.6
Anthropic Claude-3-opus 10.1 % 89.9 % 95.5 % 92.1
Google Gemma-2-9B-it 10.1 % 89.9 % 100.0 % 70.2
Llama-2-13B-Chat-hf 10.5 % 89.5 % 99.8 % 82.1
AllenAI-OLMo-2-13B-Instruct 10.8 % 89.2 % 100.0 % 82.0
AllenAI-OLMo-2-7B-Instruct 11.1 % 88.9 % 100.0 % 112.6
Mistral-Nemo-Instruct 11.2 % 88.8 % 100.0 % 69.9
Llama-2-7B-Chat-hf 11.3 % 88.7 % 99.6 % 119.9
Microsoft WizardLM-2-8x22B 11.7 % 88.3 % 99.9 % 140.8
Cohere Aya Expanse 8B 12.2 % 87.8 % 99.9 % 83.9
Amazon Titan-Express 13.5 % 86.5 % 99.5 % 98.4
Google PaLM-2 14.1 % 85.9 % 99.8 % 86.6
DeepSeek-R1 14.3 % 85.7 % 100.0% 77.1
Google Gemma-7B-it 14.8 % 85.2 % 100.0 % 113.0
IBM Granite-3.1-2B-Instruct 15.7 % 84.3 % 100.0 % 107.7
Qwen2.5-1.5B-Instruct 15.8 % 84.2 % 100.0 % 70.7
Qwen-QwQ-32B-Preview 16.1 % 83.9 % 100.0 % 201.5
Anthropic Claude-3-sonnet 16.3 % 83.7 % 100.0 % 108.5
Google Gemma-1.1-7B-it 17.0 % 83.0 % 100.0 % 64.3
Anthropic Claude-2 17.4 % 82.6 % 99.3 % 87.5
Google Flan-T5-large 18.3 % 81.7 % 99.3 % 20.9
Mixtral-8x7B-Instruct-v0.1 20.1 % 79.9 % 99.9 % 90.7
Llama-3.2-1B-Instruct 20.7 % 79.3 % 100.0 % 71.5
Apple OpenELM-3B-Instruct 24.8 % 75.2 % 99.3 % 47.2
Qwen2.5-0.5B-Instruct 25.2 % 74.8 % 100.0 % 72.6
Google Gemma-1.1-2B-it 27.8 % 72.2 % 100.0 % 66.8
TII falcon-7B-instruct 29.9 % 70.1 % 90.0 % 75.5

مشاهده منبع

 

آخرین خبرها

متا آزمایش تراشه‌های هوش مصنوعی خودش را آغاز کرد.

استونی، چت جی‌پی‌تی را به مدارس خواهد آورد.

قرار داد ۵ ساله OpenAI با Core weave به ارزش ۱۱.۹ میلیارد دلار

امارات به دنبال استفاده از هوش مصنوعی برای افزایش بارش باران

ایلان ماسک می‌خواهد Open AI را بخرد.

نشت هوش مصنوعی در پاریس؛ AI Summit در فرانسه میزبان بزرگان هوش مصنوعی

آشنایی با هوش مصنوعی
کاربردهای هوش مصنوعی

جدید‌ترین هوش مصنوعی‌ها

لوگو هوش مصنوعی Wan

wan

Manus AI

Make.com

Le Chat

OmniHuman

Janus Pro

Kinetix

DragGan

openrouter.ai

operator

Storm

Pika Art

Openmagic

Mokker AI

لوگو دیپ سیک

DeepSeek

Buffer AI

Mapify

Gravitywrite

لوگو نوتبوک ال ام

NotebookLM

zipwp

writi.io

Vidalgo

ChatBA

Levels.fyi

مشاور هوشمند اینوآپ

Lensgo

Learn About AI

PDF.ai

Magai

Remini

BetterPic

OpenArt

Maestra

Heights AI

Deciphr

Vidnoz

Followr

Dante

Visme

ContentShake

Koala AI

Soundverse

Guidejar

Coda AI

Biread

Hypernatural

Liner

Read AI

Read AI

Hostinger AI

SoBrief

دیدگاهتان را بنویسید