به پایین چت جیپیتی اگر دقت کرده باشید، عبارت ChatGPT can make mistakes. Check important info را دیدهاید. هشداری که به ما میگوید مدلهای هوش مصنوعی ۱۰۰ درصد درست نمیگویند! اینجا جایی است که توهم یا Hallucination ممکن است رخ دهد. البته توهم هوش مصنوعی تنها یکی از خطاها است اما خطای پر رنگی است. در این مقاله به بررسی مفهوم Hallucination یا توهم در دنیای هوش مصنوعی میپردازیم و سپس برترین مدلها با کمترین نرم توهم یا Hallucination Rates را بررسی میکنیم.
توهم یا Hallucination در هوش مصنوعی چیست؟
تا به حال شده است که چت جیپیتی پاسخ نادرستی به شما بدهد؟ یا حتی پاسخی را بدهد که اصلا معنا نداشته باشد؟ در این شرایط مدل هوش مصنوعی دچار توهم یا Hallucination شده است. Hallucination یا توهم در دنیای هوش مصنوعی به شرایطی اشاره میکند که مدل پاسخهایی بدهد که حتی شاید در ظاهر هم درست باشند، اما در نهایت واقعیت ندارند.
با وجود همه تلاشها، اما همچنان مدلها دچار توهم میشوند و پاسخهای نادرست میدهند، پس بهتر است همچنان به ابزارهای هوش مصنوعی اعتماد کامل نداشته باشید.
انواع توهم در هوش مصنوعی
توهمها یک شکل نیستند و انواع مختلفی دارند. در ادامه برخی از مهمترین انواع توهم در هوش مصنوعی را بررسی میکنیم.
اطلاعات نادرست: اطلاعات نادرست را تقریبا همه تجربه کردهایم، مدل گاهی پاسخی به ما میدهد که به نظر درست میرسد، اما ساختگی است. مثلا در اوایل، چت جیپیتی بسیار منابع و رفرنسهای دروغین میساخت. مثلا عنوات مقالهای را میداد که واقعیت نداشت.
تحریف: احتمالا اگر به دنبال کار با اعداد و ارقام باشید، با این موضوع دست و پنجه نرم کردهاید. برای همین است که همه میگویند اعداد و ارقام را حتما چک کنید. در این شرایط ممکن است مفهوم درست باشد، اما کمی تغییر کرده است. مثلا ممکن است هوش مصنوعی ناگهان بگوید که ۸۰ درصد از ایرانیان از هوش مصنوعی استفاده میکنند.
پاسخ نامربوط: در این حالت مدل پاسخی که میدهد غلط نیست، ساختگی نیست اما ربطی به سوال شما ندارد! مثلا میپرسید «قیمت شیر در کنیا» و او در مورد تجارت خرید و فروش حیوانات از جمله شیر در کنیا برای شما مینویسد.
چرا هوش مصنوعی دچار توهم میشود؟
دلایل مختلفی برای توهم هوش مصنوعی وجود دارد. یکی از مهمترین دلایل نبود اطلاعات کافی و مناسب است. متاسفانه مدلهای هوش مصنوعی کم پیش میآید بنویسند «نمیدونم». غرور آنها سبب میشود در بسیاری از مواقع، حتی با وجود کمبود در دادهها، حدسهایی بزند و از خودشان چیزی بنویسند.
مسئله دیگری که باید به آن توجه کنید، این است که مدلهای هوش مصنوعی در حال حاضر بر اساس حقیقت جهان کار نمیکنند. بلکه صرفا احتمال کلمه بعدی را بررسی میکنند. مثلا وقتی قیمت و شیر کنار هم میآیند، هوش مصنوعی ناخودآگاه به سراغ شیر(لبنیات) میرود اما وقتی شیر و کنیا پشت سر هم میآید، ممکن است کلمات بعدی را به فکر این که منظور از شیر، شیر جنگل است، بنویسد و در نهایت متن را ادامه دهد. و یک دلیل دیگر، دادههای آموزشی غلط است، مدل اگر اشتباه یادگرفته باشد، اشتباه نیز پاسخ خواهد داد.
نرخ توهم یا Hallucination Rates چیست؟
برای سنجش فراوانی توهم در هوش مصنوعی از Hallucination Rates یا نرخ توهم استفاده میکنند. Hallucination Rates یک معیار مهم در ارزیابی مدلهای هوش مصنوعی به ویژه مدلهای زبانی بزرگ است.
نرخ تورم با روشهای مختلف اندازهگیری و محاسبه میشود. در این روشها، درخواستهایی به هوش مصنوعی داده میشود و در نهایت نسبت پاسخهای دارای توهم به کل پاسخها محاسبه میشود.
مثلا در یکی از رایجترین روشها، ۱۰۰۰ متن یا سند به هوش مصنوعی داده میشود که باید آن را خلاصه کند و در نهایت درصد خلاصههای غیر واقعی محاسبه میشود. در این روش هر خلاصه نادرست به عنوان یک توهم در نظر گرفته میشود.
یکی دیگر از روشها، نرم تورم میکرو یا MiHR است. در این روش به هر جمله از پاسخ نگاه میکنیم. مثلا اگر پاسخی ۲۰ جمله دارد، اگر جملهاش شامل توهم باشد، نرخ توهم ۴ درصد است و اگر ۲ جمله توهم داشته باشد، ۸ درصد.
اهمیت توهم در هوش مصنوعی چیست؟
توهم مهم است، چون «حقیقت مهم است». قرار است ابزارهای هوش مصنوعی به بخش مهمی از زندگی ما تبدیل شوند، نمیتوانیم بپذیریم که به واسطه عملکرد بهتر، به ما دروغ بگویند. توهم در هوش مصنوعی تنها در میان مدلهای زبانی بزرگ نیست. بلکه در بسیاری از مدلها وجود دارد و چه بسا مهمتر نیز باشد.
تصور کنید یک مدل هوش مصنوعی در حوزه پزشکی که به تشخیص بیماری از روی عکسهای سیتی اسکن میپردازد، دچار توهم شود و تومور را به اشتباه تشخیص ندهد، در این شرایط جان یک انسان است که در معرض خطر قرار میگیرد. از این رو نرخ توهم یکی از مهمترین موضوعات در دنیای هوش مصنوعی است و متخصصین پیوسته در تلاش هستند تا این نرخ را کاهش دهند.
کدام مدلها کمترین نرخ توهم را دارند؟
بر اساس ارزیابی vectara، بیش از ۱۰۰ مدل هوش مصنوعی برتر بر اساس نرخ توهم رتبهبندی شدهاند.
در این رتبهبندی، مدل Google Gemini-2.0-Flash-001 محصول شرکت بهترین عملکرد را از خود نشان داده است. نرخ توهم این مدل ۰.۷٪ براورد شده است. رتبه دوم نیز در اختیار Google Gemini-2.0-Pro-Exp با نرخ توهم ۰.۸٪ قرار دارد.
رتبه سوم کمترین نرخ توهم در هوش مصنوعی در اختیار مدل قدرتمند OpenAI-o3-mini-high-reasoning محصول OpenAI است. شکل زیر ۱۵ مدل با کمترین نرخ توهم را نشان میدهد.
جدول کامل نتایج این رتبه بندی (شامل ۱۰۸ مدل هوش مصنوعی) در ادامه مشاهده میکنید.
مدلها با کمترین نرخ توهم (آپدیت فوریه ۲۰۲۵)
مدل | نرخ توهم | نرخپاسخهای حقیقی | نرخ پاسخگویی | میانگین تعداد کلمات در متن خلاصه شده |
---|---|---|---|---|
Google Gemini-2.0-Flash-001 | 0.7 % | 99.3 % | 100.0 % | 65.2 |
Google Gemini-2.0-Pro-Exp | 0.8 % | 99.2 % | 99.7 % | 61.5 |
OpenAI-o3-mini-high-reasoning | 0.8 % | 99.2 % | 100.0 % | 79.5 |
Google Gemini-2.0-Flash-Lite-Preview | 1.2 % | 98.8 % | 99.5 % | 60.9 |
OpenAI-GPT-4.5-Preview | 1.2 % | 98.8 % | 100.0 % | 77.0 |
Zhipu AI GLM-4-9B-Chat | 1.3 % | 98.7 % | 100.0 % | 58.1 |
Google Gemini-2.0-Flash-Exp | 1.3 % | 98.7 % | 99.9 % | 60.0 |
OpenAI-o1-mini | 1.4 % | 98.6 % | 100.0 % | 78.3 |
GPT-4o | 1.5 % | 98.5 % | 100.0 % | 77.8 |
Amazon Nova-Micro-V1 | 1.6 % | 98.4 % | 100.0 % | 90.0 |
GPT-4o-mini | 1.7 % | 98.3 % | 100.0 % | 76.3 |
GPT-4-Turbo | 1.7 % | 98.3 % | 100.0 % | 86.2 |
Google Gemini-2.0-Flash-Thinking-Exp | 1.8 % | 98.2 % | 99.3 % | 73.2 |
Amazon Nova-Lite-V1 | 1.8 % | 98.2 % | 99.9 % | 80.7 |
GPT-4 | 1.8 % | 98.2 % | 100.0 % | 81.1 |
Amazon Nova-Pro-V1 | 1.8 % | 98.2 % | 100.0 % | 85.5 |
GPT-3.5-Turbo | 1.9 % | 98.1 % | 99.6 % | 84.1 |
XAI-2 | 1.9 % | 98.1 | 100.0 % | 86.5 |
OpenAI-o1 | 2.4 % | 97.6 % | 99.9 % | 73.0 |
DeepSeek-V2.5 | 2.4 % | 97.6 % | 100.0 % | 83.2 |
Microsoft Orca-2-13b | 2.5 % | 97.5 % | 100.0 % | 66.2 |
Microsoft Phi-3.5-MoE-instruct | 2.5 % | 97.5 % | 96.3 % | 69.7 |
Intel Neural-Chat-7B-v3-3 | 2.6 % | 97.4 % | 100.0 % | 60.7 |
Qwen2.5-7B-Instruct | 2.8 % | 97.2 % | 100.0 % | 71.0 |
AI21 Jamba-1.5-Mini | 2.9 % | 97.1 % | 95.6 % | 74.5 |
XAI-2-Vision | 2.9 % | 97.1 | 100.0 % | 79.8 |
Qwen2.5-Max | 2.9 % | 97.1 % | 88.8 % | 90.4 |
Snowflake-Arctic-Instruct | 3.0 % | 97.0 % | 100.0 % | 68.7 |
Qwen2.5-32B-Instruct | 3.0 % | 97.0 % | 100.0 % | 67.9 |
Microsoft Phi-3-mini-128k-instruct | 3.1 % | 96.9 % | 100.0 % | 60.1 |
Mistral Small3 | 3.1 % | 96.9 % | 100.0 % | 74.9 |
OpenAI-o1-preview | 3.3 % | 96.7 % | 100.0 % | 119.3 |
Google Gemini-1.5-Flash-002 | 3.4 % | 96.6 % | 99.9 % | 59.4 |
01-AI Yi-1.5-34B-Chat | 3.7 % | 96.3 % | 100.0 % | 83.7 |
Llama-3.1-405B-Instruct | 3.9 % | 96.1 % | 99.6 % | 85.7 |
DeepSeek-V3 | 3.9 % | 96.1 % | 100.0 % | 88.2 |
Microsoft Phi-3-mini-4k-instruct | 4.0 % | 96.0 % | 100.0 % | 86.8 |
Llama-3.3-70B-Instruct | 4.0 % | 96.0 % | 100.0 % | 85.3 |
InternLM3-8B-Instruct | 4.0 % | 96.0 % | 100.0 % | 97.5 |
Microsoft Phi-3.5-mini-instruct | 4.1 % | 95.9 % | 100.0 % | 75.0 |
Mistral-Large2 | 4.1 % | 95.9 % | 100.0 % | 77.4 |
Llama-3-70B-Chat-hf | 4.1 % | 95.9 % | 99.2 % | 68.5 |
Qwen2-VL-7B-Instruct | 4.2 % | 95.8 % | 100.0 % | 73.9 |
Qwen2.5-14B-Instruct | 4.2 % | 95.8 % | 100.0 % | 74.8 |
Qwen2.5-72B-Instruct | 4.3 % | 95.7 % | 100.0 % | 80.0 |
Llama-3.2-90B-Vision-Instruct | 4.3 % | 95.7 % | 100.0 % | 79.8 |
Claude-3.7-Sonnet | 4.4 % | 95.6 % | 100.0 % | 97.8 |
Claude-3.7-Sonnet-Think | 4.5 % | 95.5 % | 99.8 % | 99.9 |
XAI Grok | 4.6 % | 95.4 % | 100.0 % | 91.0 |
Anthropic Claude-3-5-sonnet | 4.6 % | 95.4 % | 100.0 % | 95.9 |
Qwen2-72B-Instruct | 4.7 % | 95.3 % | 100.0 % | 100.1 |
Microsoft Phi-4 | 4.7 % | 95.3 % | 100.0 % | 100.3 |
Mixtral-8x22B-Instruct-v0.1 | 4.7 % | 95.3 % | 99.9 % | 92.0 |
Anthropic Claude-3-5-haiku | 4.9 % | 95.1 % | 100.0 % | 92.9 |
01-AI Yi-1.5-9B-Chat | 4.9 % | 95.1 % | 100.0 % | 85.7 |
Cohere Command-R | 4.9 % | 95.1 % | 100.0 % | 68.7 |
Llama-3.1-70B-Instruct | 5.0 % | 95.0 % | 100.0 % | 79.6 |
Llama-3.1-8B-Instruct | 5.4 % | 94.6 % | 100.0 % | 71.0 |
Cohere Command-R-Plus | 5.4 % | 94.6 % | 100.0 % | 68.4 |
Llama-3.2-11B-Vision-Instruct | 5.5 % | 94.5 % | 100.0 % | 67.3 |
Llama-2-70B-Chat-hf | 5.9 % | 94.1 % | 99.9 % | 84.9 |
IBM Granite-3.0-8B-Instruct | 6.5 % | 93.5 % | 100.0 % | 74.2 |
Google Gemini-1.5-Pro-002 | 6.6 % | 93.7 % | 99.9 % | 62.0 |
Google Gemini-1.5-Flash | 6.6 % | 93.4 % | 99.9 % | 63.3 |
Mistral-Pixtral | 6.6 % | 93.4 % | 100.0 % | 76.4 |
Microsoft phi-2 | 6.7 % | 93.3 % | 91.5 % | 80.8 |
Google Gemma-2-2B-it | 7.0 % | 93.0 % | 100.0 % | 62.2 |
Qwen2.5-3B-Instruct | 7.0 % | 93.0 % | 100.0 % | 70.4 |
Llama-3-8B-Chat-hf | 7.4 % | 92.6 % | 99.8 % | 79.7 |
Mistral-Ministral-8B | 7.5 % | 92.5 % | 100.0 % | 62.7 |
Google Gemini-Pro | 7.7 % | 92.3 % | 98.4 % | 89.5 |
01-AI Yi-1.5-6B-Chat | 7.9 % | 92.1 % | 100.0 % | 98.9 |
Llama-3.2-3B-Instruct | 7.9 % | 92.1 % | 100.0 % | 72.2 |
Mistral-Ministral-3B | 8.3 % | 91.7 % | 100.0 % | 73.2 |
databricks dbrx-instruct | 8.3 % | 91.7 % | 100.0 % | 85.9 |
Qwen2-VL-2B-Instruct | 8.3 % | 91.7 % | 100.0 % | 81.8 |
Cohere Aya Expanse 32B | 8.5 % | 91.5 % | 99.9 % | 81.9 |
IBM Granite-3.1-8B-Instruct | 8.6 % | 91.4 % | 100.0 % | 107.4 |
Mistral-Small2 | 8.6 % | 91.4 % | 100.0 % | 74.2 |
IBM Granite-3.0-2B-Instruct | 8.8 % | 91.2 % | 100.0 % | 81.6 |
Mistral-7B-Instruct-v0.3 | 9.5 % | 90.5 % | 100.0 % | 98.4 |
Google Gemini-1.5-Pro | 9.1 % | 90.9 % | 99.8 % | 61.6 |
Anthropic Claude-3-opus | 10.1 % | 89.9 % | 95.5 % | 92.1 |
Google Gemma-2-9B-it | 10.1 % | 89.9 % | 100.0 % | 70.2 |
Llama-2-13B-Chat-hf | 10.5 % | 89.5 % | 99.8 % | 82.1 |
AllenAI-OLMo-2-13B-Instruct | 10.8 % | 89.2 % | 100.0 % | 82.0 |
AllenAI-OLMo-2-7B-Instruct | 11.1 % | 88.9 % | 100.0 % | 112.6 |
Mistral-Nemo-Instruct | 11.2 % | 88.8 % | 100.0 % | 69.9 |
Llama-2-7B-Chat-hf | 11.3 % | 88.7 % | 99.6 % | 119.9 |
Microsoft WizardLM-2-8x22B | 11.7 % | 88.3 % | 99.9 % | 140.8 |
Cohere Aya Expanse 8B | 12.2 % | 87.8 % | 99.9 % | 83.9 |
Amazon Titan-Express | 13.5 % | 86.5 % | 99.5 % | 98.4 |
Google PaLM-2 | 14.1 % | 85.9 % | 99.8 % | 86.6 |
DeepSeek-R1 | 14.3 % | 85.7 % | 100.0% | 77.1 |
Google Gemma-7B-it | 14.8 % | 85.2 % | 100.0 % | 113.0 |
IBM Granite-3.1-2B-Instruct | 15.7 % | 84.3 % | 100.0 % | 107.7 |
Qwen2.5-1.5B-Instruct | 15.8 % | 84.2 % | 100.0 % | 70.7 |
Qwen-QwQ-32B-Preview | 16.1 % | 83.9 % | 100.0 % | 201.5 |
Anthropic Claude-3-sonnet | 16.3 % | 83.7 % | 100.0 % | 108.5 |
Google Gemma-1.1-7B-it | 17.0 % | 83.0 % | 100.0 % | 64.3 |
Anthropic Claude-2 | 17.4 % | 82.6 % | 99.3 % | 87.5 |
Google Flan-T5-large | 18.3 % | 81.7 % | 99.3 % | 20.9 |
Mixtral-8x7B-Instruct-v0.1 | 20.1 % | 79.9 % | 99.9 % | 90.7 |
Llama-3.2-1B-Instruct | 20.7 % | 79.3 % | 100.0 % | 71.5 |
Apple OpenELM-3B-Instruct | 24.8 % | 75.2 % | 99.3 % | 47.2 |
Qwen2.5-0.5B-Instruct | 25.2 % | 74.8 % | 100.0 % | 72.6 |
Google Gemma-1.1-2B-it | 27.8 % | 72.2 % | 100.0 % | 66.8 |
TII falcon-7B-instruct | 29.9 % | 70.1 % | 90.0 % | 75.5 |