شرکت هواوی در کنفرانس جهانی هوش مصنوعی (WAIC) که در شانگهای چین در حال برگزاری است، از سیستم محاسباتی خود با نام CloudMatrix 384 رونمایی کرد. این محصول که کمی پیش در رسانهها معرفی شده بود، حالا در معرض نمایش عموم قرار گرفته است. به عقیده بسیاری، این محصول برای رقابت با قویترین محصول شرکت انویدیا روانه بازار خواهد شد. در این مقاله، به معرفی کامل سیستم محاسباتی هوش مصنوعی هواوی میپردازیم و ویژگیهای آن را بررسی و آن را با قویترین محصول شرکت انویدیا مقایسه خواهیم کرد.
راهرد هواوی برای دستیابی به قدرت محاسباتی
شرکت هواوی همچنان در ساخت تراشههای پیشرفته ناتوان است. اما در عصر هوش مصنوعی نمیتوان منتظر ماند. حالا هواوی به ناچار رهکاری متکی بر «قدرت خام» روی آورده است: یعنی وقتی تراشههای شما چندان قوی نیست، تعداد آنها را زیاد کنید. راهکاری که به نظر میرسد با توجه به رقابت جهانی هوش مصنوعی و همچنین شرایط چین و عدم دسترسی به تراشههای برتر، نتیجه خوبی داده است.
معرفی CloudMatrix 384
سیستم CloudMatrix 384 شرکت هواوی یک سامانه هوش مصنوعی در مقیاس رک است که شامل ۳۸۴ پردازنده Ascend 910C است. برخلاف سیستمهای قدیمی که از کابلهای مسی برای اتصال استفاده میشود، در CloudMatrix 384 از شبکه نوری استفاده شده است و پردازنذهها را به هم وصل کرده است.
این سیستم در واقع شامل ۱۶ رک است؛ ۱۲ رک برای پردازش که هر کدام ۳۲ شتابدهنده دارند و ۴ رک مخصوص شبکه که با استفاده از ۶۹۱۲ فرستنده و گیرنده نوری ۸۰۰ گیگابیتی، ارتباطات پرسرعت را برقرار میکنند.
اگر بخواهیم قدرت پردازش را در نظر بگیریم، سیستم CloudMatrix 384 حدود ۳۰۰ پتافلاپس محاسبات BF16 ارائه میکند که تقریباً دو برابر بیشتر از سیستم Nvidia GB200 NVL72 با توان ۱۸۰ پتافلاپس است. همچنین حافظه این سیستم پهنای باندی ۲.۱ برابر و ظرفیت حافظه HBM آن بیش از ۳.۶ برابر بیشتر از Nvidia دارد. شاید تراشههای هواوی به قدرتمندی تراشههای انویدیا نباشد، اما به نظر میرسد در عمل میتوانند نیازهای چین و حتی بسیاری دیگر از کشورها را پاسخ دهند.
البته که افزایش تعداد پردازندهها برای رسیدن به یک قدرت پردازشی بالا، بدون هزینه هم نیست. سیستم هواوی به ازای هر واحد محاسبه انرژی بیشتری مصرف میکند و در مصرف پهنای باند حافظه و بهرهوری حافظه HBM نسبت به Nvidia ضعیفتر است. اگر بخواهیم با اعداد و ارقام بگوییم، این سیستم ۲.۳ برابر مصرف انرژی بیشتری به ازای هر عملیات، ۱.۸ برابر کمتر بهرهور در پهنای باند حافظه و ۱.۱ برابر کمتر بهرهور در حافظه HBM دارد.
مقایسه CloudMatrix 384 با Nvidia GB200 NVL72
برای شناخت هرچه بیشتر سیستم کلادماتریکس سیام ۳۸۴ شرکت هواوی، آن را به صورت کامل با قدرتمندترین سیستم حال حاضر شرکت انویدیا یعنی GB200 NVL72 مقایسه میکنیم. در بالا برخی از ویژگیها را مقایسه کردیم. در جدول زیر مقایسه کامل را ارائه میکنیم.
| مشخصات | Nvidia GB200 NVL72 | Huawei CloudMatrix CM384 | نسبت |
|---|---|---|---|
| توان محاسباتی BF16 | ۱۸۰.۰ پتافلاپس | ۳۰۰.۰ پتافلاپس | ۱.۷ برابر |
| ظرفیت حافظه HBM | ۱۳.۸ ترابایت | ۴۹.۲ ترابایت | ۳.۶ برابر |
| پهنای باند حافظه HBM | ۵۷۶.۰ ترابایت بر ثانیه | ۱۲۲۹.۰ ترابایت بر ثانیه | ۲.۱ برابر |
| پهنای باند مقیاس افزایشی (دوطرفه) | ۵۱۸۴۰۰.۰ گیگابیت بر ثانیه | ۱۰۷۵۲۰۰.۰ گیگابیت بر ثانیه | ۲.۱ برابر |
| تعداد کارت گرافیک | ۷۲ کارت گرافیک | ۳۸۴ کارت گرافیک | ۵.۳ برابر |
| پهنای باند مقیاس گسترده (دوطرفه) | ۲۸۸۰۰.۰ گیگابیت بر ثانیه | ۱۵۳۶۰۰.۰ گیگابیت بر ثانیه | ۵.۳ برابر |
| کل توان مصرفی سیستم | ۱۴۵ کیلووات | ۵۵۹ کیلووات | ۳.۹ برابر |
| مصرف توان به ازای هر پتافلاپس BF16 | ۰.۸۱ وات بر ترافلاپس | ۱.۸۷ وات بر ترافلاپس | ۲.۳ برابر |
| مصرف توان به ازای هر ترابایت بر ثانیه پهنای باند حافظه | ۲۵۱.۷ وات | ۴۵۵.۲ وات | ۱.۸ برابر |
| مصرف توان به ازای هر ترابایت حافظه | ۱۰.۵ کیلووات | ۱۱.۴ کیلووات | ۱.۱ برابر |
همانطور که میبینید، درست است که CloudMatrix 384 حدود ۱.۷ برابر توان محاسباتی بیشتری دارد، اما این توان محاسباتی در ازای نصب ۳۱۲ GPU بیشتر در این سیستم است. که در نهایت مصرف انرژی را نیز به صورت چشمگیر افزایش میدهد.
آیا ارزش این مصرف برق را دارد؟
در مورد مسئله هوش مصنوعی و رقابت شدید جهانی که برای آن وجود دارد، نباید صرفا به اعداد و محاسبات نگاه کنید. باید اهمیت استراتژیک این فناوری را در اولویت قرار دهید. چین در رقابتی گسترده با ایالات متحده است و در حال حاضر به سیستمهای پیشرفتهای نظیر Nvidida GB200 دسترسی ندارد. پس چارهای جز استفاده از این سیستمها نخواهد داشت. از سوی دیگر، بسیاری از کشورها نیز در لیست ممنوعیت صادراتی تراشههای هوش مصنوعی ایالات متحده قرار دارند. از همین رو شاید صادرات محصولات هواوی نیز یک آینده مطلوب باشد.
اما چین چندان مشکل برق ندارد. قیمت متوسط برق در چین از ۹۰.۷۰ دلار به ازای هر مگاواتساعت در سال ۲۰۲۲، تا سال ۲۰۲۵ در برخی مناطق به ۵۶ دلار کاهش یافته است. بنابراین کاربران سیستم CM384 هواوی به دلیل هزینه برق دچار مشکل مالی نخواهند شد. پس برای کشوری مانند چین که انرژی فراوان است ولی فناوری پیشرفته تولید چیپ محدود است، روش هواوی برای هوش مصنوعی کاملاً منطقی و کارآمد به نظر میرسد.
پردازندههای کلاود ماتریکس ۳۸۴
در سیستم CloudMatrix 384 از ۳۸۴ عدد پردازنده HiSilicon Ascend 910C استفاده شده است. این پردازنده شامل دو چیپلت است و از هشت ماژول حافظه HBM2E استفاده میکند. برخلاف برخی پردازندهها مثل AMD Instinct MI250X و Nvidia B200، این پردازنده چیپ جداگانه ورودی و خروجی ندارد.
توان محاسباتی Ascend 910C در حالت BF16 حدود ۷۸۰ ترافلاپس است، در حالی که Nvidia B200 که در سیستم GB200 به کار گرفته شده است، توان بسیار بیشتری با ۲۵۰۰ ترافلاپس دارد.
حافظه این پردازنده ۱۲۸ گیگابایت است که از حافظه ۱۹۲ گیگابایتی B200 کمتر است و پهنای باند حافظه آن نیز ۳.۲ ترابایت بر ثانیه است، در مقابل ۸ ترابایت بر ثانیه در B200.
در جدول زیر، مقایسه دقیقتر و کاملتر دو پردازنده چینی و آمریکایی یعنی Asxend 910C و B200، آورده شده است.
| ویژگی | Nvidia B200 (سیستم GB200) | Huawei Ascend 910C | نسبت |
|---|---|---|---|
| توان محاسباتی BF16 (ترافلاپس) | ۲۵۰۰ | ۷۸۰ | ۰.۳ برابر |
| ظرفیت حافظه HBM (گیگابایت) | ۱۹۲ | ۱۲۸ | ۰.۷ برابر |
| پهنای باند حافظه HBM (ترابایت/ثانیه) | ۸.۰ | ۳.۲ | ۰.۴ برابر |
| پهنای باند ارتباط داخلی (گیگابیت/ثانیه) | ۷۲۰۰ | ۲۸۰۰ | ۰.۴ برابر |
| پهنای باند ارتباط بیرونی (گیگابیت/ثانیه) | ۴۰۰ | ۴۰۰ | برابر |
این پردازنده با فناوری پیشرفته ۷ نانومتری طراحی شده است. با وجود تحریمهای آمریکا، هواوی توانسته با کمک شرکتهایی مثل TSMC و واسطههایی مانند Sophgo، بیش از یک میلیون تراشه Ascend 910C را بین سالهای ۲۰۲۳ تا ۲۰۲۵ به دست بیاورد. همچنین، با پیشرفت کارخانه داخلی SMIC، بخشی از تولید این پردازنده به داخل چین منتقل شده است. حافظه HBM2E این پردازنده بیشتر از سامسونگ تهیه میشود و با همکاری شرکتهای واسطه و مونتاژکننده، نهایتاً در چین جمعآوری میشود.
اگرچه قدرت هر تراشه Ascend 910C از Nvidia B200 کمتر است، هواوی با استفاده از تعداد بیشتری چیپ در سیستمهایش این کمبود را جبران میکند.
در نهایت
استراتژی هواوی شاید در نگاه اول منظقی نرسد، اما وقتی موضوع تا این اندازه مهم است، نمیتوان ساده از آن گذر کرد. پس اگر پردازندههای قدرتمندی نداریم، بیایید تعداد آنها را افزایش دهیم، هرچند که انرژي بیشتری مصرف کند.
در شرایطی که چین برای هر عدد پردازنده نیز تلاش میکند و حتی پردازندههای خراب انویدیا را نیز تعمیر میکند و در یک رقابت مستقیم با آمریکا قرار دارد، قطعا سیستم CloudMatrix 384 میتواند یک خبر خوب برای آن باشد. و البته شاید برای کشورهایی که نمیتوانند از پردازندههای آمریکایی استفاده کنند هم خبر خوبی باشد. البته اگر چالش برق نداشته باشند.