شتاب دهنده هوش مصنوعی جدید متا، MTIA 2، فاش شد!

متا یک شتاب دهنده هوش مصنوعی داخلی جدید برای حجم کاری رو به رشد هوش مصنوعی این شرکت دارد. تراشه جدید که MTIA 2 یا Meta Training and Inference Accelerator 2 نام دارد، دارای معماری متفاوتی نسبت به بسیاری از اجزای جدیدتری است که دیده ایم، با برخی بهینه سازی های واضح برای مقیاس پذیری. شتاب دهنده جدید هوش مصنوعی متا MTI A 2 معرفی شد.

این تراشه با یک آرایه 8×8 از عناصر پردازشی یا PEs در مرکز آن طراحی شده است. در لبه بیرونی ویژگی‌های دیگری مانند رابط میزبان، کنترل‌کننده حافظه برای حافظه LPDDR5 که در اطراف شتاب‌دهنده قرار دارد و یک قاب نیز وجود دارد. در نمودار ما همچنین می توانیم یک هسته کنترل و یک موتور رفع فشار را ببینیم. در STH اغلب در مورد اینکه کدام قسمت از تراشه برای کارهای غیر محاسباتی استفاده می‌شود صحبت می‌کنیم. این یک مثال عالی است زیرا به راحتی می‌توان مناطق PE و غیر PE را مشاهده کرد. همچنین نشان می‌دهد که پروژه‌های متمرکز بر هوش مصنوعی تا چه اندازه بر حافظه و حرکت داده‌ها تمرکز می‌کنند. شتاب‌دهنده‌های MTIA 2 در شاسی ادغام شده‌اند و با کاری که NVIDIA با شتاب‌دهنده‌های خود انجام می‌دهد بسیار متفاوت است. هر برد دارای دو شتاب دهنده ۹۰ واتی است تا بتوان آن را با هوا خنک کرد. با اتصال PCIe Gen5 x8 به میزبان، این دو شتاب‌دهنده می‌توانند یک کانکتور لبه x16 را به اشتراک بگذارند. در هر قاب دوازده بشقاب وجود دارد که در هر فریم ۲۴ عدد است. متا می‌گوید این شتاب‌دهنده‌ها را در گروه‌های سه تایی برای ۷۲ شتاب‌دهنده با گزینه‌ای برای NIC RDMA ارسال می‌کند. در حالی که ما عموماً به AWS Nitro  برای علاقه بهDPU ها اعتبار می‌دهیم، Facebook/Meta  سال‌ها پیش با استقرار آداپتورهای چند میزبان در مقیاس برای کاهش هزینه‌های شبکه، نوآوری بزرگی انجام داد. در این مورد نسبت بین شتاب‌دهنده و NIC بسیار کمتر از سیستم‌های NVIDIA است.

 

در اینجا مشخصات کلیدی متا در مورد عملکرد شتاب‌دهنده آورده شده است:

TOP GEM

708 TFLOPS/s (INT8) (Diffusion)
354 TFLOPS/s (INT8)
354 TFLOPS/s (FP16/BF16) (نشر)
177 TFLOPS/s (FP16/BF16)

SIMD PLANS

هسته‌برداری:
11.06 TFLOPS/s (INT8)
5.53 TFLOPS/s (FP16/BF16)
2.76 TFLOPS/s (FP32)

SIMD
5.53 TFLOPS/s (INT8/FP16/BF16)
2.76 TFLOPS/s (FP32)

ظرفیت حافظه

فضای ذخیره‌سازی محلی: ۳۸۴ کیلوبایت برای PE
حافظه داخلی: ۲۵۶ مگابایت
LPDDR5  خارج از تراشه: ۱۲۸ گیگابایت

پهنای باند حافظه

ذخیره‌سازی محلی:

۱ ترابایت در ثانیه برای PE
فضای ذخیره‌سازی روی تراشه: ۷/۲ ترابایت بر ثانیه

LPDDR5 بدون تراشه:

۸/۲۰۴ گیگابایت بر ثانیه (منبع: متا)

چیزی که حائز اهمیت است، نسبت ظرفیت حافظه به وات شتاب‌دهنده هوش مصنوعی است. حافظه LPDDR5  ممکن است پهنای باند زیادی را در مقایسه با شتاب‌دهنده‌های مبتنی‌بر HBM ارائه نکند، اما ظرفیت نسبتاً بالایی را ارائه می‌دهد. Meta چیزی در حدود ۱۲۸ گیگابایت حافظه / ۹۰ وات TDP برای حدود ۴۲/۱ گیگابایت / وات دارد. اگر این را با Intel Gaudi 3 مقایسه کنیم که این هفته با ۱۲۸ گیگابایت HBM2E  و TDP 900 وات ۱۴۲/۰ گیگابایت بر وات نشان دادیم، واضح است که متا نسبت به نسبت ظرفیت حافظه برای محاسبه ظرفیت متفاوتی نسبت به تراشه‌های دیگر ما در نظر گرفته است.

سخن پایانی

پست متا در MTIA 2 در مورد طراحی مشترک سخت‌افزار و نرم‌افزار صحبت می‌کند. این شرکت به اندازه کافی برنامه‌های کاربردی بزرگ دارد که می‌تواند شتاب‌دهنده‌های اختصاصی تولید کند. به نظر کمی شبیه نشان دادن این است که این موضوع کمتر در مورد تأثیرگذاری بر تولید است و بیشتر در مورد ابزاری برای استخدام است. متا در هوش مصنوعی پیشرو بوده است و محاسبات و حافظه زیادی خریداری می‌کند، بنابراین منطقی است که آن‌ها در حال کاوش در معماری‌های مختلف هستند. در اینجا تراشه MTIA 2 با ابعاد تقریباً ۴۲۱ میلی‌متر مربع در TSMC 5 است. متا می‌گوید این تراشه تقریباً ۳۵/۲ میلیارد گیت دارد.

 

منابع مطلب : www.servethehome.com

آیا این مطلب برای شما مفید بود؟


0 بازخورد

نظرات کاربران


آبگینه پرداز شرق