

متا یک شتاب دهنده هوش مصنوعی داخلی جدید برای حجم کاری رو به رشد هوش مصنوعی این شرکت دارد. تراشه جدید که MTIA 2 یا Meta Training and Inference Accelerator 2 نام دارد، دارای معماری متفاوتی نسبت به بسیاری از اجزای جدیدتری است که دیده ایم، با برخی بهینه سازی های واضح برای مقیاس پذیری. شتاب دهنده جدید هوش مصنوعی متا MTI A 2 معرفی شد.
این تراشه با یک آرایه 8×8 از عناصر پردازشی یا PEs در مرکز آن طراحی شده است. در لبه بیرونی ویژگیهای دیگری مانند رابط میزبان، کنترلکننده حافظه برای حافظه LPDDR5 که در اطراف شتابدهنده قرار دارد و یک قاب نیز وجود دارد. در نمودار ما همچنین می توانیم یک هسته کنترل و یک موتور رفع فشار را ببینیم. در STH اغلب در مورد اینکه کدام قسمت از تراشه برای کارهای غیر محاسباتی استفاده میشود صحبت میکنیم. این یک مثال عالی است زیرا به راحتی میتوان مناطق PE و غیر PE را مشاهده کرد. همچنین نشان میدهد که پروژههای متمرکز بر هوش مصنوعی تا چه اندازه بر حافظه و حرکت دادهها تمرکز میکنند. شتابدهندههای MTIA 2 در شاسی ادغام شدهاند و با کاری که NVIDIA با شتابدهندههای خود انجام میدهد بسیار متفاوت است. هر برد دارای دو شتاب دهنده ۹۰ واتی است تا بتوان آن را با هوا خنک کرد. با اتصال PCIe Gen5 x8 به میزبان، این دو شتابدهنده میتوانند یک کانکتور لبه x16 را به اشتراک بگذارند. در هر قاب دوازده بشقاب وجود دارد که در هر فریم ۲۴ عدد است. متا میگوید این شتابدهندهها را در گروههای سه تایی برای ۷۲ شتابدهنده با گزینهای برای NIC RDMA ارسال میکند. در حالی که ما عموماً به AWS Nitro برای علاقه بهDPU ها اعتبار میدهیم، Facebook/Meta سالها پیش با استقرار آداپتورهای چند میزبان در مقیاس برای کاهش هزینههای شبکه، نوآوری بزرگی انجام داد. در این مورد نسبت بین شتابدهنده و NIC بسیار کمتر از سیستمهای NVIDIA است.
در اینجا مشخصات کلیدی متا در مورد عملکرد شتابدهنده آورده شده است:
TOP GEM
708 TFLOPS/s (INT8) (Diffusion)
354 TFLOPS/s (INT8)
354 TFLOPS/s (FP16/BF16) (نشر)
177 TFLOPS/s (FP16/BF16)
SIMD PLANS
هستهبرداری:
11.06 TFLOPS/s (INT8)
5.53 TFLOPS/s (FP16/BF16)
2.76 TFLOPS/s (FP32)
SIMD
5.53 TFLOPS/s (INT8/FP16/BF16)
2.76 TFLOPS/s (FP32)
ظرفیت حافظه
فضای ذخیرهسازی محلی: ۳۸۴ کیلوبایت برای PE
حافظه داخلی: ۲۵۶ مگابایت
LPDDR5 خارج از تراشه: ۱۲۸ گیگابایت
پهنای باند حافظه
ذخیرهسازی محلی:
۱ ترابایت در ثانیه برای PE
فضای ذخیرهسازی روی تراشه: ۷/۲ ترابایت بر ثانیه
LPDDR5 بدون تراشه:
۸/۲۰۴ گیگابایت بر ثانیه (منبع: متا)
چیزی که حائز اهمیت است، نسبت ظرفیت حافظه به وات شتابدهنده هوش مصنوعی است. حافظه LPDDR5 ممکن است پهنای باند زیادی را در مقایسه با شتابدهندههای مبتنیبر HBM ارائه نکند، اما ظرفیت نسبتاً بالایی را ارائه میدهد. Meta چیزی در حدود ۱۲۸ گیگابایت حافظه / ۹۰ وات TDP برای حدود ۴۲/۱ گیگابایت / وات دارد. اگر این را با Intel Gaudi 3 مقایسه کنیم که این هفته با ۱۲۸ گیگابایت HBM2E و TDP 900 وات ۱۴۲/۰ گیگابایت بر وات نشان دادیم، واضح است که متا نسبت به نسبت ظرفیت حافظه برای محاسبه ظرفیت متفاوتی نسبت به تراشههای دیگر ما در نظر گرفته است.
سخن پایانی
پست متا در MTIA 2 در مورد طراحی مشترک سختافزار و نرمافزار صحبت میکند. این شرکت به اندازه کافی برنامههای کاربردی بزرگ دارد که میتواند شتابدهندههای اختصاصی تولید کند. به نظر کمی شبیه نشان دادن این است که این موضوع کمتر در مورد تأثیرگذاری بر تولید است و بیشتر در مورد ابزاری برای استخدام است. متا در هوش مصنوعی پیشرو بوده است و محاسبات و حافظه زیادی خریداری میکند، بنابراین منطقی است که آنها در حال کاوش در معماریهای مختلف هستند. در اینجا تراشه MTIA 2 با ابعاد تقریباً ۴۲۱ میلیمتر مربع در TSMC 5 است. متا میگوید این تراشه تقریباً ۳۵/۲ میلیارد گیت دارد.