

ایان باک: «ما واقعاً به تراشهها فکر نمیکنیم!» ایان باک بیشتر عمر خود را صرف فکر کردن به تراشهها کرده است. اما اکنون، رئیس محاسبات شتاب در انویدیا، بزرگترین شرکت تولید تراشه در جهان، به فکر بزرگتری است. باک، همچنین معاون مرکز داده و کسبوکار HPC شرکت، با اشاره به نسل بعدی خط GPU خود به DCD میگوید: «شما نمیتوانید بلک ول را به عنوان یک تراشه خریداری کنید. دلیل خوبی دارد: میخواهد با CPU یکپارچه شود. میخواهد با NV Link یکپارچه شود. «او می خواهد وصل شود». انویدیا به جای پرداختن به نیمه هادیها، خود را به یک شرکت پلتفرم تبدیل کرد. دیگر نگران یک شتاب دهنده واحد نیست و در عوض روی سیستمهای بزرگ و یکپارچه تمرکز میکند.
معاون محاسبات تسریع شده طراح تراشه در مورد پردازش تسریع شده صحبت می کند!
باک میگوید: «این تصمیمی بود که ما در نسل پاسکال (در سال 2016) گرفتیم، زیرا هوش مصنوعی میخواست روی پردازندههای گرافیکی بیشتری باشد. «دوران P۱۰۰ آنچه را که میسازیم و آنچه را که به بازار میآوریم یا در دسترس قرار میدهیم تغییر داده است و اکنون به سیستمها بستگی دارد.»
باک میگوید این شروع به تغییر ساختار مراکز داده شده است. «فرصت محاسبات متحولکننده با ابر رایانه آغاز شد، اما با ظهور هوش مصنوعی گسترش یافت.
هر مرکز داده در حال تبدیل شدن به یک کارخانه هوش مصنوعی است. «این با شکست یا مگاوات اندازهگیری نمیشود، بلکه با توکن در ثانیه و تعداد ترابایت دادهای که شما در حال تبدیل به سودهای بهرهوری برای شرکت خود هستید، اندازهگیری میشود.»
این فرصت، حباب یا غیر حباب، بهمنی از ساخت مرکز داده جدید را به راه انداخته است. باک میگوید: «اما آنها نمیتوانند دو سال برای یک پروژه ساختمانی صبر کنند.
ما شاهد شتاب افرادی بودهایم که زیرساختهای قدیمی را بازنشسته میکنند؛ آنها فقط زیرساختهای CPU خود را جابهجا میکنند، پردازندههای گرافیکی خود را قرار میدهند و شتاب میدهند تا هر مرکز داده بتواند یک کارخانه هوش مصنوعی باشد.» او افزود: «آنچه میبینید فقط یک پردازنده گرافیکی از انویدیا نیست، بلکه ترکیبی از پلتفرمها و اکوسیستمها است که به همه اجازه میدهد نوع درست کارخانه هوش مصنوعی و حجم کاری مورد نیاز خود را بسازند. «همه آنها در مراحل مختلف آن فرآیند یا در نقاط مختلف بهینه سازی خواهند بود.» البته، همانقدر که انویدیا سعی میکند از تمرکز بر تراشههای خاص در این کارخانههای به اصطلاح «AI» دور شود، نقطه طراحی حرارتی آنها (TDP) ترکیب بسیاری از بقیه سیستم را مشخص میکند.
باک میگوید: هاپر ۷۰۰ وات است و ما با هوا خنک میکنیم.
او میفزاید: «HGXB100 نیز ۷۰۰ وات است، بهگونهای طراحی شده است که دقیقاً در جایی که هاپر قرار داشت قرار بگیرد. بنابراین وقتی HGXB100 وارد بازار میشود، همه سرورهای ما، کل مرکز داده ما، حتی قدرت رک، میتوانند ثابت بمانند.
باک میگوید این صنعت میتواند «کل اکوسیستم را بگیرد، آن را ارتقا دهد و در مقیاس به کار گیرد و او میگوید، مشتریان «تمام مزایای GPU Blackwell را دریافت میکنند، این که P4، موتور ترانسفورماتور، دو برابر سریعتر از NV Link بین آنها است. بنابراین به همین دلیل بلکول خیلی سریعتر از هاپر وارد بازار خواهد شد.
این شرکت همچنین یک نسخه ۱۰۰۰ واتی از HGX دارد: «سیلیکون مشابه، تغییرات جزئی در سرورها، آنها باید کمی بلندتر باشند و یک راهحل خنککننده هوا متفاوت باشند. اساساً بیشترین کاری که میتوانید با خنککننده هوا انجام دهید.
اما بعد از این مرحله همه چیز کمی پیچیدهتر میشود. باک میگوید: «برای NVL72، ما میخواهیم مطمئن شویم که بهترینهای موجود را داریم،» با رک شامل پردازندههای گرافیکی B۲۰۰ این ۱۲۰۰ وات در هر GPU است و به موتور واقعی خنککننده مایع تبدیل میشود.
چهار پردازنده گرافیکی در 1U؟ Liquid برای درک مزایای NVL۷۲، که مزایای عملکرد استنتاج ۳۰ برابر سریعتر را ارائه میدهد، بسیار مهم است.
با این حال، بهترین همیشه بهترین نیست. او استدلال می کند: «TDP راه درستی برای پاسخ به این سؤال نیست. حجم کار چیست و چه چیزی برای راه اندازی شما منطقی تر است؟ اگر مدل استنباط ۷ میلیارد پارامتر یا ۷۰ میلیارد را انجام میدهید، HGX ممکن است ایدهآل باشد و ممکن است همیشه به ۱۰۰٪ برق نیاز نداشته باشد.
با این حال، روند به وضوح به سمت تراشههای بزرگتر است که انرژی بیشتری مصرف میکنند و باید تا دمای پایین خنک شوند. انویدیا خود بخشی از برنامه تراشههای خنککننده وزارت انرژی ایالات متحده است که بر راهحلهای خنککننده رادیکال برای نیمهرساناهای داغتر متمرکز است. باک از اظهار نظر در مورد تکامل TDP خودداری کرد، به خصوص که شرکت هر سال به نسخههای GPU منتقل میشود.
او میگوید: «ما تا جایی که میتوانیم سریع کار میکنیم. «بدون هیچ انتظاری و بدون رزرو. ما بهترینها را میسازیم و جلو میرویم.»