چگونه مراکز داده از بار کاری هوش مصنوعی برای بهبود قابلیتهای ابر، LLM و استنتاج استفاده میکنند!؟
تغییرات در صنعت مرکز داده به سرعت در حال رخ دادن است، زیرا قابلیت های عملکرد و سرعت ارائه خدمات همچنان در حال رشد هستند. قلب این تغییر هوش مصنوعی و عملکرد و زیرساخت مورد نیاز برای ارائه آن به مشتریان است. حداقل، اکتبر ۲۰۲۴ ماهی بود که اعلامیه های صنعت تحت سلطه هوش مصنوعی تأثیر قابل توجهی در شکل دادن به آینده مرکز داده داشت. از زیرساخت تا طراحی ذخیره سازی، وجه مشترک تمرکز بر هوش مصنوعی و نحوه ارائه این خدمات به مشتری است. ساخت برنامههای هوش مصنوعی به استانداردی واقعی برای جدیدترین و بهترین نسخهها در صنعت تبدیل شده است و پشتیبانی از این گسترش هوش مصنوعی در آینده قابل پیشبینی اثر خود را در صنعت مرکز داده باقی خواهد گذاشت.با این حال: با توجه به رشد سریع تقاضا برای هوش مصنوعی، هم برای پشتیبانی از هوش مصنوعی و هم برای فعال کردن ارائه آن، ارائه دهندگان زیرساخت های ابری و داده در حال افزایش قابلیت ها برای پاسخگویی به نیازهای هوش مصنوعی و عملکرد استنتاج آینده هستند. در حالی که این یک لیست کامل نیست، در زیر برخی از اطلاعیه های اخیر از Oracle، Nvidia، Cerebras، DigitalOcean، و Lightbits Labs آورده شده است که هر کدام راه حل های منحصر به فردی را ارائه می دهند و زیرساخت های انعطاف پذیر و مقیاس پذیر را برای برنامه های مختلف هوش مصنوعی ایجاد می کنند.
فهرست مطالب این مقاله
استانداردسازی زیرساخت های هوش مصنوعی
برای مقابله با چالشهای استقرار خوشههای هوش مصنوعی در مقیاس بزرگ، پروژه محاسبات باز (OCP) ابتکار سیستمهای باز خود را برای هوش مصنوعی راهاندازی کرده است. این ابتکار یک اکوسیستم مشترک چند فروشنده را با هدف توسعه یک زیرساخت استاندارد برای مراکز داده هوش مصنوعی ترویج میکند.
مشارکتهای انویدیا و متا در این پروژه، مانند پلتفرم GB200-NVL۷۲ مبتنی بر MGX انویدیا و معماری Catalina AI Rack متا، برای پیشبرد استانداردهای رایج برای خوشههای محاسباتی هوش مصنوعی، کاهش هزینهها و عملیات سیلوها برای مراکز داده بسیار مهم هستند. فروشندگان تجهیزات مانند Vertiv نیز پشتیبانی اختصاصی خود را از راهاندازی مراکز داده مبتنی بر هوش مصنوعی اعلام میکنند و انویدیا معماری های مرجع خود را برای پیادهسازی هوش مصنوعی کلاس سازمانی اعلام کرد. هدف این همکاریها رفع موانع کلیدی مانند چگالی توان، خنکسازی و سختافزار محاسباتی تخصصی، با قفسهها و سینیهای محاسباتی خنکشونده مایع است که از عملیات کارآمد و با چگالی بالا پشتیبانی میکنند. با ایجاد یک زنجیره تامین چند فروشنده قابل همکاری، OCP پذیرش سریعتر و مانع کمتری را برای ورود سازمانهایی که به دنبال استقرار زیرساختهای هوش مصنوعی هستند، تسهیل میکند. معماری های مرجع، از OCP و دیگران، این پیاده سازیها را در زمانهای کوتاهتر امکانپذیر میکنند.
مقیاسبندی هوش مصنوعی با ابرخوشههای Zettascale
راه اندازی ابرخوشه زیرساخت ابری Oracle (OCI) توسط اوراکل، با همکاری انویدیا، نشان دهنده یک جهش در مقیاس و عملکرد است. خوشه جدید Zettascale OCI از ۱۳۱۷۲ پردازنده گرافیکی Blackwell پشتیبانی می کند و حداکثر عملکرد ۲/۴ zttaFLOPS را به دست می آورد.
ابرخوشههای OCI برای ارائه قابلیتهای محاسباتی با کارایی بالا، از جمله پشتیبانی از بارهای کاری فشرده مانند آموزش مدلهای زبان بزرگ (LLM) و شبیهسازیهای فشرده داده، طراحی شدهاند. کلید پیشنهاد OCI انعطاف پذیری در استقرار است که به مشتریان امکان میدهد از زیرساخت هوش مصنوعی در مکانهای مورد نظر خود استفاده کنند و در عین حال الزامات حاکمیت داده را برآورده کنند.
برای مثال، WideLabs در برزیل از زیرساختهای با کارایی بالا OCI برای توسعه یک LLM پرتغالی استفاده میکند و از پردازندههای گرافیکی Nvidia H100 OCI و موتور Kubernetes برای بارهای کاری مقیاسپذیر و ایمن در برزیل استفاده میکند. این ویژگی به ویژه در مناطقی که الزامات حاکمیت دادههای سختگیرانه دارند، جایی که اقامت و امنیت داده در اولویت هستند، مفید است.
اوراکل با ایجاد یک زیرساخت جهانی برای خدمات در دسترس از OCI، قابلیتهایی را که مستلزم رعایت دقیق قوانین و مقررات محلی است، افزایش میدهد. از دیگر کاربردهای قابل توجه این سرویس میتوان به استفاده زوم از قابلیتهای استنباط هوش مصنوعی مولد OCI برای تقویت زوم AI Companion خود، کمک بلادرنگ به کاربران در تهیه پیشنویس، خلاصهسازی و تولید ایدهها اشاره کرد.
شکستن موانع سرعت در استنتاج هوش مصنوعی
با تمرکز خاص بر استنتاج هوش مصنوعی، Cerebras Systems با ارائه ۲۱۰۰ توکن در ثانیه در مدل Llama ۳/۲ ۷۰B، استاندارد جدیدی را تعیین کرده است که عملکردی ۱۶ برابر سریعتر از راهحلهای مبتنی بر GPU فعلی دارد. به لطف ویفر Scale Engine ۳ (WSE-۳)، Cerebras Inference پهنای باند حافظه بسیار زیادی را ارائه میکند و به آن اجازه میدهد مدلهای بزرگ را بدون مشکلات تأخیر موجود در سیستمهای دیگر مدیریت کند. این قابلیت در برنامههای بلادرنگ، که سرعت و پاسخدهی حیاتی هستند، حیاتی است. مزیت سرعت ارائه شده توسط Cerebras مشتریانی مانند GlaxoSmithKline (GSK) را جذب کرده است که در حال بررسی عوامل تحقیقاتی مبتنی بر هوش مصنوعی برای بهبود کشف دارو است.
استقرار هوش مصنوعی را ساده کنید
برای پرداختن به پیچیدگیهای پیکربندی بارهای کاری AI/ML برای موارد استفاده خاص، DigitalOcean با مشارکت جامعه هوش مصنوعی Hugging Face، مدلهای ۱-Click را معرفی کرد، ابزاری که استقرار مدلهای هوش مصنوعی مانند Llama ۳ و Mistral را در GPU Droplets ساده میکند.
DigitalOcean
هدف این ویژگی جدید سادهسازی فرآیند پیچیده راهاندازی مدلهای AI و ML در فضای ابری است و به توسعهدهندگان اجازه میدهد تا به سرعت نقاط پایانی استنتاج را با حداقل تنظیمات مستقر کنند. با حذف نیاز به پیکربندیهای پیچیده و تنظیمات امنیتی، مدلهای DigitalOcean ۱-Click دسترسی به مدلهای قدرتمند هوش مصنوعی را با هدف دسترسی به آنها برای مخاطبان گستردهتر، دموکراتیک میکنند.
مدلهای ۱ کلیکی Digital Ocean که با سرویسهای Hugging Face GenAI (HUGS) ادغام شدهاند، بهروزرسانیها و بهینهسازیهای مداوم را ارائه میکنند و اطمینان میدهند که کاربران به آخرین پیشرفتهای عملکرد در مدلهای هوش مصنوعی دسترسی دارند.
راهحلهای هوش مصنوعی ابری هوشمند آب و هوا
با اثبات اینکه نیازهای زیرساختهای هوش مصنوعی بسیار فراتر از عملکرد سختافزار AI/ML است، Lightbits Labs، پیشگام در ذخیرهسازی NVMe بر روی TCP، با ارائه فضای ذخیرهسازی نرمافزاری، با Crusoe Energy Systems که خود را «محبوب جهان» معرفی میکند، همکاری کرده است.
AI Cloud برای گسترش زیرساخت هوش مصنوعی با عملکرد بالا و آگاه به آب و هوا
مراکز داده کروزو روی ترکیبی از منابع انرژی پاک و استفاده نشده کار می کنند و اثرات زیست محیطی بار کاری هوش مصنوعی را کاهش میدهند. ذخیرهسازی تعریفشده توسط نرمافزار Lightbits کارایی بالا با تأخیر کم را ارائه میدهد، که برای بارهای کاری هوش مصنوعی که نیاز به دسترسی ثابت و با سرعت بالا به دادهها دارند، ایدهآل است.
استفاده گسترده کروزو از فضای ذخیرهسازی Lightbits با ارائه یک زیرساخت انعطافپذیر و مقیاسپذیر که در دسترس بودن و دوام بالا را تضمین میکند، نیازهای توسعهدهندگان هوش مصنوعی را برآورده میکند. این همکاری به کروزو اجازه میدهد تا به کاربران ابری هوش مصنوعی خود محیطی بهینه ارائه دهد که شامل فضای ذخیرهسازی مقیاسپذیر برای پاسخگویی به تقاضا است، به ویژه برای برنامههایی مانند آموزش LLM و هوش مصنوعی مولد.
هر یک از این راهحلها به یک اکوسیستم هوش مصنوعی قویتر و قابل دسترستر کمک میکنند و چالشهای مقیاس، کارایی و سهولت استفاده را برطرف میکنند. این نوآوریها با ایجاد زیرساختی راه را برای پیشرفتهای آینده هموار میکنند که منجر به پذیرش گسترده فناوریهای هوش مصنوعی در بخشهای مختلف تجاری میشود.
تغییرات در صنعت مرکز داده به سرعت در حال رخ دادن است، زیرا قابلیت های عملکرد و سرعت ارائه خدمات همچنان در حال رشد هستند. قلب این تغییر هوش مصنوعی و عملکرد و زیرساخت مورد نیاز برای ارائه آن ب…