تراشه‌های هوش مصنوعی ۹۰ درصد ارزان‌تر می‌شوند

یکشنبه ، ۲۶ بهمن ۱۴۰۴-۱۷:۱۳

استارت‌آپ تراشه‌سازی تحت حمایت شرکت «مایکروسافت» می‌گوید ارزان شدن تراشه‌های هوش مصنوعی حتی در حال حاضر هم امکان‌پذیر است.

جهان در حال حاضر به قدری شیفته‌ هوش مصنوعی است که شرکت‌های نرم‌افزاری روی انرژی هسته‌ای سرمایه‌گذاری می‌کنند تا تقاضا را برای تولید متن، تصویر و ویدیو افزایش دهند. اما اگر نیازی به این کار نباشد، چه پیش خواهد آمد؟ چه می‌شود اگر بتوانیم هوش مصنوعی خودمان را با راندمان بالاتر داشته باشیم تا بتوانیم با هزینه کمتر و مصرف انرژی بسیار کمتر، کارهای بیشتری انجام دهیم؟

به نقل از فوربس، این ایده‌ای است که استارت‌آپ تراشه‌سازی «d-Matrix» با حمایت شرکت «مایکروسافت»(Microsoft) ارائه داده است. ایده اصلی، ساخت تراشه‌هایی است که استنتاج را بسیار سریع‌تر، ارزان‌تر و کارآمدتر ارائه می‌دهند. این کاری است که شرکت‌های هوش مصنوعی هنگام پاسخ دادن به پرسش‌های هوش مصنوعی شما انجام می‌دهند. اگر d-Matrix درست بگوید، آینده هوش مصنوعی ممکن است به این که چه کسی بزرگترین مدل‌ها را آموزش می‌دهد وابسته نباشد، بلکه احتمالا به این بستگی خواهد داشت که چه کسی می‌تواند سریع‌ترین و ارزان‌ترین پاسخ را بدهد.

«سید شث»(Sid Sheth)، مدیرعامل d-Matrix اخیراً طی گفتگویی در «اجلاس وب قطر» به گزارشگر فوربس گفت: آموزش کاملا عملکرد است و استنتاج کاملا کارآیی.

این تمایز برای d-Matrix اساسی است. آموزش مدل‌های زبانی بزرگ امروزی، کار دشواری به شمار می‌رود که بهتر است روی پردازنده‌های گرافیکی رده بالای شرکت «انویدیا»(Nvidia) یا TPU متعلق به «گوگل» یا تعداد انگشت‌شماری از تراشه‌های دیگر انجام شود اما شث معتقد است که پردازنده‌های گرافیکی برای اجرای مدل‌های هوش مصنوعی جهت پاسخ دادن به پرسش‌ها ایده‌آل نیستند. در هر حال، این دقیقاً همان چیزی است که صنعت از آن استفاده می‌کند؛ عمدتاً به این دلیل که این همان چیزی است که صنعت در اختیار دارد. این امر تقریبا به تمیز کردن خانه با چکش و میخ شباهت دارد فقط به این دلیل که از همین ابزار برای ساختن خانه استفاده شده است.

شث گفت: مشکل اساسی این است که شما از یک تراشه آموزشی استفاده می‌کنید و بعد می‌گویید: «من قرار است روی آن تراشه‌ها استنتاج را اجرا کنم.» این واقعاً بهترین راه نیست.

شرکت d-Matrix براساس این باور تأسیس شد که استنتاج در نهایت بر حجم کار هوش مصنوعی تسلط خواهد یافت. این شرکت به جای تغییر کاربری سخت‌افزار آموزشی، ساختار را از پایه بنا کرد. به گفته شث، یک تفاوت ساختاری اساسی بین تراشه‌های ساخته‌شده برای استنتاج و تراشه‌های ساخته‌شده برای آموزش وجود دارد. آموزش، یک مشکل محاسباتی است، اما به عقیده شث، استنتاج فقط یک مشکل محاسباتی نیست، بلکه یک مشکل محاسباتی و حافظه‌ای است. بخش حافظه، تأخیر را افزایش می‌دهد.

در مدل‌های زبانی بزرگ، مرحله اولیه پردازش اغلب «prefill» نامیده می‌شود. مدل زبانی بزرگ، اعلان را دریافت می‌کند، محتوا را می‌سازد و پارامترهای مرتبط را در حافظه بارگذاری می‌کند. پس از آن، تولید توکن‌ها را در مرحله «رمزگشایی» آغاز می‌کند تا پاسخ مورد نظر کاربر را ارائه دهد. این تمایز مهم است، زیرا عملکرد استنتاج نه تنها توسط محاسبات خام، بلکه توسط سرعت انتقال داده‌ها بین حافظه و واحدهای پردازش محدود می‌شود. اگر محاسبات سریع باشند، اما دسترسی به حافظه کند باشد، توکن‌ها متوقف می‌شوند. اگر حافظه سریع باشد، اما محاسبات نتوانند همگام شوند، توان عملیاتی کاهش می‌یابد. در هر صورت، کاربران با تأخیر روبه‌رو می‌شوند.

شث توضیح داد: مانند این است که من از شما یک سوال انتزاعی بپرسم. شما قرار نیست فقط یک پاسخ سریع بدهید. شما قرار است پردازش کنید. سپس، دو تا سه ثانیه بعد احتمالاً شروع به صحبت خواهید کرد. بخش صحبت کردن، رمزگشایی است.

بخش عمده‌ای از زیرساخت‌های امروزی برای حجم کاری آموزشی تنظیم شده‌اند که عملکرد در اوج را بر پاسخگویی متوسط اولویت می‌دهند، اما در استنتاج به ویژه هنگام استفاده از هوش مصنوعی تعاملی با پرسش و پاسخ‌های متعدد، تأخیر به معیار تعیین‌کننده تبدیل می‌شود. شث اضافه کرد: کاربر انتظار دارد وقتی مدل شروع به پاسخ دادن کرد، با سرعت مشخصی پاسخ بدهد. در غیر این صورت، احتمالاً به آن گوش نخواهد داد.

گزارشگر فوربس از شث درباره سرعت موتورهای هوش مصنوعی برای ارائه پاسخ‌های خود در اپلیکیشن‌ها و مرورگرها پرسید که اغلب کند به نظر می‌رسد. پرسش این بود: «آیا این سرعتی است که آنها فکر می‌کنند ما می‌توانیم تحمل کنیم یا حداکثر سرعتی است که می‌توانند داشته باشند؟» پاسخ شث این بود: «حداکثر سرعتی است که می‌توانند داشته باشند.»

از نظر عملی، این به معنای به حداقل رساندن زمان لازم برای بازیابی و فعال‌سازی‌ مدل‌ها و تغذیه آنها با واحدهای محاسباتی برای هر توکن تولیدشده است. ساختارهای سنتی GPU، محاسبات و حافظه با پهنای باند بالا را به عنوان زیرسیستم‌های مجزا از هم ارائه می‌دهند و این می‌تواند به ناکارآمدی در بار کاری استنتاج منجر شود که به شدت به حافظه نیاز دارد.

راه حل d-Matrix، ترکیب دقیق محاسبات و حافظه در معماری آن است. این شرکت با نزدیک‌تر کردن فیزیکی حافظه به محاسبات و تنظیم جریان داده‌ها به طور ویژه برای الگوهای استنتاج قصد دارد تأخیر توکن را کاهش دهد و تعداد توکن‌ها در ثانیه به ازای هر وات را بالا ببرد. به علاوه، این استارت‌آپ به جای ساخت یک پردازنده یکپارچه بزرگ، سیلیکون خود را به عناصر سازنده کوچک‌تر و ماژولار به نام «چیپلت‌»(Chiplet) برش می‌دهد. چیپلت‌ها بسته به نیازهای حجم کار، در مقادیر گوناگون با یکدیگر ترکیب می‌شوند.

از نظر مفهومی، این به طراحی حافظه یکپارچه اپل نزدیک‌تر است تا ساختارهای سنتی پردازنده‌های گرافیکی که کاهش فاصله بین محاسبات و حافظه و تنظیم حول محور بهره‌وری به جای عملکرد معیار در اوج را شامل می‌شود.

استارت‌آپ d-Matrix، سیلیکون را با این فرض طراحی کرد که استنتاج غالب خواهد بود. شث ادعا می‌کند که نتیجه این کار، تأخیر کمتر و عملکرد بسیار بالاتر به ازای توان مصرفی به ویژه برای بارهای کاری تعاملی و بلادرنگ است. شث خاطرنشان کرد که هزینه اجرای عملیات استنتاج با d-Matrix در حال حاضر تقریباً ۹۰ درصد کمتر از انواع GPU است و موارد بیشتری هم در راه هستند. وی افزود: این متعلق به امروز است. از این بهتر هم خواهد شد.

این وعده شاید درست به موقع یا شاید کمی دیرتر از راه برسد. شرکت «اوپن‌ای‌آی»(OpenAI) اکنون از تراشه‌های بزرگ شرکت الکترونیک آمریکایی «سریبراس»(Cerebras) برای اجرای استنتاج در مدل «GPT-5.3-Codex-Spark» خود استفاده می‌کند و در مقایسه با سایر ساختارها به سرعت ۱۵ تا ۲۰ برابر دست می‌یابد. سریبراس یک رویکرد کاملاً متفاوت را از d-Matrix دارد، اما اهداف مشابهی را دنبال می‌کند.

شرکت d-Matrix در حال حاضر تراشه‌های خود را در مقادیر کم عرضه می‌کند. شث گفت که خیلی زود این تعداد به هزاران عدد خواهد رسید. این تعداد باید به زودی به میلیون‌ها عدد برسد و ممکن است امسال به این رقم دست یابد. وی افزود: امسال شاهد تولید انبوه آن خواهید بود.

انتهای پیام

تراشه‌های هوش مصنوعی ۹۰ درصد ارزان‌تر می‌شوند

یکشنبه ، ۲۶ بهمن ۱۴۰۴-۱۷:۱۳

سایر خبرها