استارتآپ تراشهسازی تحت حمایت شرکت «مایکروسافت» میگوید ارزان شدن تراشههای هوش مصنوعی حتی در حال حاضر هم امکانپذیر است.
جهان در حال حاضر به قدری شیفته هوش مصنوعی است که شرکتهای نرمافزاری روی انرژی هستهای سرمایهگذاری میکنند تا تقاضا را برای تولید متن، تصویر و ویدیو افزایش دهند. اما اگر نیازی به این کار نباشد، چه پیش خواهد آمد؟ چه میشود اگر بتوانیم هوش مصنوعی خودمان را با راندمان بالاتر داشته باشیم تا بتوانیم با هزینه کمتر و مصرف انرژی بسیار کمتر، کارهای بیشتری انجام دهیم؟
به نقل از فوربس، این ایدهای است که استارتآپ تراشهسازی «d-Matrix» با حمایت شرکت «مایکروسافت»(Microsoft) ارائه داده است. ایده اصلی، ساخت تراشههایی است که استنتاج را بسیار سریعتر، ارزانتر و کارآمدتر ارائه میدهند. این کاری است که شرکتهای هوش مصنوعی هنگام پاسخ دادن به پرسشهای هوش مصنوعی شما انجام میدهند. اگر d-Matrix درست بگوید، آینده هوش مصنوعی ممکن است به این که چه کسی بزرگترین مدلها را آموزش میدهد وابسته نباشد، بلکه احتمالا به این بستگی خواهد داشت که چه کسی میتواند سریعترین و ارزانترین پاسخ را بدهد.
«سید شث»(Sid Sheth)، مدیرعامل d-Matrix اخیراً طی گفتگویی در «اجلاس وب قطر» به گزارشگر فوربس گفت: آموزش کاملا عملکرد است و استنتاج کاملا کارآیی.
این تمایز برای d-Matrix اساسی است. آموزش مدلهای زبانی بزرگ امروزی، کار دشواری به شمار میرود که بهتر است روی پردازندههای گرافیکی رده بالای شرکت «انویدیا»(Nvidia) یا TPU متعلق به «گوگل» یا تعداد انگشتشماری از تراشههای دیگر انجام شود اما شث معتقد است که پردازندههای گرافیکی برای اجرای مدلهای هوش مصنوعی جهت پاسخ دادن به پرسشها ایدهآل نیستند. در هر حال، این دقیقاً همان چیزی است که صنعت از آن استفاده میکند؛ عمدتاً به این دلیل که این همان چیزی است که صنعت در اختیار دارد. این امر تقریبا به تمیز کردن خانه با چکش و میخ شباهت دارد فقط به این دلیل که از همین ابزار برای ساختن خانه استفاده شده است.
شث گفت: مشکل اساسی این است که شما از یک تراشه آموزشی استفاده میکنید و بعد میگویید: «من قرار است روی آن تراشهها استنتاج را اجرا کنم.» این واقعاً بهترین راه نیست.
شرکت d-Matrix براساس این باور تأسیس شد که استنتاج در نهایت بر حجم کار هوش مصنوعی تسلط خواهد یافت. این شرکت به جای تغییر کاربری سختافزار آموزشی، ساختار را از پایه بنا کرد. به گفته شث، یک تفاوت ساختاری اساسی بین تراشههای ساختهشده برای استنتاج و تراشههای ساختهشده برای آموزش وجود دارد. آموزش، یک مشکل محاسباتی است، اما به عقیده شث، استنتاج فقط یک مشکل محاسباتی نیست، بلکه یک مشکل محاسباتی و حافظهای است. بخش حافظه، تأخیر را افزایش میدهد.
در مدلهای زبانی بزرگ، مرحله اولیه پردازش اغلب «prefill» نامیده میشود. مدل زبانی بزرگ، اعلان را دریافت میکند، محتوا را میسازد و پارامترهای مرتبط را در حافظه بارگذاری میکند. پس از آن، تولید توکنها را در مرحله «رمزگشایی» آغاز میکند تا پاسخ مورد نظر کاربر را ارائه دهد. این تمایز مهم است، زیرا عملکرد استنتاج نه تنها توسط محاسبات خام، بلکه توسط سرعت انتقال دادهها بین حافظه و واحدهای پردازش محدود میشود. اگر محاسبات سریع باشند، اما دسترسی به حافظه کند باشد، توکنها متوقف میشوند. اگر حافظه سریع باشد، اما محاسبات نتوانند همگام شوند، توان عملیاتی کاهش مییابد. در هر صورت، کاربران با تأخیر روبهرو میشوند.
شث توضیح داد: مانند این است که من از شما یک سوال انتزاعی بپرسم. شما قرار نیست فقط یک پاسخ سریع بدهید. شما قرار است پردازش کنید. سپس، دو تا سه ثانیه بعد احتمالاً شروع به صحبت خواهید کرد. بخش صحبت کردن، رمزگشایی است.
بخش عمدهای از زیرساختهای امروزی برای حجم کاری آموزشی تنظیم شدهاند که عملکرد در اوج را بر پاسخگویی متوسط اولویت میدهند، اما در استنتاج به ویژه هنگام استفاده از هوش مصنوعی تعاملی با پرسش و پاسخهای متعدد، تأخیر به معیار تعیینکننده تبدیل میشود. شث اضافه کرد: کاربر انتظار دارد وقتی مدل شروع به پاسخ دادن کرد، با سرعت مشخصی پاسخ بدهد. در غیر این صورت، احتمالاً به آن گوش نخواهد داد.
گزارشگر فوربس از شث درباره سرعت موتورهای هوش مصنوعی برای ارائه پاسخهای خود در اپلیکیشنها و مرورگرها پرسید که اغلب کند به نظر میرسد. پرسش این بود: «آیا این سرعتی است که آنها فکر میکنند ما میتوانیم تحمل کنیم یا حداکثر سرعتی است که میتوانند داشته باشند؟» پاسخ شث این بود: «حداکثر سرعتی است که میتوانند داشته باشند.»
از نظر عملی، این به معنای به حداقل رساندن زمان لازم برای بازیابی و فعالسازی مدلها و تغذیه آنها با واحدهای محاسباتی برای هر توکن تولیدشده است. ساختارهای سنتی GPU، محاسبات و حافظه با پهنای باند بالا را به عنوان زیرسیستمهای مجزا از هم ارائه میدهند و این میتواند به ناکارآمدی در بار کاری استنتاج منجر شود که به شدت به حافظه نیاز دارد.
راه حل d-Matrix، ترکیب دقیق محاسبات و حافظه در معماری آن است. این شرکت با نزدیکتر کردن فیزیکی حافظه به محاسبات و تنظیم جریان دادهها به طور ویژه برای الگوهای استنتاج قصد دارد تأخیر توکن را کاهش دهد و تعداد توکنها در ثانیه به ازای هر وات را بالا ببرد. به علاوه، این استارتآپ به جای ساخت یک پردازنده یکپارچه بزرگ، سیلیکون خود را به عناصر سازنده کوچکتر و ماژولار به نام «چیپلت»(Chiplet) برش میدهد. چیپلتها بسته به نیازهای حجم کار، در مقادیر گوناگون با یکدیگر ترکیب میشوند.
از نظر مفهومی، این به طراحی حافظه یکپارچه اپل نزدیکتر است تا ساختارهای سنتی پردازندههای گرافیکی که کاهش فاصله بین محاسبات و حافظه و تنظیم حول محور بهرهوری به جای عملکرد معیار در اوج را شامل میشود.
استارتآپ d-Matrix، سیلیکون را با این فرض طراحی کرد که استنتاج غالب خواهد بود. شث ادعا میکند که نتیجه این کار، تأخیر کمتر و عملکرد بسیار بالاتر به ازای توان مصرفی به ویژه برای بارهای کاری تعاملی و بلادرنگ است. شث خاطرنشان کرد که هزینه اجرای عملیات استنتاج با d-Matrix در حال حاضر تقریباً ۹۰ درصد کمتر از انواع GPU است و موارد بیشتری هم در راه هستند. وی افزود: این متعلق به امروز است. از این بهتر هم خواهد شد.
این وعده شاید درست به موقع یا شاید کمی دیرتر از راه برسد. شرکت «اوپنایآی»(OpenAI) اکنون از تراشههای بزرگ شرکت الکترونیک آمریکایی «سریبراس»(Cerebras) برای اجرای استنتاج در مدل «GPT-5.3-Codex-Spark» خود استفاده میکند و در مقایسه با سایر ساختارها به سرعت ۱۵ تا ۲۰ برابر دست مییابد. سریبراس یک رویکرد کاملاً متفاوت را از d-Matrix دارد، اما اهداف مشابهی را دنبال میکند.
شرکت d-Matrix در حال حاضر تراشههای خود را در مقادیر کم عرضه میکند. شث گفت که خیلی زود این تعداد به هزاران عدد خواهد رسید. این تعداد باید به زودی به میلیونها عدد برسد و ممکن است امسال به این رقم دست یابد. وی افزود: امسال شاهد تولید انبوه آن خواهید بود.
انتهای پیام