رقیب هوش مصنوعی Cerebras ابررایانه ماژولار “Andromeda” را برای سرعت بخشیدن به مدل های زبان بزرگ مونتاژ می کند.


مغزهای-آندرومدا-درهای-بسته-2022

آندرومدا مجموعه ای از 16 کامپیوتر CS-2 AI سربراس است که از طریق یک سوئیچ پارچه ای اختصاصی به هم متصل شده و توسط یک ماشین حافظه که تنظیمات یک شبکه عصبی را به روز می کند، نظارت می شود. سربراس می‌گوید برنامه‌نویسی دستگاه برای اجرای مدل‌های زبان بزرگ، آغاز موجی از محاسبات خوشه‌ای در هوش مصنوعی است.

سیستم های مغزی

رواج کنونی برنامه‌های یادگیری ماشینی که حجم عظیمی از ورودی زبان طبیعی را مدیریت می‌کنند، مرزهای محاسبات را جابجا می‌کنند و نوعی مسابقه تسلیحاتی ابررایانه‌ای خاص خود را تقویت می‌کنند.

جایی که زمانی ابررایانه‌ها فقط برای مشکلات علمی بودند، توسعه برنامه‌های هوش مصنوعی که به عنوان مدل‌های زبان بزرگ یا LLM شناخته می‌شوند، کسب‌وکارها را بر آن می‌دارد تا به دنبال همان اسب بخاری باشند که آزمایشگاه‌های تحقیقاتی برتر دنیا دارند.

به عنوان مثال، انویدیا، حامل استاندارد تراشه‌های هوش مصنوعی، در ماه سپتامبر یک مرکز رایانش ابری اختصاص داده شده به مدل‌های زبان بزرگ را اعلام کرد که به عنوان یک سرویس توسط شرکت‌ها قابل اجاره خواهد بود.

دوشنبه، سیستم های مغزیاستارت‌آپ شش ساله مستقر در Sunnyvale در کالیفرنیا که در میان مجموعه‌ای از شرکت‌هایی است که سلطه انویدیا را به چالش می‌کشند، ابررایانه ای به نام آندرومدا رونمایی کرد که یک کوادریلیون عملیات ریاضی ممیز شناور را در هر ثانیه انجام می دهد، به اندازه برترین ابررایانه جهان، مرز، و می تواند به سرعت چشمگیری در کارهایی مانند LLM ها فراتر از توانایی هزاران تراشه GPU دست یابد.

همچنین: استارت‌آپ هوش مصنوعی Cerebras برای پیروزی در تراشه جشن گرفت، جایی که دیگران تلاش کردند و شکست خوردند

برخلاف ابررایانه‌های هدفمند که سال‌ها طول می‌کشد تا توسط سازندگان سیستم مانند Hewlett Packard Enterprise و IBM مونتاژ شوند، دستگاه Andromeda یک رویکرد ساختاری دارد که باعث می‌شود آن را ماژولار کرده و در عرض چند روز مونتاژ شود.

اندرو فلدمن، یکی از بنیانگذاران و مدیرعامل Cerebras، در مصاحبه ای از طریق Zoom، آندرومدا را با Frontier مقایسه کرد: “آنچه سال ها طول کشید، ما در سه روز ایستادیم و چیزی که 600 میلیون دلار برای آنها هزینه داشت، کمتر از 30 میلیون دلار هزینه داشت.”

فلدمن گفت: ظرف 10 دقیقه پس از مونتاژ کامل آندرومدا، “ما توانستیم مقیاس خطی را بدون تغییر یک خط کد نشان دهیم.” مقیاس‌بندی خطی به این معنی است که با اضافه شدن ماشین‌های مجزای بیشتری به خوشه، زمان لازم برای انجام محاسبات به نسبت مستقیم کاهش می‌یابد.

به عنوان مثال، دانشمندان آزمایشگاه ملی آرگون وابسته به وزارت انرژی که در مراحل اولیه با دستگاه آندرومدا کار می کردند، با دو برابر کردن تعداد ماشین ها از دو به چهار، زمان آموزش یک مدل زبان بزرگ را از 4.1 ساعت به 2.4 ساعت کاهش دادند.

دستگاه Andromeda دوشنبه توسط Cerebras’s Feldman در ارائه شده است کنفرانس SC22گردهمایی فن‌آوران ابر رایانه که این هفته در دالاس، تگزاس برگزار می‌شود. دانشمندان آزمایشگاه های آرگون نیز در حال ارائه هستند مقاله تحقیقاتی آنها توصیف با استفاده از ماشین مغزی.

همچنین: استارت‌آپ تراشه‌های هوش مصنوعی Cerebras با ارزشی بالغ بر 4 میلیارد دلار، سری F 250 میلیون دلاری را به دست آورد

خوشه آندرومدا ترکیبی از رایانه‌های CS-2 سربراس، ماشین‌های هوش مصنوعی اختصاصی به اندازه یک یخچال خوابگاه است. هر تراشه ماشین CS-2، Wafer-Scale-Engine، بزرگترین نیمه هادی جهان، دارای 850000 هسته محاسباتی است که به طور موازی توسط 40 گیگابایت حافظه SRAM روی تراشه سریع تغذیه می شوند.

خوشه آندرومدا 16 CS-2 را برای مجموع 13.5 میلیون هسته محاسباتی گرد هم می آورد که شصت درصد بیشتر از سیستم Frontier است. میلیون ها هسته به طور موازی عملیات جبر خطی ضرب ماتریس را انجام می دهند که برای تبدیل نمونه های داده در هر لایه از شبکه عصبی ضروری است. هر CS-2 یک قطعه از داده های آموزشی شبکه عصبی را برای کار روی آن دریافت می کند.

CS-2 ها توسط یک سوئیچ داده ویژه Cerebras که سال گذشته معرفی شد، به نام Swarm-X به هم متصل می شوند که CS-2s را به دستگاه سوم، Memory-X متصل می کند. Memory-X به عنوان یک مخزن مرکزی برای “وزن” یا پارامترهای عصبی عمل می کند که برای هر CS-2 پخش می شود. نتیجه حاصل از ضرب ماتریس در هر CS-2 سپس از طریق Swarm-X به Memory-X به عنوان یک به روز رسانی گرادیان به وزن ها منتقل می شود و Memory-X کار محاسبه مجدد وزن ها را انجام می دهد. چرخه دوباره شروع می شود

supercompute-2022-announcement-deck-slide-15

Andromeda با ترکیب 16 کامپیوتر CS-2 AI Cerebras که توسط یک سوئیچ به نام Swarm-X به هم متصل شده بودند و با یک کامپیوتر هماهنگ کننده مرکزی که وزن های عصبی به نام Memory-X را به روز می کند، ارتباط برقرار کرد.

سیستم های مغزی

خوشه Andromeda به عنوان یک ماشین در دسترس ابری توسط Santa Clara، مستقر در کالیفرنیا نصب شده است. رنگارنگ، که در بازار خدمات میزبانی با خدماتی مانند Equinix رقابت می کند.

راز طراحی مدولار این است که ماشین‌های CS-2 را می‌توان به عنوان یک سیستم واحد بدون تلاش برنامه‌ریزی موازی عجیب و غریب که معمولاً برای یک ابر رایانه مورد نیاز است، هماهنگ کرد. حداکثر 192 CS-2 می‌توانند در یک زمان با هم کار کنند، و نرم‌افزار Cerebras از عملکردهای سطح پایین مربوط به تقسیم کردن محاسبات به هر CS-2 و مدیریت وزن و ترافیک گرادیان در سراسر پارچه Swarm-X مراقبت می‌کند.

همچنین: Cerebras خود را برای عصر شبکه های عصبی 120 تریلیون پارامتری آماده می کند

فلدمن مستقیماً از یک نوت بوک Jupyter گفت: برخلاف ابررایانه های سنتی، می توانید کار خود را طوری ارسال کنید که گویی یک کار واحد روی یک CPU است. تنها کاری که باید انجام دهید این است که چهار چیز را مشخص کنید: چه مدل و چه پارامترهایی؛ چه تعداد CS-2 از 16 موردی که می‌خواهید استفاده کنید؛ کجا می‌خواهید نتایج پس از پایان کار ارسال شوند؛ و چه مدت می‌خواهید مدلی که باید اجرا شود – همین است، بدون برنامه نویسی موازی، بدون کار محاسباتی توزیع شده.”

supercompute-2022-announcement-deck-slide-24

Cerebras بر سهولت خوشه بندی CS-2 های خود تأکید می کند، که نیازی به نوشتن کدهای برنامه نویسی توزیع شده موازی عجیب و غریب ندارد.

سیستم های مغزی

کاربران اولیه مانند تیم Argonne ثابت کردند که رویکرد Andromeda می‌تواند برخی از ابررایانه‌ها را با استفاده از هزاران پردازنده گرافیکی Nvidia شکست دهد و حتی برخی از وظایف را انجام دهد که به دلیل محدودیت‌های حافظه نمی‌توانستند روی ابر رایانه‌ها اجرا شوند.

تحقیق Argonne چرخشی جدید در مدل‌های زبانی بزرگ است: یک مدل زبان بیولوژیکی، که نه ترکیب‌های واژه‌ای را در جملات، بلکه ترکیبات بیولوژیکی را در توالی‌های ژنتیکی پیش‌بینی می‌کند. به ویژه، آنها راهی برای پیش بینی توالی ژنتیکی انواع DNA ویروسی SARS-CoV-2 کووید-19 ابداع کردند.

با استفاده از رویکرد مدل زبان بزرگ GPT-2 ایجاد شده توسط استارتاپ OpenAI، نویسنده اصلی ماکسیم زویاگین و همکارانش برنامه ای برای پیش بینی ترتیب چهار باز اسید نوکلئیک در DNA و RNA، آدنین (A)، سیتوزین (C) ساختند. گوانین (G)، تیمین (T).

با تغذیه برنامه GPT-2 توالی بیش از 110 میلیون توالی ژن پروکاریوتی، و سپس “تنظیم دقیق” با 1.5 میلیون ژنوم مختلف SARS-CoV-2، این برنامه توانایی پیش بینی جهش های مختلف ظاهر شده در انواع کووید-19

نتیجه یک “مدل زبان در مقیاس ژنوم” یا GenSLM است، همانطور که زویاگین و تیم برنامه خود را نامیده اند. می توان از آن برای نظارت ویروسی، برای پیش بینی ظهور انواع جدید کووید به عنوان نوعی سیستم هشدار اولیه استفاده کرد.

همچنین: جنسن هوانگ، مدیر عامل انویدیا، از در دسترس بودن پردازنده گرافیکی «Hopper»، سرویس ابری برای مدل‌های بزرگ زبان هوش مصنوعی خبر داد.

ما سیستمی را پیشنهاد می کنیم که الگوهای تکامل کل ژنوم را با استفاده از LLM بر اساس داده های مشاهده شده مدل سازی می کند و ردیابی VOC ها را امکان پذیر می کند. [variants of concern] بر اساس معیارهای تناسب اندام و فرار ایمنی،” آنها می نویسند.

نویسندگان برنامه GenSLM را بر روی دو ابررایانه، Polaris، خوشه ای از بیش از دو هزار پردازنده گرافیکی Nvidia A100 آزمایش کردند. و سلن، خوشه ای متشکل از 4000 A100. این دو ماشین سریع‌ترین ابررایانه‌های شماره 14 و 8 در جهان هستند. آن‌ها همچنین کار را روی آندرومدا اجرا کردند تا ببینند چگونه روی هم می‌آید.

سیستم آندرومدا زمان تمرین را از بیش از یک هفته به روز کاهش می دهد، آنها می نویسند:

[T]این آموزش اغلب بیش از 1 هفته در منابع اختصاصی GPU (مانند Polaris@ALCF) طول می کشد. برای فعال کردن آموزش مدل‌های بزرگتر در طول توالی کامل (10240 توکن)، از شتاب‌دهنده‌های سخت‌افزاری هوش مصنوعی مانند Cerebras CS-2، هم در حالت مستقل و هم به‌عنوان یک خوشه به هم پیوسته استفاده کردیم و GenSLM‌هایی را به دست آوردیم که همگرا می‌شوند. در کمتر از یک روز

زویاگین و همکارانش می نویسند یک نسخه از وظیفه GenSLM وجود دارد که حتی نمی توان آن را روی ماشین های Polaris و Selene اجرا کرد.

یک مدل زبان، تعداد معینی از حروف، کلمات یا نشانه‌های دیگر را به عنوان ورودی می‌گیرد که باید به‌صورت توالی در نظر گرفته شوند. در مورد کارهای زبان طبیعی، مانند پیش بینی کلمه بعدی، یک دنباله پانصد یا هزار کلمه ممکن است کافی باشد.

همچنین: تست تورینگ جدید: آیا شما انسان هستید؟

اما کد ژنتیکی، مانند توالی‌های پایه اسید نوکلئیک، باید در هزاران توکن در نظر گرفته شود، که به عنوان «قاب خواندن باز» شناخته می‌شود، که طولانی‌ترین آنها 10240 توکن است. از آنجایی که توکن‌های ورودی بیشتر حافظه روی تراشه را اشغال می‌کنند، پردازنده‌های گرافیکی در Polaris و Selene نمی‌توانند رشته‌های ۱۰۲۴۰ توکنی را برای مدل‌های زبانی که از اندازه معینی گذشته است پردازش کنند، زیرا هم حافظه وزنی و هم نشانه‌های ورودی حافظه در دسترس GPU‌ها را خسته می‌کنند.

andrew-feldman-cerebras-2022.png

اندرو فلدمن، مدیرعامل Cerebras می گوید که بازار برای محاسبات خوشه ای آماده است. “مدل های زبان بزرگ، ما به نقطه ای می رسیم که مردم آن را می خواهند سریع،” او می گوید. “اگر یک سال پیش یک خوشه بزرگ ساخته بودیم، همه می‌شدند، مثلاً چه؟ اما در حال حاضر، مردم مشتاق آموزش GPT-3 با سیزده میلیارد پارامتر هستند.”

سیستم های مغزی

ما توجه داشته‌ایم که برای اندازه‌های مدل بزرگ‌تر از 2.5 میلیارد وزن یا پارامتر عصبی و 25 میلیارد وزن عصبی، «آموزش داده‌های SARS-CoV-2 با طول 10240 در خوشه‌های GPU به دلیل خطاهای خارج از حافظه غیرممکن بود. در حین محاسبه توجه.” با این حال، دستگاه آندرومدا به دلیل وجود حافظه عظیم 40 گیگابایتی روی تراشه در هر تراشه CS-2 با استفاده از مدل هایی با 1.3 میلیارد پارامتر، توانست توالی 10240 توکن را مدیریت کند.

به گفته فلدمن، در حالی که مقاله Argonne تنها نسخه‌های دو و چهار گره آندرومدا را توصیف می‌کند، ارائه این هفته در SC22 نشان می‌دهد که با اضافه شدن ماشین‌های بیشتر، زمان برای محاسبه کاهش می‌یابد. همان 10.4 ساعت مورد نیاز یک آندرومدا چهار طرفه برای آموزش GenSLM بر روی 10240 توکن ورودی با 1.3 میلیارد وزن را می توان با استفاده از تمام شانزده ماشین به 2.7 ساعت کاهش داد.

فراتر از سرعت و مقیاس، مقاله GenSLM، به عقیده فلدمن، به چیزی عمیق اشاره می کند که در ترکیب داده های بیولوژیکی با مدل های زبانی در حال ظهور است.

همچنین: هدف واقعی هوش مصنوعی ممکن است دیگر هوش نباشد

فلدمن گفت: «ما کل ژنوم کووید را در آن پنجره توالی قرار دادیم و هر ژن را در زمینه کل ژنوم آنالیز کردیم.

“چرا این جالب است؟ این جالب است زیرا آنچه ما در طول 30 سال گذشته آموخته ایم این است که دقیقاً مانند کلمات، ژن ها بر اساس همسایگانشان به طور متفاوتی خود را بیان می کنند.”

فلدمن گفت، از نقطه نظر تجاری، بازار برای اسب بخار برای اجرای مدل های زبان بزرگ آماده است.

“مدل های زبان بزرگ، ما به نقطه ای می رسیم که مردم آن را می خواهند سریع،” او گفت. “اگر یک سال پیش یک خوشه بزرگ ساخته بودیم، همه می‌شدند، مثلاً چه؟ اما در حال حاضر، مردم مشتاق هستند که GPT-3 را با سیزده میلیارد پارامتر یا GPT-Neo که یک مدل 20 میلیارد پارامتری است، آموزش دهند.

او پیشنهاد کرد که خوشه‌ها ممکن است برای پردازش موازی یک کار واحد و سناریوهای چند کاربره در یک سازمان پیشرو باشند.

“من فکر می کنم بازاری در حال ظهور است که در آن مردم می خواهند در یک خوشه بزرگ وقت بگذارند، و آنها می خواهند SSH-in کنند، آنها چیز جالبی نمی خواهند. آنها فقط می خواهند داده های خود را تحویل دهند و بروند.”


منبع: https://www.zdnet.com/article/ai-challenger-cerebras-assembles-modular-supercomputer-andromeda-to-speed-up-large-language-models/#ftag=RSSbaffb68