رواج کنونی برنامههای یادگیری ماشینی که حجم عظیمی از ورودی زبان طبیعی را مدیریت میکنند، مرزهای محاسبات را جابجا میکنند و نوعی مسابقه تسلیحاتی ابررایانهای خاص خود را تقویت میکنند.
جایی که زمانی ابررایانهها فقط برای مشکلات علمی بودند، توسعه برنامههای هوش مصنوعی که به عنوان مدلهای زبان بزرگ یا LLM شناخته میشوند، کسبوکارها را بر آن میدارد تا به دنبال همان اسب بخاری باشند که آزمایشگاههای تحقیقاتی برتر دنیا دارند.
به عنوان مثال، انویدیا، حامل استاندارد تراشههای هوش مصنوعی، در ماه سپتامبر یک مرکز رایانش ابری اختصاص داده شده به مدلهای زبان بزرگ را اعلام کرد که به عنوان یک سرویس توسط شرکتها قابل اجاره خواهد بود.
دوشنبه، سیستم های مغزیاستارتآپ شش ساله مستقر در Sunnyvale در کالیفرنیا که در میان مجموعهای از شرکتهایی است که سلطه انویدیا را به چالش میکشند، ابررایانه ای به نام آندرومدا رونمایی کرد که یک کوادریلیون عملیات ریاضی ممیز شناور را در هر ثانیه انجام می دهد، به اندازه برترین ابررایانه جهان، مرز، و می تواند به سرعت چشمگیری در کارهایی مانند LLM ها فراتر از توانایی هزاران تراشه GPU دست یابد.
همچنین: استارتآپ هوش مصنوعی Cerebras برای پیروزی در تراشه جشن گرفت، جایی که دیگران تلاش کردند و شکست خوردند
برخلاف ابررایانههای هدفمند که سالها طول میکشد تا توسط سازندگان سیستم مانند Hewlett Packard Enterprise و IBM مونتاژ شوند، دستگاه Andromeda یک رویکرد ساختاری دارد که باعث میشود آن را ماژولار کرده و در عرض چند روز مونتاژ شود.
اندرو فلدمن، یکی از بنیانگذاران و مدیرعامل Cerebras، در مصاحبه ای از طریق Zoom، آندرومدا را با Frontier مقایسه کرد: “آنچه سال ها طول کشید، ما در سه روز ایستادیم و چیزی که 600 میلیون دلار برای آنها هزینه داشت، کمتر از 30 میلیون دلار هزینه داشت.”
فلدمن گفت: ظرف 10 دقیقه پس از مونتاژ کامل آندرومدا، “ما توانستیم مقیاس خطی را بدون تغییر یک خط کد نشان دهیم.” مقیاسبندی خطی به این معنی است که با اضافه شدن ماشینهای مجزای بیشتری به خوشه، زمان لازم برای انجام محاسبات به نسبت مستقیم کاهش مییابد.
به عنوان مثال، دانشمندان آزمایشگاه ملی آرگون وابسته به وزارت انرژی که در مراحل اولیه با دستگاه آندرومدا کار می کردند، با دو برابر کردن تعداد ماشین ها از دو به چهار، زمان آموزش یک مدل زبان بزرگ را از 4.1 ساعت به 2.4 ساعت کاهش دادند.
دستگاه Andromeda دوشنبه توسط Cerebras’s Feldman در ارائه شده است کنفرانس SC22گردهمایی فنآوران ابر رایانه که این هفته در دالاس، تگزاس برگزار میشود. دانشمندان آزمایشگاه های آرگون نیز در حال ارائه هستند مقاله تحقیقاتی آنها توصیف با استفاده از ماشین مغزی.
همچنین: استارتآپ تراشههای هوش مصنوعی Cerebras با ارزشی بالغ بر 4 میلیارد دلار، سری F 250 میلیون دلاری را به دست آورد
خوشه آندرومدا ترکیبی از رایانههای CS-2 سربراس، ماشینهای هوش مصنوعی اختصاصی به اندازه یک یخچال خوابگاه است. هر تراشه ماشین CS-2، Wafer-Scale-Engine، بزرگترین نیمه هادی جهان، دارای 850000 هسته محاسباتی است که به طور موازی توسط 40 گیگابایت حافظه SRAM روی تراشه سریع تغذیه می شوند.
خوشه آندرومدا 16 CS-2 را برای مجموع 13.5 میلیون هسته محاسباتی گرد هم می آورد که شصت درصد بیشتر از سیستم Frontier است. میلیون ها هسته به طور موازی عملیات جبر خطی ضرب ماتریس را انجام می دهند که برای تبدیل نمونه های داده در هر لایه از شبکه عصبی ضروری است. هر CS-2 یک قطعه از داده های آموزشی شبکه عصبی را برای کار روی آن دریافت می کند.
CS-2 ها توسط یک سوئیچ داده ویژه Cerebras که سال گذشته معرفی شد، به نام Swarm-X به هم متصل می شوند که CS-2s را به دستگاه سوم، Memory-X متصل می کند. Memory-X به عنوان یک مخزن مرکزی برای “وزن” یا پارامترهای عصبی عمل می کند که برای هر CS-2 پخش می شود. نتیجه حاصل از ضرب ماتریس در هر CS-2 سپس از طریق Swarm-X به Memory-X به عنوان یک به روز رسانی گرادیان به وزن ها منتقل می شود و Memory-X کار محاسبه مجدد وزن ها را انجام می دهد. چرخه دوباره شروع می شود
خوشه Andromeda به عنوان یک ماشین در دسترس ابری توسط Santa Clara، مستقر در کالیفرنیا نصب شده است. رنگارنگ، که در بازار خدمات میزبانی با خدماتی مانند Equinix رقابت می کند.
راز طراحی مدولار این است که ماشینهای CS-2 را میتوان به عنوان یک سیستم واحد بدون تلاش برنامهریزی موازی عجیب و غریب که معمولاً برای یک ابر رایانه مورد نیاز است، هماهنگ کرد. حداکثر 192 CS-2 میتوانند در یک زمان با هم کار کنند، و نرمافزار Cerebras از عملکردهای سطح پایین مربوط به تقسیم کردن محاسبات به هر CS-2 و مدیریت وزن و ترافیک گرادیان در سراسر پارچه Swarm-X مراقبت میکند.
همچنین: Cerebras خود را برای عصر شبکه های عصبی 120 تریلیون پارامتری آماده می کند
فلدمن مستقیماً از یک نوت بوک Jupyter گفت: برخلاف ابررایانه های سنتی، می توانید کار خود را طوری ارسال کنید که گویی یک کار واحد روی یک CPU است. تنها کاری که باید انجام دهید این است که چهار چیز را مشخص کنید: چه مدل و چه پارامترهایی؛ چه تعداد CS-2 از 16 موردی که میخواهید استفاده کنید؛ کجا میخواهید نتایج پس از پایان کار ارسال شوند؛ و چه مدت میخواهید مدلی که باید اجرا شود – همین است، بدون برنامه نویسی موازی، بدون کار محاسباتی توزیع شده.”
کاربران اولیه مانند تیم Argonne ثابت کردند که رویکرد Andromeda میتواند برخی از ابررایانهها را با استفاده از هزاران پردازنده گرافیکی Nvidia شکست دهد و حتی برخی از وظایف را انجام دهد که به دلیل محدودیتهای حافظه نمیتوانستند روی ابر رایانهها اجرا شوند.
تحقیق Argonne چرخشی جدید در مدلهای زبانی بزرگ است: یک مدل زبان بیولوژیکی، که نه ترکیبهای واژهای را در جملات، بلکه ترکیبات بیولوژیکی را در توالیهای ژنتیکی پیشبینی میکند. به ویژه، آنها راهی برای پیش بینی توالی ژنتیکی انواع DNA ویروسی SARS-CoV-2 کووید-19 ابداع کردند.
با استفاده از رویکرد مدل زبان بزرگ GPT-2 ایجاد شده توسط استارتاپ OpenAI، نویسنده اصلی ماکسیم زویاگین و همکارانش برنامه ای برای پیش بینی ترتیب چهار باز اسید نوکلئیک در DNA و RNA، آدنین (A)، سیتوزین (C) ساختند. گوانین (G)، تیمین (T).
با تغذیه برنامه GPT-2 توالی بیش از 110 میلیون توالی ژن پروکاریوتی، و سپس “تنظیم دقیق” با 1.5 میلیون ژنوم مختلف SARS-CoV-2، این برنامه توانایی پیش بینی جهش های مختلف ظاهر شده در انواع کووید-19
نتیجه یک “مدل زبان در مقیاس ژنوم” یا GenSLM است، همانطور که زویاگین و تیم برنامه خود را نامیده اند. می توان از آن برای نظارت ویروسی، برای پیش بینی ظهور انواع جدید کووید به عنوان نوعی سیستم هشدار اولیه استفاده کرد.
همچنین: جنسن هوانگ، مدیر عامل انویدیا، از در دسترس بودن پردازنده گرافیکی «Hopper»، سرویس ابری برای مدلهای بزرگ زبان هوش مصنوعی خبر داد.
ما سیستمی را پیشنهاد می کنیم که الگوهای تکامل کل ژنوم را با استفاده از LLM بر اساس داده های مشاهده شده مدل سازی می کند و ردیابی VOC ها را امکان پذیر می کند. [variants of concern] بر اساس معیارهای تناسب اندام و فرار ایمنی،” آنها می نویسند.
نویسندگان برنامه GenSLM را بر روی دو ابررایانه، Polaris، خوشه ای از بیش از دو هزار پردازنده گرافیکی Nvidia A100 آزمایش کردند. و سلن، خوشه ای متشکل از 4000 A100. این دو ماشین سریعترین ابررایانههای شماره 14 و 8 در جهان هستند. آنها همچنین کار را روی آندرومدا اجرا کردند تا ببینند چگونه روی هم میآید.
سیستم آندرومدا زمان تمرین را از بیش از یک هفته به روز کاهش می دهد، آنها می نویسند:
[T]این آموزش اغلب بیش از 1 هفته در منابع اختصاصی GPU (مانند Polaris@ALCF) طول می کشد. برای فعال کردن آموزش مدلهای بزرگتر در طول توالی کامل (10240 توکن)، از شتابدهندههای سختافزاری هوش مصنوعی مانند Cerebras CS-2، هم در حالت مستقل و هم بهعنوان یک خوشه به هم پیوسته استفاده کردیم و GenSLMهایی را به دست آوردیم که همگرا میشوند. در کمتر از یک روز
زویاگین و همکارانش می نویسند یک نسخه از وظیفه GenSLM وجود دارد که حتی نمی توان آن را روی ماشین های Polaris و Selene اجرا کرد.
یک مدل زبان، تعداد معینی از حروف، کلمات یا نشانههای دیگر را به عنوان ورودی میگیرد که باید بهصورت توالی در نظر گرفته شوند. در مورد کارهای زبان طبیعی، مانند پیش بینی کلمه بعدی، یک دنباله پانصد یا هزار کلمه ممکن است کافی باشد.
همچنین: تست تورینگ جدید: آیا شما انسان هستید؟
اما کد ژنتیکی، مانند توالیهای پایه اسید نوکلئیک، باید در هزاران توکن در نظر گرفته شود، که به عنوان «قاب خواندن باز» شناخته میشود، که طولانیترین آنها 10240 توکن است. از آنجایی که توکنهای ورودی بیشتر حافظه روی تراشه را اشغال میکنند، پردازندههای گرافیکی در Polaris و Selene نمیتوانند رشتههای ۱۰۲۴۰ توکنی را برای مدلهای زبانی که از اندازه معینی گذشته است پردازش کنند، زیرا هم حافظه وزنی و هم نشانههای ورودی حافظه در دسترس GPUها را خسته میکنند.
ما توجه داشتهایم که برای اندازههای مدل بزرگتر از 2.5 میلیارد وزن یا پارامتر عصبی و 25 میلیارد وزن عصبی، «آموزش دادههای SARS-CoV-2 با طول 10240 در خوشههای GPU به دلیل خطاهای خارج از حافظه غیرممکن بود. در حین محاسبه توجه.” با این حال، دستگاه آندرومدا به دلیل وجود حافظه عظیم 40 گیگابایتی روی تراشه در هر تراشه CS-2 با استفاده از مدل هایی با 1.3 میلیارد پارامتر، توانست توالی 10240 توکن را مدیریت کند.
به گفته فلدمن، در حالی که مقاله Argonne تنها نسخههای دو و چهار گره آندرومدا را توصیف میکند، ارائه این هفته در SC22 نشان میدهد که با اضافه شدن ماشینهای بیشتر، زمان برای محاسبه کاهش مییابد. همان 10.4 ساعت مورد نیاز یک آندرومدا چهار طرفه برای آموزش GenSLM بر روی 10240 توکن ورودی با 1.3 میلیارد وزن را می توان با استفاده از تمام شانزده ماشین به 2.7 ساعت کاهش داد.
فراتر از سرعت و مقیاس، مقاله GenSLM، به عقیده فلدمن، به چیزی عمیق اشاره می کند که در ترکیب داده های بیولوژیکی با مدل های زبانی در حال ظهور است.
همچنین: هدف واقعی هوش مصنوعی ممکن است دیگر هوش نباشد
فلدمن گفت: «ما کل ژنوم کووید را در آن پنجره توالی قرار دادیم و هر ژن را در زمینه کل ژنوم آنالیز کردیم.
“چرا این جالب است؟ این جالب است زیرا آنچه ما در طول 30 سال گذشته آموخته ایم این است که دقیقاً مانند کلمات، ژن ها بر اساس همسایگانشان به طور متفاوتی خود را بیان می کنند.”
فلدمن گفت، از نقطه نظر تجاری، بازار برای اسب بخار برای اجرای مدل های زبان بزرگ آماده است.
“مدل های زبان بزرگ، ما به نقطه ای می رسیم که مردم آن را می خواهند سریع،” او گفت. “اگر یک سال پیش یک خوشه بزرگ ساخته بودیم، همه میشدند، مثلاً چه؟ اما در حال حاضر، مردم مشتاق هستند که GPT-3 را با سیزده میلیارد پارامتر یا GPT-Neo که یک مدل 20 میلیارد پارامتری است، آموزش دهند.
او پیشنهاد کرد که خوشهها ممکن است برای پردازش موازی یک کار واحد و سناریوهای چند کاربره در یک سازمان پیشرو باشند.
“من فکر می کنم بازاری در حال ظهور است که در آن مردم می خواهند در یک خوشه بزرگ وقت بگذارند، و آنها می خواهند SSH-in کنند، آنها چیز جالبی نمی خواهند. آنها فقط می خواهند داده های خود را تحویل دهند و بروند.”
منبع: https://www.zdnet.com/article/ai-challenger-cerebras-assembles-modular-supercomputer-andromeda-to-speed-up-large-language-models/#ftag=RSSbaffb68