DeepMind's Perceiver AR: گامی به سوی بهره وری بیشتر هوش مصنوعی

deepmind-2022-perceiver-ar-architecture — معماری AR ادراکی DeepMind و Google Brain وظیفه محاسبه ماهیت ترکیبی ورودی ها و خروجی ها را در یک فضای پنهان کاهش می دهد، اما با یک پیچ و تاب که فضای پنهان دارای “پوشش علّی” است تا نظم رگرسیون خودکار یک ترانسفورماتور معمولی را اضافه کند.

DeepMind/Google Brain

یکی از جنبه های هشداردهنده بخش یادگیری عمیق فوق العاده محبوب هوش مصنوعی، اندازه بزرگتر برنامه ها است. کارشناسان در این زمینه می گویند که وظایف محاسباتی بزرگتر و بزرگتر می شوند زیرا مقیاس اهمیت دارد.

چنین برنامه‌های بزرگ‌تر و بزرگ‌تری، گراز منابع هستند، و این موضوع مهمی در اخلاق یادگیری عمیق برای جامعه است، معضلی که توجه افراد را به خود جلب کرده است. مجلات علمی اصلی مانند Nature.

به همین دلیل است که هر زمان که اصطلاح کارایی مطرح شود جالب است، مانند: آیا می توانیم این برنامه هوش مصنوعی را کارآمدتر کنیم؟

دانشمندان در DeepMind و در بخش مغز گوگل، اخیراً یک شبکه عصبی را که سال گذشته معرفی کرده بودند، به نام Perceiver، اقتباس کردند تا آن را از نظر انرژی مورد نیاز کامپیوتر خود کارآمدتر کنند.

برنامه جدید، Perceiver AR، به دلیل جنبه “خود رگرسیون” تعداد فزاینده ای از برنامه های یادگیری عمیق نامگذاری شده است. رگرسیون خودکار تکنیکی است برای اینکه یک ماشین از خروجی های خود به عنوان ورودی های جدید برای برنامه استفاده کند، یک عملیات بازگشتی که یک نقشه توجه از چگونگی ارتباط چندین عنصر با یکدیگر را تشکیل می دهد.

همچنین: Supermodel Google: DeepMind Perceiver گامی در مسیر یک ماشین هوش مصنوعی است که می تواند همه چیز و همه چیز را پردازش کند.

Transformer، شبکه عصبی بسیار محبوب گوگل که در سال 2017 معرفی شد، دارای این جنبه خودبازگشتی است. و بسیاری از مدل‌ها، از جمله GPT-3 و اولین نسخه Perceiver.

Perceiver AR نسخه دوم Perceiver به نام Perceiver IO را دنبال می‌کند که در ماه مارس معرفی شد و نسخه اصلی Perceiver یک سال پیش در این ماه.

نوآوری درک کننده اصلی این بود که ترانسفورماتور را گرفته و آن را به گونه ای تنظیم کرد تا بتواند همه انواع را مصرف کند. ورودیاز جمله صدا و تصاویر متنی، به شکلی انعطاف‌پذیر، به جای محدود شدن به نوع خاصی از ورودی، که معمولاً انواع جداگانه‌ای از شبکه‌های عصبی برای آن ایجاد می‌شوند.

Perceiver یکی از تعداد فزاینده‌ای از برنامه‌هایی است که از مکانیسم‌های توجه رگرسیون خودکار برای ترکیب روش‌های مختلف ورودی و حوزه‌های مختلف وظیفه استفاده می‌کنند. نمونه های دیگر عبارتند از Google’s Pathways، DeepMind’s Gato و Meta’s data2vec.

همچنین: «گاتو» DeepMind متوسط است، پس چرا آنها آن را ساختند؟

سپس، در ماه مارس، همان تیمی متشکل از اندرو جگل و همکارانش که Perceiver را ساختند، نسخه «IO» را معرفی کرد، که باعث افزایش خروجی از Perceiver برای تطبیق فراتر از طبقه بندی صرف، دستیابی به مجموعه ای از خروجی ها با انواع ساختارها، از خروجی زبان متن تا میدان های جریان نوری گرفته تا دنباله های سمعی و بصری تا مجموعه های نامرتب نمادین. حتی می تواند در بازی StarCraft II حرکت ایجاد کند.

اکنون در روزنامه، مدل‌سازی خودرگرسیون همه‌منظوره با زمینه طولانی با Perceiver ARجگل و تیم با این سوال مواجه می‌شوند که چگونه مدل‌ها باید مقیاس شوند، زیرا در آن وظایف ورودی و خروجی چندوجهی‌تر و جاه‌طلبانه‌تر می‌شوند.

مشکل این است که کیفیت رگرسیون خودکار ترانسفورماتور و هر برنامه دیگری که یک نقشه توجه از ورودی تا خروجی ایجاد می کند، این است که به مقیاس فوق العاده ای از نظر توزیع بر روی صدها هزار عنصر نیاز دارد.

این همان پاشنه آشیل توجه است، دقیقاً نیاز به توجه به هر چیزی و همه چیز به منظور جمع آوری توزیع احتمالی که نقشه توجه را ایجاد می کند.

همچنین: ‘data2vec’ متا گامی به سوی یک شبکه عصبی برای حکومت بر همه آنها است

همانطور که Jaegle و تیم بیان کردند، با افزایش تعداد چیزهایی که باید در ورودی با یکدیگر مقایسه شوند، از نظر محاسباتی به یک کابوس مقیاس‌پذیر تبدیل می‌شود:

تنشی بین این نوع ساختار طولانی و متنی و خصوصیات محاسباتی ترانسفورماتورها وجود دارد. ترانسفورماتورها به طور مکرر یک عملیات خودتوجهی را به ورودی های خود اعمال می کنند: این منجر به نیازهای محاسباتی می شود که به طور همزمان با طول ورودی و به صورت خطی با عمق مدل رشد می کنند. همانطور که داده‌های ورودی طولانی‌تر می‌شوند، نشانه‌های ورودی بیشتری برای مشاهده آن مورد نیاز است، و از آنجایی که الگوهای موجود در داده‌های ورودی ظریف‌تر و پیچیده‌تر می‌شوند، برای مدل‌سازی الگوهای حاصل به عمق بیشتری نیاز است. محدودیت‌های محاسباتی کاربران ترانسفورماتورها را مجبور می‌کنند که ورودی‌های مدل را کوتاه کنند (از مشاهده بسیاری از الگوهای دوربرد جلوگیری می‌کنند) یا عمق مدل را محدود می‌کنند (آن را از قدرت بیانی مورد نیاز برای مدل‌سازی الگوهای پیچیده حذف می‌کنند).

Perceiver اصلی در واقع با توجه به نمایش نهفته ورودی، به جای مستقیم، کارایی بهتری را نسبت به Transformers به ارمغان آورد. این تاثیر داشت “[decoupling] الزامات محاسباتی پردازش یک آرایه ورودی بزرگ از آنهایی که برای ایجاد یک شبکه بسیار عمیق لازم است.”

درک-ار-گرافیک-مقایسه-ترانسفورماتور — مقایسه Perceiver AR با شبکه عمیق ترانسفورماتور استاندارد و Transformer XL پیشرفته.

DeepMind/Google Brain

بخش پنهان، جایی که نمایش‌های ورودی فشرده می‌شوند، به نوعی موتور کارآمدتر برای توجه تبدیل می‌شود، به طوری که «برای شبکه‌های عمیق، پشته توجه به خود جایی است که بخش عمده‌ای از محاسبات رخ می‌دهد» به جای اینکه روی ورودی‌های بی‌شمار کار کند.

اما چالش باقی ماند که یک ادراکی نمی تواند خروجی هایی را به روشی که ترانسفورماتور انجام می دهد تولید کند زیرا این نمایش نهفته هیچ حس نظمی ندارد و نظم در رگرسیون خودکار ضروری است. هر خروجی قرار است محصولی باشد که به دست آمد قبل از آن، نه بعد از آن

همچنین: گوگل از «Pathways» رونمایی کرد، یک هوش مصنوعی نسل بعدی که می‌توان آن را برای چند کار آموزش داد

آنها می نویسند: “با این حال، از آنجایی که هر مدل نهفته به همه ورودی ها بدون توجه به موقعیت خود توجه می کند، درک کننده ها را نمی توان به طور مستقیم برای تولید اتورگرسیو استفاده کرد، که مستلزم آن است که خروجی هر مدل فقط به ورودی هایی که به ترتیب قبل از آن هستند بستگی داشته باشد.”

با Perceiver AR، تیم جلوتر می رود و وارد می شود سفارش وارد Perceiver شود تا آن را قادر به آن تابع رگرسیون خودکار کند.

نکته کلیدی آن چیزی است که به آن “پوشاندن علّی” ورودی، جایی که “توجه متقابل روی می دهد، و بازنمایی نهفته” می گویند تا برنامه را مجبور کند که فقط به چیزهای قبل از یک نماد معین توجه کند. این رویکرد کیفیت جهت دار را بازیابی می کند. ترانسفورماتور، اما با محاسبات بسیار کمتر.

نتیجه توانایی انجام کاری است که ترانسفورماتور در ورودی های بسیار بیشتری انجام می دهد، اما عملکرد قابل توجهی بهبود یافته است.

آن‌ها می‌نویسند: «درک AR می‌تواند یاد بگیرد که الگوهای زمینه طولانی را در فواصل حداقل 100 هزار توکن در یک کار کپی مصنوعی کاملاً تشخیص دهد، در مقابل محدودیت سخت 2048 توکن برای Transformer، جایی که توکن‌های بیشتر برابر است با زمینه طولانی‌تر، که باید برابر باشد. پیچیدگی بیشتر در خروجی برنامه.

همچنین: هوش مصنوعی در شصت ثانیه

و Perceiver AR این کار را با «بازدهی بهبود یافته در مقایسه با معماری‌های Transformer و Transformer-XL فقط رمزگشای پرکاربرد و توانایی تغییر محاسبات مورد استفاده در زمان آزمایش برای مطابقت با بودجه هدف» انجام می‌دهد.

آنها می نویسند، به طور خاص، زمان ساعت دیواری برای محاسبه Perceiver AR، برای همان مقدار توجه به طور چشمگیری کاهش می یابد، و توانایی دریافت زمینه بسیار بیشتر – نمادهای ورودی بیشتر – با بودجه محاسباتی یکسان است:

Transformer به طول زمینه 2048 توکن محدود شده است، حتی با تنها 6 لایه – مدل های بزرگتر و طول زمینه بزرگتر به حافظه زیادی نیاز دارند. با استفاده از همان پیکربندی 6 لایه، می‌توانیم حافظه Transformer-XL را به طول زمینه 8192 مقیاس کنیم. Perceiver AR را به طول زمینه 65k مقیاس می دهد و با بهینه سازی بیشتر می توان آن را تا بیش از 100k زمینه مقیاس کرد.

همه اینها به معنای انعطاف پذیری محاسبات است: “این به ما کنترل بیشتری بر روی میزان استفاده از محاسبات برای یک مدل معین در زمان آزمایش می دهد و به ما امکان می دهد سرعت را با عملکرد به آرامی تغییر دهیم.”

Jaegle و همکارانش می نویسند، این رویکرد می تواند در هر نوع ورودی، نه فقط نمادهای کلمه، به عنوان مثال، پیکسل های یک تصویر استفاده شود:

همین رویه را می توان برای هر ورودی قابل سفارشی اعمال کرد، البته تا زمانی که ماسک اعمال شود. به عنوان مثال، کانال های RGB یک تصویر را می توان به ترتیب اسکن شطرنجی، با رمزگشایی کانال های رنگی R، G و B برای هر پیکسل در دنباله یا حتی تحت جایگشت های مختلف، مرتب کرد.

همچنین: اخلاق هوش مصنوعی: مزایا و خطرات هوش مصنوعی

نویسندگان پتانسیل بزرگی را برای Perceiver برای رفتن به مکان‌هایی می‌بینند و می‌نویسند که “Perceiver AR کاندیدای خوبی برای یک مدل خودرگرسیون با زمینه عمومی و طولانی است.”

با این حال، یک موج اضافی در فاکتور کارایی رایانه وجود دارد. نویسندگان خاطرنشان می‌کنند که برخی از تلاش‌های اخیر تلاش کرده‌اند تا با استفاده از «sparsity»، یعنی فرآیند محدود کردن عناصر ورودی که اهمیت داده می‌شوند، بودجه محاسبه‌ای برای توجه رگرسیون خودکار را کاهش دهند.

ادراکی-ار-گرافی-دیواری-ساعت-زمان-مقایسه — در همان زمان ساعت دیواری، Perceiver AR می‌تواند نمادهای بیشتری را از ورودی از طریق همان تعداد لایه اجرا کند، یا همان تعداد نمادهای ورودی را اجرا کند در حالی که به زمان محاسباتی کمتری نیاز دارد – انعطاف‌پذیری که نویسندگان معتقدند می‌تواند یک رویکرد کلی برای بیشتر باشد. کارایی در شبکه های بزرگ

DeepMind/Google Brain

که اصولاً خیلی سفت و سخت بودن، اشکالاتی دارد. آنها می نویسند: “نقاط منفی روش هایی که از پراکندگی استفاده می کنند این است که این پراکندگی باید به صورت دستی تنظیم شود یا با اکتشافی هایی ایجاد شود که اغلب مختص دامنه هستند و تنظیم کردن آنها دشوار است.” این شامل تلاش هایی مانند OpenAI و Nvidia 2019 می شود.ترانسفورماتور اسپارس“

آنها می نویسند: “در مقابل، کار ما یک الگوی پراکندگی دست ساز را بر روی لایه های توجه تحمیل نمی کند، بلکه به شبکه اجازه می دهد تا یاد بگیرد که به کدام ورودی های زمینه طولانی توجه کند و از طریق شبکه منتشر شود.”

آنها می افزایند: “عملیات اولیه حضور متقابل، که تعداد موقعیت ها را در دنباله کاهش می دهد، می تواند به عنوان نوعی از پراکندگی آموخته شده تلقی شود.”

این احتمال وجود دارد که پراکندگی آموخته شده از این طریق بتواند خود ابزار قدرتمندی در مجموعه ابزار مدل های یادگیری عمیق در سال های آینده باشد.

منبع: https://www.zdnet.com/article/deepminds-perceiver-ar-a-step-toward-more-ai-efficiency/#ftag=RSSbaffb68