Google به تلاش‌های مشترک برای ساخت مدل‌های زبان بزرگ محلی می‌پیوندد

Google به تلاش‌های مشترک برای ساخت مدل‌های زبان بزرگ محلی می‌پیوندد

مفهوم دنیای دیجیتال

ادوارد موژفسکی / کتابخانه عکس علمی / گتی ایماژ

Google در حال پیوستن به تلاش‌های مشترک برای ساخت مدل‌های زبانی بزرگ (LLM) است که بهتر به جمعیت و ترکیب فرهنگی آسیای جنوب شرقی پاسخ می‌دهد.

بازوی تحقیقاتی آن با هوش مصنوعی سنگاپور برای تقویت مجموعه داده های مورد استفاده برای آموزش، تنظیم دقیق و ارزیابی مدل های هوش مصنوعی به زبان های خاص منطقه کار خواهد کرد. AI سنگاپور روز دوشنبه در بیانیه‌ای گفت: این ابتکار که پروژه زبان‌های آسیای جنوب شرقی در یک داده شبکه (SEALD) نامیده می‌شود، با هدف “بهبود آگاهی بافت فرهنگی” در LLM‌های ساخته شده برای منطقه انجام می‌شود.

همچنین: پنج روش برای استفاده مسئولانه از هوش مصنوعی

این آژانس دولتی افزود که این همکاری ابتدا بر روی زبان های اندونزیایی، تایلندی، تامیلی، فیلیپینی و برمه ای متمرکز خواهد شد و دو شریک به طور مشترک مدل های ترجمه و ترجمه را توسعه می دهند. آنها همچنین ابزارهایی را برای کمک به مقیاس کردن قابلیت‌های جابه‌جایی و بهترین شیوه‌ها برای تنظیم مجموعه داده‌ها توسعه خواهند داد. راهنماهای پیش‌آموزشی برای زبان‌های آسیای جنوب شرقی منتشر خواهد شد.

هوش مصنوعی سنگاپور اضافه کرد که تمام مجموعه داده ها و خروجی های Project SEALD به صورت متن باز منتشر خواهند شد.

این ابتکار بیشتر از تلاش‌های آموزشی برای مدل‌های زیر SEA-LION (زبان‌های آسیای جنوب شرقی در یک شبکه)، که آژانس دولتی سنگاپور سال گذشته راه‌اندازی کرد، حمایت می‌کند.

همچنین: بهترین چت ربات های هوش مصنوعی: ChatGPT و سایر جایگزین های قابل توجه

تکرار فعلی SEA-LION که از LLM های منبع باز از پیش آموزش دیده برای تفاوت های اجتماعی منطقه تشکیل شده است، بر روی دو مدل پایه اجرا می شود: یک مدل پارامتر سه میلیاردی و یک مدل پارامتری هفت میلیاردی. داده های آموزشی آن شامل 981 میلیارد توکن زبان است. هوش مصنوعی سنگاپور این نشانه ها را به عنوان قطعاتی از کلمات ایجاد شده از شکستن متن در طول توکن سازی تعریف می کند. این قطعات شامل 623 میلیارد توکن انگلیسی، 128 میلیارد توکن آسیای جنوب شرقی و 91 میلیارد توکن چینی است.

پروژه SEALD در حال حاضر روی یک مورد استفاده برای بهبود ارتباطات با کارگران مهاجر در سنگاپور کار می کند، افرادی که ممکن است به زبان های مختلف منطقه ای روان تر از انگلیسی صحبت کنند. تلاش‌های جمع‌آوری داده‌ها منعکس‌کننده ویژگی‌های زبانی منحصربه‌فرد در این جامعه است و پایه‌ای را برای بهبود تعامل بین دولت سنگاپور و کارفرمایان فراهم می‌کند.

مجموعه داده‌ها و خروجی‌های Project SEALD با برنامه‌های هوش مصنوعی مولد توسعه‌یافته توسط Google Cloud و دولت سنگاپور، تحت طرح AI Trailblazers، ادغام خواهند شد تا از دسترسی به جامعه حمایت کنند.

شرکای پروژه SEALD همچنین با صنعت، از جمله دانشگاه و بخش عمومی، در سراسر عملکردها، مانند جمع آوری داده ها و بررسی های کیفیت، کار خواهند کرد. این تلاش‌ها شامل همکاری با دانشگاه‌ها در کشورهای مختلف آسیای جنوب شرقی برای ایجاد روش‌شناسی برای ارزیابی و محک زدن برنامه‌های کاربردی هوش مصنوعی در سراسر منطقه خواهد بود.

همچنین: آیا می خواهید در هوش مصنوعی کار کنید؟ چگونه حرفه خود را در 5 مرحله تغییر دهید

هوش مصنوعی سنگاپور همچنین قصد دارد SEA-LION LLM را در باغ مدل Google Cloud در Vertex AI در دسترس قرار دهد و امکان دسترسی به مدل‌های هوش مصنوعی از پیش تأیید شده را فراهم کند. LLM های منطقه ای به Hugging Face، یک مخزن منبع باز برای ابزارهای هوش مصنوعی و مدل های از پیش آموزش دیده که بیشتر بر قابلیت های پردازش زبان طبیعی متمرکز هستند، اضافه خواهند شد.

AI سنگاپور روز دوشنبه همچنین اعلام کرد که یادداشت‌های تفاهم و نامه‌هایی با سازمان‌های مختلف در اندونزی، مالزی و ویتنام امضا کرده است تا مجموعه داده‌ها و برنامه‌های کاربردی برای LLM‌های منطقه‌ای را توسعه دهند.

علاوه بر این، آژانس سنگاپور گفت که با شرکای خود در اندونزی، تایلند و فیلیپین برای ایجاد منابعی بر روی نحو و معنای زبان منطقه ای کار می کند. اینها شامل مؤسسه علم و فناوری Vidyasirimedhi تایلند و آزمایشگاه علوم محاسبات اجتماعی Ateneo فیلیپین است.

در سال 2022، Google Research از همکاری با موسسه علوم هند برای کار بر روی پروژه Vaani پرده برداری کرد که هدف آن جمع‌آوری داده‌های گفتاری ناشناس در 773 منطقه و ایجاد یک LLM به نمایندگی از جمعیت متنوع کشور است.

همچنین: آیا مهندس سریع، دانشمند داده را به عنوان “جذاب ترین شغل قرن بیست و یکم” جایگزین می کند؟

هفته گذشته، لورنس لیو، مدیر نوآوری هوش مصنوعی هوش مصنوعی سنگاپور، از بازیگران مولد هوش مصنوعی خواست تا مدل‌های داده‌های منطقه‌ای و محلی را ترکیب کنند تا اطمینان حاصل شود که محصولاتشان بازتاب بهتری از جمعیت متنوع جهانی دارند. لیو گفت که ادغام SEA-LION، به عنوان مثال، به ابزارهای هوش مصنوعی مولد کمک می‌کند تا پاسخ‌های دقیق‌تری تولید کنند و اشاره کرد که LLM منطقه‌ای پیش‌بینی دقیق‌تری را در مقایسه با یک پلتفرم عمومی جهانی در مورد انتخابات اخیر آسیایی ایجاد کرد.

او افزود که امروزه اکثر ابزارهای عمومی AI مولد غیر آسیایی هستند و ممکن است دارای سوگیری داده های ذاتی باشند. LLM‌هایی مانند SEA-LION از نظر فرهنگی حساس‌تر هستند، که به گفته او اطمینان حاصل می‌کند که پاسخ‌های مولد AI ترکیب اجتماعی منطقه را بهتر منعکس می‌کند.



منبع: https://www.zdnet.com/article/google-joins-collaborative-efforts-to-build-localized-large-language-models/#ftag=RSSbaffb68