Google در حال پیوستن به تلاشهای مشترک برای ساخت مدلهای زبانی بزرگ (LLM) است که بهتر به جمعیت و ترکیب فرهنگی آسیای جنوب شرقی پاسخ میدهد.
بازوی تحقیقاتی آن با هوش مصنوعی سنگاپور برای تقویت مجموعه داده های مورد استفاده برای آموزش، تنظیم دقیق و ارزیابی مدل های هوش مصنوعی به زبان های خاص منطقه کار خواهد کرد. AI سنگاپور روز دوشنبه در بیانیهای گفت: این ابتکار که پروژه زبانهای آسیای جنوب شرقی در یک داده شبکه (SEALD) نامیده میشود، با هدف “بهبود آگاهی بافت فرهنگی” در LLMهای ساخته شده برای منطقه انجام میشود.
همچنین: پنج روش برای استفاده مسئولانه از هوش مصنوعی
این آژانس دولتی افزود که این همکاری ابتدا بر روی زبان های اندونزیایی، تایلندی، تامیلی، فیلیپینی و برمه ای متمرکز خواهد شد و دو شریک به طور مشترک مدل های ترجمه و ترجمه را توسعه می دهند. آنها همچنین ابزارهایی را برای کمک به مقیاس کردن قابلیتهای جابهجایی و بهترین شیوهها برای تنظیم مجموعه دادهها توسعه خواهند داد. راهنماهای پیشآموزشی برای زبانهای آسیای جنوب شرقی منتشر خواهد شد.
هوش مصنوعی سنگاپور اضافه کرد که تمام مجموعه داده ها و خروجی های Project SEALD به صورت متن باز منتشر خواهند شد.
این ابتکار بیشتر از تلاشهای آموزشی برای مدلهای زیر SEA-LION (زبانهای آسیای جنوب شرقی در یک شبکه)، که آژانس دولتی سنگاپور سال گذشته راهاندازی کرد، حمایت میکند.
همچنین: بهترین چت ربات های هوش مصنوعی: ChatGPT و سایر جایگزین های قابل توجه
تکرار فعلی SEA-LION که از LLM های منبع باز از پیش آموزش دیده برای تفاوت های اجتماعی منطقه تشکیل شده است، بر روی دو مدل پایه اجرا می شود: یک مدل پارامتر سه میلیاردی و یک مدل پارامتری هفت میلیاردی. داده های آموزشی آن شامل 981 میلیارد توکن زبان است. هوش مصنوعی سنگاپور این نشانه ها را به عنوان قطعاتی از کلمات ایجاد شده از شکستن متن در طول توکن سازی تعریف می کند. این قطعات شامل 623 میلیارد توکن انگلیسی، 128 میلیارد توکن آسیای جنوب شرقی و 91 میلیارد توکن چینی است.
پروژه SEALD در حال حاضر روی یک مورد استفاده برای بهبود ارتباطات با کارگران مهاجر در سنگاپور کار می کند، افرادی که ممکن است به زبان های مختلف منطقه ای روان تر از انگلیسی صحبت کنند. تلاشهای جمعآوری دادهها منعکسکننده ویژگیهای زبانی منحصربهفرد در این جامعه است و پایهای را برای بهبود تعامل بین دولت سنگاپور و کارفرمایان فراهم میکند.
مجموعه دادهها و خروجیهای Project SEALD با برنامههای هوش مصنوعی مولد توسعهیافته توسط Google Cloud و دولت سنگاپور، تحت طرح AI Trailblazers، ادغام خواهند شد تا از دسترسی به جامعه حمایت کنند.
شرکای پروژه SEALD همچنین با صنعت، از جمله دانشگاه و بخش عمومی، در سراسر عملکردها، مانند جمع آوری داده ها و بررسی های کیفیت، کار خواهند کرد. این تلاشها شامل همکاری با دانشگاهها در کشورهای مختلف آسیای جنوب شرقی برای ایجاد روششناسی برای ارزیابی و محک زدن برنامههای کاربردی هوش مصنوعی در سراسر منطقه خواهد بود.
همچنین: آیا می خواهید در هوش مصنوعی کار کنید؟ چگونه حرفه خود را در 5 مرحله تغییر دهید
هوش مصنوعی سنگاپور همچنین قصد دارد SEA-LION LLM را در باغ مدل Google Cloud در Vertex AI در دسترس قرار دهد و امکان دسترسی به مدلهای هوش مصنوعی از پیش تأیید شده را فراهم کند. LLM های منطقه ای به Hugging Face، یک مخزن منبع باز برای ابزارهای هوش مصنوعی و مدل های از پیش آموزش دیده که بیشتر بر قابلیت های پردازش زبان طبیعی متمرکز هستند، اضافه خواهند شد.
AI سنگاپور روز دوشنبه همچنین اعلام کرد که یادداشتهای تفاهم و نامههایی با سازمانهای مختلف در اندونزی، مالزی و ویتنام امضا کرده است تا مجموعه دادهها و برنامههای کاربردی برای LLMهای منطقهای را توسعه دهند.
علاوه بر این، آژانس سنگاپور گفت که با شرکای خود در اندونزی، تایلند و فیلیپین برای ایجاد منابعی بر روی نحو و معنای زبان منطقه ای کار می کند. اینها شامل مؤسسه علم و فناوری Vidyasirimedhi تایلند و آزمایشگاه علوم محاسبات اجتماعی Ateneo فیلیپین است.
در سال 2022، Google Research از همکاری با موسسه علوم هند برای کار بر روی پروژه Vaani پرده برداری کرد که هدف آن جمعآوری دادههای گفتاری ناشناس در 773 منطقه و ایجاد یک LLM به نمایندگی از جمعیت متنوع کشور است.
همچنین: آیا مهندس سریع، دانشمند داده را به عنوان “جذاب ترین شغل قرن بیست و یکم” جایگزین می کند؟
هفته گذشته، لورنس لیو، مدیر نوآوری هوش مصنوعی هوش مصنوعی سنگاپور، از بازیگران مولد هوش مصنوعی خواست تا مدلهای دادههای منطقهای و محلی را ترکیب کنند تا اطمینان حاصل شود که محصولاتشان بازتاب بهتری از جمعیت متنوع جهانی دارند. لیو گفت که ادغام SEA-LION، به عنوان مثال، به ابزارهای هوش مصنوعی مولد کمک میکند تا پاسخهای دقیقتری تولید کنند و اشاره کرد که LLM منطقهای پیشبینی دقیقتری را در مقایسه با یک پلتفرم عمومی جهانی در مورد انتخابات اخیر آسیایی ایجاد کرد.
او افزود که امروزه اکثر ابزارهای عمومی AI مولد غیر آسیایی هستند و ممکن است دارای سوگیری داده های ذاتی باشند. LLMهایی مانند SEA-LION از نظر فرهنگی حساستر هستند، که به گفته او اطمینان حاصل میکند که پاسخهای مولد AI ترکیب اجتماعی منطقه را بهتر منعکس میکند.
منبع: https://www.zdnet.com/article/google-joins-collaborative-efforts-to-build-localized-large-language-models/#ftag=RSSbaffb68