Dall•E 2 از OpenAI ممکن است به این معنی باشد که دیگر هرگز نیازی به عکس‌های استوک نداریم

سایر درخواست‌ها ممکن است به دلیل انتخاب یک کلمه، به DALL•E 2 بیفتند.

این عبارت را می توان با کلمات اضافی برای به دست آوردن نتایج خاص تر، مانند “عکس کاربر بسیار مضطرب کامپیوتر” تقویت کرد. روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”

همین درخواست، با جایگزینی شخصیت عمومی نسبتاً کمتر شناخته شده Tiernan Ray، یکی از نویسندگان مشارکت کننده ZDNET، مجموعه ای از تصاویر سرگرم کننده از افرادی ایجاد کرد که تیرنان ری نیستند.

با به کار بردن اصطلاحات هنرمندان یا رسانه هنری یا سبک، می توان همان تصویر را از قلمرو عکاسی استوک به قلمرو تصویرسازی تغییر داد، مانند عبارت «فرانسیس بیکن نقاشی گروهی از مردم در یک اتاق کنفرانس و یک نفر». با عینکی که کنار تخته سیاه ایستاده و چیزی را توضیح می دهد.”

نقطه قوت DALL•E 2، مانند نسخه قبلی خود، ایجاد تصاویر از متنی است که شخص در فیلدی در صفحه وب تایپ می کند. عبارت «فضانوردی سوار بر اسب به سبک فوتورئالیستی» را تایپ کنید، و تصویری تقریباً به همین شکل ظاهر می‌شود: نمایشی واقع‌گرایانه از چهره‌ای در نیم رخ در لباس فضانوردی، سوار شدن بر اسبی که در حال قدم زدن در برابر چیزی است که شبیه تصویری از فضانوردی است. کیهان.

نکته اصلی رامش و همکارانش این است که روشی که فشرده‌سازی/فشرده‌سازی اتفاق می‌افتد به فرد اجازه می‌دهد تا بیش از ترجمه ساده بین متن و تصویر، از عباراتی برای شکل دادن به جنبه‌های یک تصویر استفاده کند، مانند افزودن عبارت “عکس واقع‌گرایانه”. که چیزی را با واقع گرایی لطیف خاصی تولید می کند.

dall-e-2022-09-30-22-46-52-a-zdnet-نویسنده-سهام-دیدن-آینده-فناوری-در-مقالات-خود-در-کنار-کوه-هوایی- in-space.png

درخواست «یک کیسه پول نشسته روی صندلی چمنزار در ایوانی مشرف به غروب خورشید» تصاویر کاملاً عجیب و غیرمرتبط مانند نمای نزدیک از ناخن‌های پا و تصویری مبهم ایجاد کرد که به نظر می‌رسید چند گل در داخل یک فرش گیر کرده است.

“عکس کاربر بسیار مضطرب کامپیوتر روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”

“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”

“عکس شخصی با عینک که در کنار تخته سیاه در اتاق کنفرانس ایستاده و چیزی را برای همکارانش توضیح می دهد”

dall-e-zdnet-contributor-2.png

جایگزینی کلمه “قرار گرفته” به جای “نشستن” به DALL•E 2 اجازه داد تا در یکی از سه تصویر، نتیجه رضایت بخشی ایجاد کند.

مجموعه-کیسه-پول-دال-2

“عکس یک نفر با عینک که به چند نفر در یک میز کنفرانس در اتاق جلسه اشاره می کند”

“فرانسیس بیکن نقاشی گروهی از مردم در یک اتاق کنفرانس و یک نفر با عینک که در کنار تخته سیاه ایستاده و چیزی را توضیح می دهد.”

شما می توانید با امتحان آن را برای خودتان ببینید. بسیاری از چیزهایی که بلافاصله به ذهن می رسد ترکیب های خنده دار هستند. برای مثال، «یک نهنگ آبی و یک بچه گربه که در ساحل دوست می‌شوند، هنر دیجیتال» خروجی دل‌انگیز کارت تبریک زیر را تولید می‌کند.

در حالی که تصاویر هنوز تا حدی خشن هستند، می توانید ببینید که DALL•E 2 این پتانسیل را دارد که جایگزین بسیاری از تصاویر تجاری و حتی عکاسی استوک شود. با تایپ یک عبارت، و یک سبک، مانند “عکس”، می توانید تصاویر مختلفی را که ممکن است برای نشان دادن مقالات مناسب باشند، خروجی بگیرید.

Dall•E 2 از OpenAI که این هفته به طور کلی در دسترس عموم قرار گرفت، می‌تواند با تایپ یک عبارت، تصاویری در ژانرها و سبک‌های مختلف ایجاد کند، در این مورد، «عکس یک شخص با عینک که به چند نفر در یک نقطه اشاره می‌کند. میز کنفرانس در اتاق جلسه.”

“تصویر واقعی از یک نویسنده مشارکت کننده ZDNET که آینده فناوری را در مقالات خود در دامنه کوهی که در فضا معلق است می بیند.”

همانطور که می بینید، چیزهایی مانند ویژگی های صورت به طور کلی در خروجی DALL•E 2 تخریب می شوند.

قلمرو چیزهای جعلی همچنان توسط هوش مصنوعی اصلاح می شود، زیرا متن جعلی چند سال پیش با برنامه پردازش زبان طبیعی GPT-3 از راه اندازی OpenAI تسلط یافت.

هنگامی که شروع به تمرکز بر روی عکاسی استوک کردید، متوجه خواهید شد که می توانید سناریوهای زیادی برای تبدیل شدن به یک تصویر داشته باشید. برای مثال، «عکس شخصی با عینک که در یک میز کنفرانس در یک اتاق جلسه به چند نفر اشاره می‌کند» انتخاب بسیار خوبی از رژگونه اول مانند صحنه‌های اداری واقعی به دست می‌دهد.

Dale-Person-in-Meeting-Explaining-set-2

“آیا DALL•E 2 نام خودش را می داند؟”

با افزودن چیزی که آنها “بازیابی” می نامند، این برنامه نه تنها برای یافتن یک ترکیب “معنای” از کلمه و تصویر، بلکه برای جستجوی ترکیبات نتایج جستجوی اینترنتی که خروجی را به خوبی تنظیم می کند، توسعه یافته است. آنها ادعا می کنند که نتایج بسیار برتر از Imagen و DALL•E 2 در استفاده از عبارات نادر و مبهم مانند “Picarones با شراب سرو می شود” است که به دسر سیب زمینی شیرین پرو اشاره دارد.


منبع: https://www.zdnet.com/article/openais-dall-e-2-may-mean-we-never-need-stock-photos-again/#ftag=RSSbaffb68

هنگامی که یک حساب کاربری ایجاد می کنید، OpenAI 50 “اعتبار” به شما می دهد، اینها درخواست های رایگان به سیستم هستند، که در آن هر عبارت وارد شده به عنوان یک درخواست حساب می شود. هنگامی که 50 اعتبار را مصرف کردید، می توانید یک ماه صبر کنید و 15 اعتبار رایگان بعدی را دریافت کنید، یا می توانید اعتبار خریداری کنید. اعتبار در بسته های 115 تایی به قیمت 15 دلار یا 13 سنت در هر اعتبار فروخته می شود.

“موش با خز آبی که میدان تایمز را اشغال کرده است”

استفاده از عبارت “عکس کاربر بسیار مضطرب رایانه که به مانیتور رایانه خود خیره شده و هشدار وصله ویندوز را می بیند” مجموعه ای لذت بخش از تصاویر کاربران معمولی ترسناک رایانه را ایجاد کرد.

باز هم، می‌توان با چند کلمه ویژگی‌های خاص‌تر و تغییر صحنه را دریافت کرد، مانند “عکس شخصی با عینک که در کنار تخته سیاه در اتاق کنفرانس ایستاده و چیزی را برای همکارانش توضیح می‌دهد.”

dalle-tiernan-ray-smoking-a-cigar

اکنون تصاویری که به لطف برنامه هایی مانند StyleGAN انویدیا به جعل قابل توجهی دست یافته بودند، معرفی کرد توسط Tero Karras و همکارانش در Nvidia در سال 2019، تابستان امسال با اعلام OpenAI برنامه جدیدی برای تصاویر جعلی، DALL•E 2، که بر اساس اولین DALL•E منتشر شده در ژانویه 2021 ساخته شده است، تقویت شد. عبارتی را که تایپ می کنید بردارید و آن را به تصویر تبدیل کنید، با روش های زیادی برای شکل دادن به تصویر خروجی.

مجموعه-کیسه-پول-دال-1

کیسه ای پول که روی صندلی چمنزاری در ایوانی مشرف به غروب آفتاب گذاشته شده است.

دله - شخص - در جلسه - توضیح دادن

“تیرنان ری در حال کشیدن سیگار در یک آپارتمان خالی با مبلمان خراب”

این هفته، OpenAI لیست انتظار را حذف کرد. هر کسی اکنون می تواند به سایت بروید تا زمانی که مایل به ایجاد یک حساب کاربری در وب سایت OpenAI با آدرس ایمیل و شماره تلفن هستند، DALL•E 2 را برای چرخش استفاده کنند.

چند نرده محافظ توسط OpenAI تعبیه شده است که به صورت کامل مشخص شده است خط مشی محتوای ارسال شده، و از آنها برای حذف خودکار هر تلاشی استفاده می شود. به عنوان مثال، تایپ کردن “بیل گیتس، بنیانگذار مایکروسافت، سیگار می کشد در یک آپارتمان خالی با مبلمان خراب” تولید نمی شود. در عوض، یک پیام خطایی نشان می‌دهد که درخواست را نقض می‌کند و شما را به صفحه خط‌مشی هدایت می‌کند. احتمالاً این مورد نقض قاعده “تصویر چهره های عمومی ایجاد نکنید” است.

dall-e-zdnet-contributor.png

dalle-anxious-windows-user-set-1

امکان کنده شدن برنامه وجود دارد. برخی از درخواست‌ها ممکن است بیش از حد ترکیبی از واقعی و خیالی باشند که به شکلی متقاعدکننده ارائه شوند. برای مثال، درخواست «موش‌هایی با خز آبی که میدان تایمز را اشغال می‌کنند» اولین تلاش مناسبی را ایجاد می‌کند، اما عنصر خز کیفیتی درهم و ناهموار به تصویر می‌دهد که واقعاً کار نمی‌کند.

“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”

این کار در یک مقاله تحقیقاتی توسط دانشمندان OpenAI، آدیتیا رامش و همکارانش توضیح داده شده است.تولید تصویر مشروط متن سلسله مراتبی با CLIP Latent” در سرور پیش چاپ arXiv ارسال شده است.

DALL•E 2 چیزی است که به عنوان رمزگذار-رمز کن کنتراست شناخته می شود. این با فشرده سازی تصاویر و زیرنویس های آنها به نوعی بازنمایی ترکیبی و انتزاعی و سپس از حالت فشرده سازی آنها ساخته می شود. این آموزش توانایی برنامه را برای مرتبط کردن متن و تصویر توسعه می دهد.

“یک نویسنده مشارکت کننده ZDNET که آینده فناوری را در مقالات خود در دامنه کوه معلق در فضا می بیند”

Dale-rats-with-Blue-Fur

دال-دال-نام-خود-خود-را-می داند

اما می توان تعدادی عکس پیش پاافتاده تری نیز دریافت کرد که متناسب با زمینه عکاسی استوک باشد. تایپ عبارت «نویسنده مشارکت‌کننده ZDNET که آینده فناوری را در مقاله‌های خود می‌بیند از دامنه کوهی که در فضا معلق است» نوعی تصویر علمی تخیلی ایجاد می‌کند که نزدیک به چیزی است که می‌تواند همراه با مقاله باشد.

dalle-anxious-windows-user-set-2

dall-e-2022-09-30-22-55-36-a-blue-hale-and-a-kitten-making-friends-on-a-beach-digital-art.png

کارها به کجا می رسند؟ کار بر روی رویکرد اساسی متن به تصویر در چندین جبهه ادامه دارد. یکی اضافه کردن پیچیدگی واژگانی بیشتر به برنامه است. به عنوان مثال، Chitwan Saharia و تیم Google Brain در ماه می منتشر شد کار آنها روی “Imagen”، برنامه ای که آنها می گویند دارای “درجه بی سابقه ای از فوتورئالیسم” است. ترفند این بود که از مجموعه ای بسیار بزرگتر از مواد زبانی برای آموزش شبکه استفاده کنید.

«تعدادی از مردم در مقابل مک‌دونالد»

می‌توان عبارت «تصویر واقعی» را اضافه کرد و کمی نرم‌تر شد.

داله-مکدونالدز

چهار نسخه در زمان ارائه شده است و شما می توانید هر یک از آنها را با فرمت PNG دانلود کنید.

به طور کلی، به نظر می رسد برنامه با جنبه های مکان، مانند «ایستادن در مقابل سه پایه» دست و پنجه نرم می کند.

علاوه بر این، به نظر می رسد متن دارای حق چاپ از نقض عمده فروشی محافظت می شود. عبارت «تعدادی از مردم که جلوی مک‌دونالد می‌آیند» صحنه‌ی مناسبی را ایجاد می‌کند، اما هر نتیجه‌ای که ارائه می‌شود تغییرات جزئی در «مک‌دونالد» دارد تا در واقع آن کلمه نباشد.

دال-نهنگ-و-گربه

و کار در حال انجام است تا پیچیدگی انواع چیزهایی که یک برنامه می تواند بسازد را گسترش دهد. به عنوان مثال، دانشمندان گوگل، Wenhu Chen و همکارانش این ماه ایجاد شد برنامه ای که Imagen Sahari و تیم را گسترش می دهد، به نام “Re-imagen” که ایده اصلی فشرده سازی متن و تصویر را با عنصر سوم، نتایج جستجو، ترکیب می کند.

دله-فرد-در-جلسه-در حال توضیح-فرانسیس-بیکن

ممکن است برنامه نتواند ترکیب مناسبی از عناصر را برای چیزی که به نظر می رسد یک فعل فعال است، یعنی نشستن، در صورت ترکیب با یک شی بی جان، یک کیسه، پیدا کند.

“عکس کاربر بسیار مضطرب کامپیوتر که به مانیتور کامپیوتر خود خیره شده و هشدار وصله ویندوز را می بیند”

به نظر می رسد عباراتی که شرح نیستند، اما سؤالات یا حروف الفبا هستند، سیستم را در حالت تصادفی راه اندازی می کنند. به عنوان مثال، “آیا DALL•E 2 نام خود را می داند؟” بیانی است که چندین تصویر از گل ها را ایجاد می کند. این ممکن است یک پاسخ شاعرانه باشد، اما بیشتر شبیه رد درخواست است.

“یک کیسه پول که روی صندلی چمنی روی ایوانی مشرف به غروب آفتاب نشسته است.”