مدل جدید هوش مصنوعی پایداری در تولید دست کمی بهتر است

Stability AI، استارت‌آپی که طیف وسیعی از آزمایش‌های هوش مصنوعی مولد را تأمین مالی می‌کند، نسخه جدیدی از Stable Diffusion، سیستم هوش مصنوعی متن به تصویر را منتشر کرده است که جزو اولین سیستم‌هایی بود که رقیب OpenAI DALL-E 2 بود.

این سیستم جدید که Stable Diffusion XL یا SDXL نامیده می شود – که در نسخه بتا از طریق DreamStudio، ابزار هنری مولد Stability AI در دسترس است – به روش های کلیدی نسبت به نسخه اصلی بهبود می یابد. تام میسون، مدیر ارشد فناوری هوش مصنوعی پایداری، می‌گوید که «غنای» را برای تولید تصویر به ارمغان می‌آورد که مدل قدیمی (Stable Diffusion 2.1) فاقد آن بود، با پیشرفت‌هایی که در برنامه‌هایی مانند طراحی گرافیکی و معماری برجسته‌تر است.

او در بیانیه‌ای اعلام کرد: «ما هیجان‌زده‌ایم که آخرین نسخه را در سری راه‌حل‌های تصویری Stable Diffusion خود اعلام کنیم. “[It’s] دگرگون کننده در چندین صنعت … با نتایجی که در مقابل چشمان ما رخ می دهد.

با کنار گذاشتن هذل، SDXL واقعاً همتراز – و شاید حتی بهتر از – آخرین نسخه مدل MIdJourney، مدلی که مسئول “Balenciaga Pope” است (در میان دیگر الگوهای رفتاری) به نظر می رسد.

در حالی که نسخه قبلی Stable Diffusion و بسیاری دیگر از سیستم های تبدیل متن به تصویر به شدت برای بازسازی آناتومی خاصی مانند دست ها تلاش می کنند، SDXL چنین مشکلی ندارد. دست ها همیشه… خوب، واقع بینانه نیستند. اما آنها فرسنگ ها جلوتر از سوخت کابوس آلود SDXL هستند.

SDXL دست ها را بهتر کنترل می کند، اما بدیهی است که کاملاً خوب نیست.

Stable Diffusion 2.1 به وضوح بدتر از دست است. (خودم را بیرون خواهم دید.)

ظاهراً SDXL در تولید متن نیز بهتر است، کاری که از لحاظ تاریخی مدل‌های هنری AI مولد را برای یک حلقه پرتاب می‌کند. اما اگر آزمایش مختصر من نشانه ای باشد، هنوز راه هایی در پیش دارد،

در بالا، نتایج از Stable Diffusion 2.1 است. در پایین، خروجی از SDXL.

در یک بیانیه مطبوعاتی، هوش مصنوعی پایداری همچنین ادعا می کند که SDXL دارای “ترکیب تصویر پیشرفته و تولید چهره” است و بر خلاف نسخه قبلی خود نیازی به درخواست های طولانی و دقیق برای ایجاد “تصاویر توصیفی” ندارد. علاوه بر این، SDXL دارای عملکردی است که فراتر از درخواست متن به تصویر است، از جمله درخواست تصویر به تصویر (وارد کردن یک تصویر برای دریافت تغییرات آن تصویر)، inpainting (بازسازی بخش های از دست رفته یک تصویر) و نقاشی بیرونی (ساخت یکپارچه یکپارچه). پسوند یک تصویر موجود).

به‌عنوان یک علامت عام، سعی کردم میم پاپ بالنسیاگا را با یک اعلان کوتاه تا حد امکان بازسازی کنم: «بالنسیاگا پاپ». باید بگویم که تفاوت در نتایج بیشتر از آن چیزی بود که انتظار داشتم، با مدل‌های باند فرودگاهی SDXL که ممکن است برای طراحان در مقابل لباس‌های مذهبی به‌نظر ساده‌ای که Stable Diffusion قدیمی ایجاد می‌کرد.

Stability AI می‌گوید هنگامی که از نسخه بتا خارج می‌شود، SDXL مانند نسخه‌های قبلی Stable Diffusion منبع باز خواهد بود. علاوه بر DreamStudio، SDXL در حال حاضر از طریق API Stability و همچنین در دسترسی اولیه در دسترس است.

در حالی که فناوری مولد هنر هوش مصنوعی رو به جلو حرکت می کند، ابزارهایی مانند SDXL شرکت ها را در راه ساخت و تجاری سازی آنها در آب داغ قرار داده است. هوش مصنوعی پایداری در خط تیره الف قرار دارد مورد قانونی که ادعا می‌کند این شرکت با توسعه ابزارهای خود با استفاده از تصاویر دارای حق چاپ تحت وب، حقوق میلیون‌ها هنرمند را نقض کرده است. موجودی تامین کننده تصویر Getty Images همچنین هوش مصنوعی Stability را به دلیل استفاده از تصاویر سایت خود بدون مجوز برای ایجاد Stable Diffusion اصلی به دادگاه کشانده است.

انتشار منبع باز Stable Diffusion نیز به دلیل محدودیت‌های استفاده نسبتاً سبک، موضوع بحث و مناقشه شده است. برخی از جوامع در سراسر وب از آن برای تولید دیپ‌فیک‌های شخصیت‌های مشهور و تصاویر گرافیکی خشونت استفاده کرده‌اند. تا به امروز، حداقل یکی از قانونگذاران ایالات متحده خواستار تنظیم مقرراتی برای رسیدگی به عرضه مدل هایی مانند Stable Diffusion شده است که “محتوای کافی را تعدیل نمی کنند.”

در پاسخ به این شکایت‌ها، هوش مصنوعی پایداری اخیراً متعهد شد که به درخواست‌های هنرمندان برای حذف آثارشان از مجموعه داده‌های آموزشی Stable Diffusion احترام بگذارد، اما این امر در مورد SDXL – فقط مدل‌های نسل بعدی Stable Diffusion که با نام رمز «Stable Diffusion» نامگذاری شده‌اند، صدق نمی‌کند. 3.0.” بنا به گفته Spawning، سازمانی که تلاش انصراف را بر عهده دارد، هنرمندان بیش از 78 میلیون اثر هنری را از داده‌های آموزشی مجموعه‌ای تا به امروز حذف کرده‌اند.

لعنت بر چالش‌های قانونی، هوش مصنوعی پایداری برای کسب درآمد از تلاش‌های هوش مصنوعی گسترده خود، که طیف وسیعی از هنر و انیمیشن تا صدای بیومد و تولیدی را در بر می‌گیرد، تحت فشار است. عماد مستق، مدیر عامل هوش مصنوعی پایداری به برنامه‌هایی برای عرضه اولیه سهام اشاره کرده است، اما سمافور اخیرا گزارش داده است که هوش مصنوعی پایدار – که در اکتبر گذشته بیش از 100 میلیون دلار سرمایه مخاطره‌آمیز را با ارزشی بیش از یک میلیارد دلار جمع‌آوری کرد – «در حال استفاده از پول نقد است و به کندی انجام می‌شود. پول درآوردن،”