D-ID راه اندازی “پرتره صحبت کردن” ، راهی برای تبدیل عکس ها به ویدئوهای سفارشی و واقعی-TechCrunch

شرکتی که فناوری آن برنامه فوق العاده MyHeritage را که عکس های کلاسیک خانوادگی را به پرتره های متحرک واقعی تبدیل کرده است ، با فناوری جدیدی به کار گرفته است: تبدیل عکس های ثابت به ویدئوهای فوق واقع بینانه ، قادر به بیان هرچه می خواهید.

پرتره های صحبت کننده D-ID ممکن است شبیه “دیف فیک” های معروف باشند که طی چند سال گذشته خبرساز شده اند ، اما فناوری زیربنایی در واقع کاملاً متفاوت است و هیچ آموزشی برای عملکردهای اساسی لازم نیست.

D-ID ، که در واقع در TechCrunch Battlefield در سال 2018 با تمرکز بسیار متفاوتی (درهم آمیختن فناوری تشخیص چهره) به نمایش درآمد ، محصول جدید Talking Portraits خود را به صورت زنده در TechCrunch Disrupt 2021 به نمایش گذاشت. این شرکت تعدادی مورد استفاده ، از جمله استفاده از جدید خود را به نمایش گذاشت. فناوری برای ایجاد یک مجری تلویزیونی چند زبانه که بتواند احساسات مختلف را بیان کند. ایجاد افراد مجازی chatbot برای تعامل با پشتیبانی مشتری ؛ توسعه دوره های آموزشی برای استفاده از توسعه حرفه ای ؛ و ایجاد کیوسک های تبلیغاتی ویدیویی مکالمه تعاملی.

هم این محصول جدید و هم مشارکت D-ID با MyHeritage ، که باعث شد برنامه اخیر این شرکت به طور خلاصه برترین نمودارهای App Store اپل را تصاحب کند ، بدیهی است که از تمرکز اولیه این شرکت خارج می شود. حتی تا ماه مه سال گذشته ، D-ID همچنان بر اساس رویکرد قبلی خود بودجه جمع آوری می کرد ، اما مشارکت آن با MyHeritage در ماه فوریه آغاز شد ، و پس از آن یک معامله مشابه با GoodTrust و یک پیوند سریع با Warner Bros. فیلم هیو جکمن خاطره گویی که به طرفداران اجازه می داد خود را وارد تریلر آن کنند.

محور D-ID ممکن است از بیشتر چشمگیرتر به نظر برسد ، اما از دیدگاه فنی تمرکز جدید آن بر زنده نگه داشتن عکس ها چندان دور از نرم افزار شناسایی آن نیست. مدیر عامل و بنیانگذار D-ID ، گیل پری ، به من گفت که شرکت مسیر جدید را انتخاب کرده است ، زیرا مشخص است که در مورد این نوع برنامه ها بازار آدرس دهی بسیار بزرگی وجود دارد.

به نظر می رسد مشتریان بزرگ مانند Warner Bros. و همچنین یک برنامه برتر App Store از یک مارک نسبتاً ناشناخته از این ارزیابی پشتیبانی می کنند. با این حال ، صحبت کردن در پرتره ، برای مشتریان بزرگ و کوچک در نظر گرفته شده است و به هر کسی امکان می دهد یک فیلم کامل HD از یک تصویر منبع ، به علاوه گفتار ضبط شده یا متن تایپ شده ، تولید کند. D-ID محصول را با پشتیبانی از انگلیسی ، اسپانیایی و ژاپنی روانه بازار می کند ، اما قصد دارد در آینده نیز زبان های دیگری را اضافه کند ، زیرا مشتریان از آنها پشتیبانی می خواهند.

D-ID دو دسته اصلی پرتره صحبت کردن را ارائه می دهد ، از جمله “پرتره تک” که می تواند تنها با استفاده از یک تصویر ثابت ساخته شود ، که دارای سر متحرک است اما سایر قسمت ها ثابت می مانند. این مورد فقط با پس زمینه موجود در عکس کار می کند.

برای واقعیت کمی عجیب تر ، یک گزینه “شخصیت تربیت شده” وجود دارد که مستلزم ارسال یک فیلم آموزشی 10 دقیقه ای از شخصیت درخواست شده ، طبق دستورالعمل های ارائه شده توسط شرکت است. این مزیت این است که بتوانید در یک زمینه سفارشی و قابل تغییر کار کنید و برخی از گزینه های انیمیشن از پیش تعیین شده را برای بدن و دست شخصیت نشان دهید.

نمونه ای از گوینده خبر پرتره صحبت کننده را که با استفاده از روش کاراکتر آموزش دیده در زیر ایجاد شده است ، بررسی کنید تا درک کنید که چقدر واقعی است:

https://www.youtube.com/watch؟v=nV_sLx3PceU

نسخه نمایشی که پری امروز به صورت زنده در Disrupt به ما نشان داد از عکس ثابت خود در کودکی ایجاد شده است. این عکس بر اساس حالات چهره ای که توسط یک عروسک گردان انسانی اجرا شده بود ، نگاشته شد و همچنین فیلمنامه آنچه را که نسخه پرتره اسپیکینگ گیل در تعامل بین خود فعلی و جوانتر خود بیان کرد ، بیان کرد. در زیر می توانید ویدئویی از نحوه انعکاس عبارات گوینده توسط عکس متحرک را مشاهده کنید:

https://www.youtube.com/watch؟v=oFW7iktsuYg

بدیهی است ، توانایی ایجاد ویدئوهای واقع بینانه از یک عکس تنها که بتواند هر خطی را که می خواهید به طرز قانع کننده ای ارائه دهد ، کمی چشم انداز بلند کننده مو است. ما قبلاً مباحث گسترده ای راجع به اخلاق جعلی های عمیق و همچنین تلاش های صنعت برای تلاش برای اثر انگشت و شناسایی زمان واقعی و مصنوعی نتایج هوش مصنوعی را مشاهده کرده ایم.

پری در Disrupt گفت که D-ID “مشتاق است که مطمئن شود از آن برای خوب استفاده می شود نه بد” و برای دستیابی به این هدف ، آنها در پایان ماه اکتبر ، در کنار شرکای خود ، تعهد می دهند که تعهدات خود را برای “شفافیت و رضایت” در مورد استفاده از فناوری مانند صحبت کردن با پرتره بیان کنید. هدف از تعهد فوق این است که اطمینان حاصل شود که “کاربران در مورد آنچه می بینند دچار سردرگمی نمی شوند و افراد درگیر رضایت خود را اعلام می کنند.”

در حالی که D-ID می خواهد در مورد استفاده و موقعیت عمومی خود در مورد سوء استفاده از این نوع فناوری تضمین دهد ، پری می گوید “نمی تواند به تنهایی این کار را انجام دهد” ، به همین دلیل است که او از دیگران در اکوسیستم می خواهد تا در این زمینه نیروهای خود را متحد کنند. تلاش برای جلوگیری از سوء استفاده