جدیدترین فناوری NVIDIA صداهای هوش مصنوعی را گویاتر و واقعی تر می کند – TechCrunch

صداهای Alexa ، Google Assistant و سایر دستیارهای هوش مصنوعی بسیار جلوتر از دستگاه های GPS قدیمی هستند ، اما هنوز فاقد ریتم ، صدا و سایر ویژگی هایی هستند که باعث می شوند گفتار به خوبی به نظر برسد. NVIDIA از تحقیقات و ابزارهای جدیدی رونمایی کرده است که می تواند با آموزش سیستم هوش مصنوعی با صدای خود ، این ویژگی های طبیعی گفتار را به تصویر بکشد.

تیم تحقیق NVIDIA برای تبدیل صدا به هوش مصنوعی ، مدلی به نام RAD-TTS را توسعه داد که در مسابقه کنوانسیون پخش NAB برای ایجاد واقع گرایانه ترین نماد موفق شد. این سیستم به فرد اجازه می دهد تا مدل متن به گفتار را با صدای خود ، از جمله قدم زدن ، تنالیته ، آهنگ و موارد دیگر آموزش دهد.

https://www.youtube.com/watch؟v=RknIx6XmffA

یکی دیگر از ویژگی های RAD-TTS تبدیل صدا است که به کاربر اجازه می دهد کلمات یک گوینده را با استفاده از صدای شخص دیگر ارائه دهد. آن رابط کنترل خوب ، سطح فریم را بر میزان صدای صدا ، مدت زمان و انرژی آن می دهد.

با استفاده از این فناوری ، محققان NVIDIA برای مجموعه ویدئویی I Am AI خود با استفاده از صدای ترکیبی و نه انسانی ، روایت صوتی با صدای مکالمه ایجاد کردند. هدف این بود که روایت با لحن و سبک ویدئوها مطابقت داشته باشد ، چیزی که تا به امروز در بسیاری از فیلم های روایت شده با هوش مصنوعی به خوبی انجام نشده است. نتایج هنوز کمی روباتیک است ، اما بهتر از هر روایت هوش مصنوعی است که من شنیده ام.

مطالب پیشنهادی  Fifty Years، یک سرمایه گذار فناوری عمیق، 90 میلیون دلار از ده ها بنیانگذار "یونیکورن" جمع آوری کرده است - TechCrunch.

“با این رابط ، تهیه کننده ویدئوی ما می تواند خود را در حال خواندن فیلمنامه ضبط کند و سپس از مدل هوش مصنوعی برای تبدیل گفتار خود به صدای راوی زن استفاده کند. با استفاده از این روایت اولیه ، تهیه کننده می تواند هوش مصنوعی را مانند یک صداپیشه هدایت کند – گفتار ترکیبی را برای تأکید بر کلمات خاص تنظیم کند و قدم روایت را برای بیان بهتر ویدئو تغییر دهد. “

NVIDIA در حال توزیع برخی از این تحقیقات است-البته برای کارایی م onثر بر پردازنده های گرافیکی NVIDIA-به هر کسی که می خواهد آن را از طریق منبع باز از طریق ابزار NVIDIA NeMo Python برای هوش مصنوعی مکالمه با GPU ، که در مرکز کانتینرهای NGC شرکت موجود است ، امتحان کند. و نرم افزارهای دیگر

“چندین مدل با ده ها هزار ساعت داده صوتی بر روی سیستم های NVIDIA DGX آموزش دیده اند. توسعه دهندگان می توانند هر مدلی را برای موارد استفاده خود تنظیم کرده و آموزش را با استفاده از محاسبات با دقت مختلط در GPU های NVIDIA Tensor Core سرعت بخشند. “

یادداشت ویراستار: این پست در ابتدا در Engadget ظاهر شد.

18 املاک